VLMとは?活用例や評価基準、選び方を解説!

近年、ChatGPTなどの大規模言語モデル(LLM)に画像を入力できる新しいタイプのモデルが次々と登場しています。これらのモデルはテキストだけでなく、画像の認識もできるため、多様なシーンで活用されています。
しかし、実行したいタスクに最適なモデルをどうやって選べばいいのか、悩んでいる方も多いのではないでしょうか?
この記事では、モデルの評価方法や選択時の注意点について、具体的な例を交えながら分かりやすく解説していきます。
ネクストリーマーは、高精度なAIモデルを実現するアノテーションサービスを提供しています。
アノテーションの外注を少しでもお考えの方は、無料で相談可能ですので、いつでもご相談ください。
1. VLMとは
VLM(Vision Language Model)とは、画像とテキストの両方を入力として受け取り、統合的に処理できるAIモデルの総称です。LLM(Large Language Model)がテキスト情報のみを扱うのに対し、VLMは画像などの視覚情報も理解できる点が特徴で、人間のように「言葉」と「視覚的な情報」を組み合わせて推論するAIとして注目されています。
こうした特徴を活かして、VLMは視覚と言語の両方を活用する様々なタスクに対応しています。代表的なものをいくつかご紹介します。
1. 画像のキャプション生成や映像の要約:画像や映像の内容を簡潔なテキストで表現します。 2. VQA(Visual Question Answering):画像に写っているものに関する質問に対して、テキストで回答します。 3. OCR(Optical Character Recognition):画像内の文字を認識し、テキストに変換します。 |
2. VLMの評価基準
VLMは多くのタスクに対応できるとはいえ、常に正確な出力を返すとは限りません。例えば、画像内の文字を読み間違えたり、画像の内容を誤解し、誤った状況判断をしてしまうことがあります。そのため、「どのような場面でどの程度正確に動作するのか」を定量的に評価することが重要です。
その評価は、知覚(Perception)・知識(Knowledge)・推論(Reasoning)の3つの観点から実施できます。これから、3つの観点で何を評価するのか、そしてどのような評価用データセットが公開されているのかを、具体的な例を交えながら紹介します。
1. 知覚(Perception)
知覚は画像や映像の要素(物体、色、数、空間的関係など)をどれだけ正確に認識できるかを評価する観点です。例えば、以下のような質問に対し、適切な回答ができるかによって評価します。
例1
.jpg?width=1500&height=844&name=IMG_20240501_121844%20(1).jpg)
質問:
How many traffic poles are there? |
正解例:
There are 2 traffic poles. |
例2

質問:
What color is the bus? |
正解例:
The bus is yellow. |
主に知覚の評価を目的として、以下のようなデータセットが公開されています。
印刷された文字や手書き文字の認識を評価します。 画像の内容を反映した簡潔なキャプションを生成する能力を評価します。 |
2. 知識(Knowledge)
知識は画像や映像に写っている人や要素に関する背景知識を持っているかを評価する観点です。
例えば、以下のような質問に対し、適切な回答ができるかによって評価します。
例1

質問:
What crop is being grown in this field? |
正解例:
Rice plants are being grown in this field. |
例2

質問:
What maker is the red car? |
正解例:
The red car is a Nissan. |
主に知識の評価を目的として、以下のようなデータセットが公開されています。
3. 推論(Reasoning)
推論は画像や映像内の要素や背景知識をもとに、論理的に結論を導き出す能力を評価する観点です。例えば、以下のような質問に対し、適切な回答ができるかによって評価します。
例1

質問:
Why are concrete blocks placed here? |
正解例:
To keep the sheets from blowing away. |
例2

質問:
What direction will the silver car in front go next? |
正解例:
The silver car in front will turn left. |
主に推論の評価を目的として、以下のようなデータセットが公開されています。
また、評価用データセットには3つの観点に特化したものだけでなく、知覚、知識、推論を総合的に評価できるデータセットも公開されています。
MMMU: 工学・医学・芸術・社会など幅広いジャンルの大学レベルの問題を集めたデータセットで、解答には画像の認識能力と各分野の専門知識、推論能力が必要です。 Text Recognition(知覚)、Science Knowledge(知識)、Visual Reasoning(推論)など34のタスクを通じて、3つの観点をバランスよく評価します。 |
ネクストリーマーは、高精度なAIモデルを実現するアノテーションサービスを提供しています。
アノテーションの外注を少しでもお考えの方は、無料で相談可能ですので、いつでもご相談ください。
3. モデルの選択
前章で紹介したように、タスクや観点に応じたさまざまなデータセットが公開されています。まずは実行したいタスクに近いデータセットの[ベンチマーク](https://huggingface.co/spaces/opencompass/open_vlm_leaderboard)を参考にすることで、タスクに適切なモデルの候補が見えてくるでしょう。
しかし、タスクに最適なモデルを選ぶ際には、他にも考慮すべき重要な要素がいくつかあります。
1. モデルの運用方式と選択のポイント
VLMでタスクを処理するには、自分でデプロイしたモデルを利用する方法と、第三者が提供するモデルを利用する方法の2つの選択肢があります。どちらを選ぶべきかは、タスクの要件や利用可能なリソースに応じて判断することが重要です。
①自分でデプロイしたモデルを利用する場合
例えば、自分でデプロイしたオープンソースモデルの[LLaVA](https://github.com/haotian-liu/LLaVA)を利用する場合、データが学習に利用されるリスクを回避できるため、セキュリティを重視するタスクに適しています。ただし、以下のようなデメリットも考慮する必要があります。
(1)モデルサイズの制限
デプロイするマシンで動作可能なモデルを選択する必要があります。エッジデバイスはパラメータ数が1B程度まで、メモリサイズが16GBのコンシューマー向けGPUは量子化済みならば13B程度までのモデルが動作可能な目安となります。実際にモデルが動作可能であるかは、モデルの公式ドキュメントなどをご確認ください。
(2)GPUのアーキテクチャによる制限
GPUのアーキテクチャによって、利用可能な処理や技術が制限されることがあります。使用するGPUメモリを削減する量子化や、計算を高速化する[Flash Attention](https://github.com/Dao-AILab/flash-attention)などは、[Ampere](https://www.nvidia.com/ja-jp/data-center/ampere-architecture/)(RTX3000シリーズ)以降でなければ使用できない場合もあります。
②第三者が提供するモデルを利用する場合
例えばOpenAIが提供するGPT-4oを利用する場合は最先端の超大規模モデルを使用できるため、精度を重視するタスクに適しています。ただし、以下の点に注意が必要です。
(1)データ漏洩の可能性
データは外部に送信されるため、取り扱いには注意が必要です。特に一部のサービスでは、入力データが学習に利用される場合があります。サービス毎に機密データの取り扱いについて事前によく確認し、学習に利用されるか、学習利用をオフに設定できるかを確認しておくと良いでしょう。
(2)コストの見積もり
第三者が提供するモデルを利用する際は従量課金制のサービスもあるため、予期しない高額な費用が発生しないように注意しましょう。事前にコストを見積もったり、少量のデータで試して実際にかかるコストを確認することをお勧めします。
また、バッチ処理を利用することで料金が安くなる場合もあるため、要件に問題がなければ検討してみるのも一つの方法です。
2. タスクに必要な推論速度
特にリアルタイムでの実行が求められるタスクの場合、推論速度は重要な要素です。一般的にVLMの処理は遅いため、VLM以外の特定のタスクに特化した軽量なモデルの利用を検討することも有効です。
3. 学習データの確認
モデルのパフォーマンスは、学習に使用されたデータに大きく依存します。そのため、タスクに必要な要素が適切に含まれたデータで学習されていることが重要です。
例えば、欧米の文化に特化したデータで学習されたモデルに日本の文化について質問すると、正確な回答ができない場合があります。
このように、モデルは学習時に与えられた知識に基づいて動作するため、実行するタスクに必要な知識が学習されていなければ、期待するパフォーマンスは得られません。
4. 入力する画像の処理方法
多くのモデルでは、入力画像の解像度に上限が設定されています。この制限を超える場合は画像が縮小されるため、特徴が失われて正確な回答が難しくなることがあります。
しかし最近では、解像度に応じて画像のトークン数を増減させる[Qwen2.5-VL](https://github.com/QwenLM/Qwen2.5-VL)のように、高解像度画像の細かい特徴を詳細に捉えられるモデルも登場しています。
特に高解像度画像の細部を分析する必要があるタスクでは、入力画像の解像度の取り扱いに注意し、適切なモデルを選択すると良いでしょう。
5. モデルの特徴確認
ベンチマーク上では同じような性能のモデルでも、モデルの構造や学習データなどの違いにより、知覚・知識・推論の能力にモデル毎の特徴が現れることがあります。
まずは少量のデータで特徴を検証した上で、タスクにあったモデルを選択すると良いでしょう。
ネクストリーマーは、高精度なAIモデルを実現するアノテーションサービスを提供しています。
アノテーションの外注を少しでもお考えの方は、無料で相談可能ですので、いつでもご相談ください。
4. モデルの特徴検証
実際に、自動運転に関するVQAといくつかのモデルを使用して、モデル毎の特徴を検証しました。使用した自動運転VQAとモデルの詳細は以下の通りです。
自動運転VQA
画像データはVehicleOrientationDatasetを使用しています。
質問と回答は知覚・知識・推論のそれぞれの観点で50問ずつ作成し、計150問で構成されます。
画像例:

プロンプト例:
Question: What lane is the ego car in this image? |
正解例:
A. Because there is a sidewalk to the left of the current lane. |
使用したモデル
クローズドソースモデルからは、推論能力が高いとされるClaude 3.7 Sonnetを使用します。
オープンソースモデルからは、2025年3月時点でパラメータ数20B未満の中で高性能であり、商用利用可能かつ動作確認ができた、[Ovis2](https://github.com/AIDC-AI/Ovis)と[Qwen2.5-VL](https://github.com/QwenLM/Qwen2.5-VL)を使用します。Ovis2とQwen2.5VLは、共にQwen2.5というLLMを使用していますが、ViTや学習データなどが異なります。
検証の結果(正解率)は、以下の図の通りです。



*: 多肢選択問題(正解の選択肢が1問以上)
図の正解率を見ると、「ある方向に進むとどの都市に着くか」というタスクについて、Claude 3.7 Sonnetの精度が高いことが確認できます。
画像例:

プロンプト:
Question: According to the sign, where is the destination for going straight? A. Shin-ohashi B. Harumi C. Ojima D. Ginza Please answer directly with all the correct options' letters and explain why you chose them in the following format: 'A, B, ... A: Because <REASON>, B: Because <REASON>, ...'. Replace 'A, B, ...' with the correct options and <REASON> with the reason you chose each option. Answer: |
正解の選択肢:
A, C |
Claude 3.7 Sonnetの回答
A, C. A: Because the blue directional sign shows an upward-pointing arrow that indicates going straight leads to "新大橋" (Shin-ohashi), which is written on the top row of the sign. C: Because the blue directional sign shows the same upward-pointing arrow that indicates going straight also leads to "大島" (Ojima), which is also written on the top row of the sign alongside Shin-ohashi. |
Claude 3.7 Sonnet以外のモデルで正解率が低かった原因として、位置関係の認識が苦手なため、矢印と地名の対応付けが上手くできない可能性があります。また、本来は矢印の真上にある地名のみを結びつけるべきところを、図中の赤枠で示すように、周囲の地名をまとめて関連づけてしまうような誤認が起きている可能性も考えられます。

その他のタスクについては、どのモデルも得意なタスクと不得意なタスクが概ね一致しているように見えますが、出力内容を詳細に確認することで特徴が見つかることがあります。
その一例が、「道路に障害物があれば、障害物の種類を答える」タスクにおける次の2つの画像です。1枚目の画像には路上駐車している車両が障害物として存在しますが、2枚目の画像には障害物はありません。


Claude 3.7 Sonnetは、どちらの画像も車両は走行中と判断し、障害物は存在しないと認識しました。一方で、オープンソースモデルのOvis2とQwen2.5-VLは、いずれの画像でも車両は駐車中と判断し、それが通行を妨げる障害物であると捉えています。
これは、Claude 3.7 Sonnetが「車両は動いているもの」と認識しやすいのに対し、Ovis2とQwen2.5-VLは「車両は静止しているもの」と認識しやすいという違いによるものと考えられます。Ovis2とQwen2.5-VLは映像の入力に対応しているので、画像として入力すると「車両は静止しているもの」と認識しやすくなっている可能性もあります。
さらに、モデルがどれだけ全体の状況を把握し、複合的に判断しているかを示す事例もあります。次の画像は、青信号ですが、前方の車両がブレーキランプを点灯させている渋滞中の場面です。

この画像に対して「自車は進んでよいか?」と問いかけたところ、Claude 3.7 SonnetとQwen2.5-VLはいずれも「青信号であるため進んでよい」と回答しました。
一方、Ovis2の16Bモデルは、青信号である点に加えて、前方車両のブレーキランプにも注目し、「進んではいけない」と判断しています。なお、Ovis2の8Bモデルは、青信号のみに言及しながら「進んではいけない」と答えており、モデルの能力的な限界が影響している可能性があります。
この違いから、Claude 3.7 SonnetとQwen2.5-VLが「信号」といった目立つ情報に強く引き寄せられる一方で、Ovis2は他の要素にも注意を払っている可能性が考えられます。ただし、Ovis2は車両を「静止しているもの」として捉えている傾向が、この場面ではたまたま正しい判断につながった可能性もあります。
このように、同じような構造のモデルでも知覚・知識・推論の能力に特徴が現れることがあります。
5. まとめ
この記事では、画像とテキストを同時に処理できるVLMについて、モデルを選ぶ際の評価基準やポイントを紹介しました。
VLMを選択する際には、まずタスクに必要な要素(知覚・知識・推論)を評価することで、適切なモデルを絞り込みやすくなります。また、実行環境や推論速度、学習データの内容なども選定において重要な要素です。
これらを踏まえて最適なVLMを選べるようになると、より効果的に活用できるでしょう。
ネクストリーマーは、高精度なAIモデルを実現するアノテーションサービスを提供しています。
アノテーションの外注を少しでもお考えの方は、無料で相談可能ですので、いつでもご相談ください。