本稿では、新たに開発したVLM評価フレームワーク simple-evals-mm を紹介します。
simple-evals-mmとは
simple-evals-mmは、視覚言語モデル(VLM)の性能を評価するためのフレームワークで、OpenAIのLLM評価フレームワーク simple-evalsの設計を踏襲しつつ、VLMの評価に拡張したものです。
シンプルで使いやすいインターフェースを提供し、モデルやタスクの追加も容易に行えるようになっています。さらに、評価結果の図示やモデル出力の分析など、便利な機能も備えています。
サポートしているタスク
現時点で以下のタスクをサポートしています。
日本語
- マルチモーダルタスク: JAMMEval collection (CC-OCR, CVQA, Heron-Bench, JA-Multi-Image-VQA, JA-VLM-Bench, JDocQA, JGraphQA), BusinessSlideVQA, JMMMU, MECHA-ja
英語
-
マルチモーダルタスク: AI2D, BLINK, ChartQA, CountBenchQA, DocVQA, InfoVQA, MMMU, OKVQA, RealWorldQA, ScienceQA, SeedBench-v2, TextVQA
なお、英語タスクの多くはInternVLの評価コードを参考に実装しています。 ChartQAなど英語タスクの一部は、採点が完全一致ベースですが、完全一致ベースの採点は柔軟性が低いために、GPT-5やGemini 3 など強力なモデルにおいて、正しい出力であるにも関わらず、不正解とみなされてしまい、ベンチマークスコアが低く出てしまう場合があります。この点は注意してご利用ください。
なお、日本語タスクについては、多くのタスクでLLMベースの正解・不正解の採点を採用しており、採点の柔軟性が高いため、人間の採点に近い評価が可能になっています。
サポートしているモデル
現時点でGPT-5やGemini 3 Pro、InternVL、Qwen-VL、Sarashina、LLM-jp-VLをサポートしています。以下の表に、各バックエンドで利用可能なモデルのプレフィックスを示します。
| Backend | Model name prefix |
|---|---|
| OpenAI (Chat Completions) | gpt-4o-2024-11-20 |
| OpenAI (Responses API) | gpt-5.1-2025-11-13 |
| Google Gemini | gemini-3-pro-preview |
| InternVL | OpenGVLab/InternVL3.5 |
| Qwen-VL | Qwen/Qwen3-VL |
| Sarashina | sbintuitions/sarashina2.2-vision-3b |
| LLM-jp-VL | llm-jp/llm-jp-4-vl-9b-beta |
タスクやモデルの追加は容易に行えるようになっていますので、ぜひご活用ください。
便利機能
評価結果の図示
simple-evals-mmは、以下のように評価結果の図を出力する機能も備えています。
uv run python src/simple_evals_mm/visualize.py --evals heronbench
モデル出力の分析
simple-evals-mmは、以下のようにモデル出力を分析するためのビューワーも備えています。これにより、モデルの出力を実際の画像や問題文とともに確認することができ、モデルの性能をより深く理解することができます。採点の正確性を確認する際にも役立ちます。
uv run python -m simple_evals_mm.viewer.app
# Opens http://localhost:5001
まとめ
今回紹介したsimple-evals-mmは、VLMの性能を評価するためのフレームワークであり、日英さまざまなタスクをサポートしています。評価結果の図示やモデル出力の分析など、便利な機能も備えていますので、ぜひご活用ください。