本稿では、新たに開発したVLM評価フレームワーク simple-evals-mm を紹介します。
simple-evals-mmとは
simple-evals-mmは、視覚言語モデル(VLM)の性能を評価するためのフレームワークで、OpenAIのLLM評価フレームワーク simple-evalsの設計を踏襲しつつ、VLMの評価に拡張したものです。
simple-evalsの設計を引き継いでいるため、シンプルで使いやすいインターフェースで、モデルやタスクの追加も容易に行えるようになっています。 さらに、独自に追加した機能として、評価結果の図示やモデル出力の分析など、評価を行う上で役立つ機能が備わっています。
サポートしているタスク
現時点で以下のタスクをサポートしています。
日本語
- マルチモーダルタスク: JAMMEval collection (CC-OCR, CVQA, Heron-Bench, JA-Multi-Image-VQA, JA-VLM-Bench, JDocQA, JGraphQA), BusinessSlideVQA, JMMMU, MECHA-ja
JAMMEvalは、既存の日本語ベンチマークに含まれる不良事例を人手で精緻化することで構築したベンチマークコレクションです。詳細は先日公開したこちらの記事。simple-evals-mmを用いることで、JAMMEvalの評価結果を再現することができます。
英語
-
マルチモーダルタスク: AI2D, BLINK, ChartQA, CountBenchQA, DocVQA, InfoVQA, MMMU, OKVQA, RealWorldQA, ScienceQA, SeedBench-v2, TextVQA
サポートしているモデル
現時点でGPT-5やGemini 3 Pro、InternVL、Qwen-VL、Sarashina、LLM-jp-VLをサポートしています。以下の表に、各バックエンドで利用可能なモデルのプレフィックスを示します。
| Backend | Model name prefix |
|---|---|
| OpenAI (Chat Completions) | gpt-4o-2024-11-20 |
| OpenAI (Responses API) | gpt-5.1-2025-11-13 |
| Google Gemini | gemini-3-pro-preview |
| InternVL | OpenGVLab/InternVL3.5 |
| Qwen-VL | Qwen/Qwen3-VL |
| Sarashina | sbintuitions/sarashina2.2-vision-3b |
| LLM-jp-VL | llm-jp/llm-jp-4-vl-9b-beta |
タスクやモデルの追加は容易に行えるようになっていますので、ぜひご活用ください。
便利機能
評価結果の図示
simple-evals-mmは、以下のように評価結果の図を出力する機能も備えています。モデルリリース記事におけるベンチマーク結果の図示などにご活用ください。
uv run python src/simple_evals_mm/visualize.py --evals heronbench
モデル出力の分析
simple-evals-mmは、モデルの回答結果を分析するためのビューワーも備えています。 これにより、モデルの出力を実際の画像や質問文とともに確認することができ、モデルの挙動をより深く理解することができます。 エラーのアノテーションも同時に行うことができますので、エラーの分類にもご活用ください。
uv run python -m simple_evals_mm.viewer.app
# Opens http://localhost:5001
まとめ
今回紹介したsimple-evals-mmはGitHub上で公開されており、誰でも自由に利用することができます。 ご利用の際はぜひGitHubの⭐️や、フィードバックをお寄せいただけると嬉しいです。
参考文献
- simple-evals-mm
- 今回紹介したsimple-evals-mmのGitHubリポジトリです。
- simple-evals
- simple-evals-mmの設計において参考にした、OpenAIのLLM評価フレームワークです。
- JAMMEval
- simple-evals-mmはJAMMEvalプロジェクトの一環として開発されました。