simple-evals-mmの紹介 | speed1313 Blog

本稿では、新たに開発したVLM評価フレームワーク simple-evals-mm を紹介します。

simple-evals-mmとは

simple-evals-mmは、視覚言語モデル（VLM）の性能を評価するためのフレームワークで、OpenAIのLLM評価フレームワーク simple-evalsの設計を踏襲しつつ、VLMの評価に拡張したものです。

simple-evalsの設計を引き継いでいるため、シンプルで使いやすいインターフェースで、モデルやタスクの追加も容易に行えるようになっています。さらに、独自に追加した機能として、評価結果の図示やモデル出力の分析など、評価を行う上で役立つ機能が備わっています。

現時点で以下のタスクをサポートしています。

JAMMEvalは、既存の日本語ベンチマークに含まれる不良事例を人手で精緻化することで構築したベンチマークコレクションです。詳細は先日公開したこちらの記事。simple-evals-mmを用いることで、JAMMEvalの評価結果を再現することができます。

現時点でGPT-5やGemini 3 Pro、InternVL、Qwen-VL、Sarashina、LLM-jp-VLをサポートしています。以下の表に、各バックエンドで利用可能なモデルのプレフィックスを示します。

Backend	Model name prefix
OpenAI (Chat Completions)	`gpt-4o-2024-11-20`
OpenAI (Responses API)	`gpt-5.1-2025-11-13`
Google Gemini	`gemini-3-pro-preview`
InternVL	`OpenGVLab/InternVL3.5`
Qwen-VL	`Qwen/Qwen3-VL`
Sarashina	`sbintuitions/sarashina2.2-vision-3b`
LLM-jp-VL	`llm-jp/llm-jp-4-vl-9b-beta`

タスクやモデルの追加は容易に行えるようになっていますので、ぜひご活用ください。

simple-evals-mmは、以下のように評価結果の図を出力する機能も備えています。モデルリリース記事におけるベンチマーク結果の図示などにご活用ください。

uv run python src/simple_evals_mm/visualize.py --evals heronbench

simple-evals-mmは、モデルの回答結果を分析するためのビューワーも備えています。これにより、モデルの出力を実際の画像や質問文とともに確認することができ、モデルの挙動をより深く理解することができます。エラーのアノテーションも同時に行うことができますので、エラーの分類にもご活用ください。

uv run python -m simple_evals_mm.viewer.app
# Opens http://localhost:5001

今回紹介したsimple-evals-mmはGitHub上で公開されており、誰でも自由に利用することができます。ご利用の際はぜひGitHubの⭐️や、フィードバックをお寄せいただけると嬉しいです。