Skip to content
Go back

simple-evals-mmの紹介

本稿では、新たに開発したVLM評価フレームワーク simple-evals-mm を紹介します。

simple-evals-mmとは

simple-evals-mmは、視覚言語モデル(VLM)の性能を評価するためのフレームワークで、OpenAIのLLM評価フレームワーク simple-evalsの設計を踏襲しつつ、VLMの評価に拡張したものです。

シンプルで使いやすいインターフェースを提供し、モデルやタスクの追加も容易に行えるようになっています。さらに、評価結果の図示やモデル出力の分析など、便利な機能も備えています。

サポートしているタスク

現時点で以下のタスクをサポートしています。

日本語

英語

なお、英語タスクの多くはInternVLの評価コードを参考に実装しています。 ChartQAなど英語タスクの一部は、採点が完全一致ベースですが、完全一致ベースの採点は柔軟性が低いために、GPT-5やGemini 3 など強力なモデルにおいて、正しい出力であるにも関わらず、不正解とみなされてしまい、ベンチマークスコアが低く出てしまう場合があります。この点は注意してご利用ください。

なお、日本語タスクについては、多くのタスクでLLMベースの正解・不正解の採点を採用しており、採点の柔軟性が高いため、人間の採点に近い評価が可能になっています。

サポートしているモデル

現時点でGPT-5やGemini 3 Pro、InternVL、Qwen-VL、Sarashina、LLM-jp-VLをサポートしています。以下の表に、各バックエンドで利用可能なモデルのプレフィックスを示します。

BackendModel name prefix
OpenAI (Chat Completions)gpt-4o-2024-11-20
OpenAI (Responses API)gpt-5.1-2025-11-13
Google Geminigemini-3-pro-preview
InternVLOpenGVLab/InternVL3.5
Qwen-VLQwen/Qwen3-VL
Sarashinasbintuitions/sarashina2.2-vision-3b
LLM-jp-VLllm-jp/llm-jp-4-vl-9b-beta

タスクやモデルの追加は容易に行えるようになっていますので、ぜひご活用ください。

便利機能

評価結果の図示

simple-evals-mmは、以下のように評価結果の図を出力する機能も備えています。

uv run python src/simple_evals_mm/visualize.py --evals heronbench
Viewer screenshot

モデル出力の分析

simple-evals-mmは、以下のようにモデル出力を分析するためのビューワーも備えています。これにより、モデルの出力を実際の画像や問題文とともに確認することができ、モデルの性能をより深く理解することができます。採点の正確性を確認する際にも役立ちます。

uv run python -m simple_evals_mm.viewer.app
# Opens http://localhost:5001
Viewer screenshot

まとめ

今回紹介したsimple-evals-mmは、VLMの性能を評価するためのフレームワークであり、日英さまざまなタスクをサポートしています。評価結果の図示やモデル出力の分析など、便利な機能も備えていますので、ぜひご活用ください。

参考文献


Share this post on:

Next Post
JAMMEval:信頼性の高いVLM評価のための日本語ベンチマーク精緻化