Skip to content
Go back

simple-evals-mmの紹介

本稿では、新たに開発したVLM評価フレームワーク simple-evals-mm を紹介します。

simple-evals-mmとは

simple-evals-mmは、視覚言語モデル(VLM)の性能を評価するためのフレームワークで、OpenAIのLLM評価フレームワーク simple-evalsの設計を踏襲しつつ、VLMの評価に拡張したものです。

simple-evalsの設計を引き継いでいるため、シンプルで使いやすいインターフェースで、モデルやタスクの追加も容易に行えるようになっています。 さらに、独自に追加した機能として、評価結果の図示やモデル出力の分析など、評価を行う上で役立つ機能が備わっています。

サポートしているタスク

現時点で以下のタスクをサポートしています。

日本語

JAMMEvalは、既存の日本語ベンチマークに含まれる不良事例を人手で精緻化することで構築したベンチマークコレクションです。詳細は先日公開したこちらの記事。simple-evals-mmを用いることで、JAMMEvalの評価結果を再現することができます。

英語

サポートしているモデル

現時点でGPT-5やGemini 3 Pro、InternVL、Qwen-VL、Sarashina、LLM-jp-VLをサポートしています。以下の表に、各バックエンドで利用可能なモデルのプレフィックスを示します。

BackendModel name prefix
OpenAI (Chat Completions)gpt-4o-2024-11-20
OpenAI (Responses API)gpt-5.1-2025-11-13
Google Geminigemini-3-pro-preview
InternVLOpenGVLab/InternVL3.5
Qwen-VLQwen/Qwen3-VL
Sarashinasbintuitions/sarashina2.2-vision-3b
LLM-jp-VLllm-jp/llm-jp-4-vl-9b-beta

タスクやモデルの追加は容易に行えるようになっていますので、ぜひご活用ください。

便利機能

評価結果の図示

simple-evals-mmは、以下のように評価結果の図を出力する機能も備えています。モデルリリース記事におけるベンチマーク結果の図示などにご活用ください。

uv run python src/simple_evals_mm/visualize.py --evals heronbench
Viewer screenshot

モデル出力の分析

simple-evals-mmは、モデルの回答結果を分析するためのビューワーも備えています。 これにより、モデルの出力を実際の画像や質問文とともに確認することができ、モデルの挙動をより深く理解することができます。 エラーのアノテーションも同時に行うことができますので、エラーの分類にもご活用ください。

uv run python -m simple_evals_mm.viewer.app
# Opens http://localhost:5001
Viewer screenshot

まとめ

今回紹介したsimple-evals-mmはGitHub上で公開されており、誰でも自由に利用することができます。 ご利用の際はぜひGitHubの⭐️や、フィードバックをお寄せいただけると嬉しいです。

参考文献


Share this post on:

Previous Post
視覚言語モデル LLM-jp-4-VL-9B-beta の紹介
Next Post
JAMMEval:信頼性の高いVLM評価のための日本語ベンチマーク精緻化