Skip to content
Go back

日本語に強い視覚言語モデル LLM-jp-4-VL-9B-beta の紹介

本記事では、LLM勉強会にて開発した日本語性能に優れた視覚言語モデル「LLM-jp-4-VL-9B-beta」を紹介します。

本モデルは、llm-jp/llm-jp-4-8b-instructをベースに、日英あわせて約180Bトークンのマルチモーダルデータで事後学習を行いました。その結果、日本語タスクにおいてはQwen3-VL-8Bと同程度の平均性能を達成しています。

本稿では、モデル開発の主要な取り組みについて概要を紹介します。

概要

LLM-jp-4-VL-9B-betaの開発では、以下の2点を重視しました。

JAMMEval: 日本語ベンチマークの精緻化

モデル開発において、評価の信頼性は意思決定の質を大きく左右します。

既存の日本語ベンチマークを精査したところ、以下のような問題が確認されました:

そこで我々は、既存の日本語ベンチマーク7種類に対して2ラウンドにわたる人手による検証・修正を行い、信頼性の高い評価データセットコレクションJAMMEvalを構築しました。

JAMMEvalの構築パイプライン。

これにより、データセットアブレーションやハイパーパラメータ調整といった開発上の意思決定を、より信頼性の高い評価に基づいて行うことが可能になりました。

Jagle: 日本語大規模マルチモーダルデータセット

高性能な視覚言語モデルの実現には、大規模かつ多様なデータが不可欠です。しかし、日本語においてはそのような事後学習用データセットが十分に整備されていませんでした。

そこで我々は、約920万事例からなる日本語最大規模のマルチモーダル事後学習データセットJagleを構築しました。

Jagleでは、以下のような多様なデータソースを統合し、VQA形式へ変換しています:

Jagleの構築パイプライン。

例えば以下のようなデータソースを利用しています:

モデル学習

上記の成果をもとに、LLM-jp-4-VL-9B-betaを学習しました。

モデルアーキテクチャ

本モデルは以下のコンポーネントで構成されています。

LLM-jp-4-VL-9B-betaのアーキテクチャ。

学習データセット

学習には、以下の日英合計約33.4M事例のデータを用いました。

評価

日本語タスクにおける評価結果を以下に示します。評価には、我々が開発したVLM評価ライブラリsimple-evals-mmを用いました。

日本語タスクにおけるベンチマーク結果。

LLM-jp-4-VL-9B-betaは、約180Bトークンのマルチモーダル事後学習により、Qwen3-VL-8B(約2Tトークン)と比較して10分の1以下の学習量で同程度の平均性能を達成しました。

モデル出力の例

ここでは、LLM-jp-4-VL-9B-betaのモデル出力の例を紹介します。

エジプト展のポスター (著者撮影)。

質問: 画像に含まれる文字を全て抽出してください

モデル出力:

"MYSTERY OF TUTANKHAMEN
ミステリー・オブ・ツタンカーメン
体感型古代エジプト展
ツタンカーメン・ミュージアム
横浜みなとみらいPLOT48
©WORLD SCAN PROJECT Inc."

画像中の文字を正確に抽出できていることがわかります。

おわりに

LLM-jp-4-VL-9B-betaはHugging Faceで公開されています。ぜひお試しください。

今回紹介したモデルの詳細な実験設定や分析については、LLM勉強会の公式技術ブログをご参照ください。

参考文献


Share this post on:

Next Post
simple-evals-mmの紹介