LLM勉強会のマルチモーダルWGの活動で, 約20億事例からなる日本語翻訳画像テキスト対データセットを構築し, 日本語CLIPをフルスクラッチで学習しました.
以下が公開リソースです.
画像テキスト対データセット
モデル
日本語CLIP評価コード
目次:
CLIPの学習には, 大規模な(画像, テキスト)対データセットが必要です. しかし, オープンな日本語の画像テキスト対データセットは限られており, 日本語CLIPの開発の障壁となっていました.
実際, オープンな日本語画像テキスト対データセットとして最大のものは, ReLAION-5Bの日本語サブセット(約1.2億事例)であり, これは英語サブセット(約20億事例)に比べて少ない状況でした.
本研究では, 大規模な翻訳を高性能・高速・安価に行うことができるオープンLLM (今回はgemma-2-9b-it) を活用することで, 大規模な日本語画像テキスト対データセットを構築し, 日本語CLIPを開発しました.
本研究により, オープンな日本語画像テキスト対は20億事例まで拡大しました.
英語の大規模画像テキスト対データセットであるReLAION-5B英語サブセット(20億事例)のキャプションを, gemma-2-9b-itを用いて日本語に翻訳することにより構築しました.
翻訳においては, 独自に開発した翻訳ツールのtext2datasetを使用しました.
CLIPは, 画像埋め込みとして画像エンコーダ, テキスト埋め込みとしてテキストエンコーダを用います.
今回は, 画像エンコーダとして$\text{ViT-B/16}$及び$\text{ViT-L/14}$, テキストエンコーダとして, $\text{RoBERTa}_\text{base}$を用いました. トークナイザには, llm-jp-tokenizer v3をエンコーダモデル向けに修正したものを用いました. llm-jp-tokenizer v3の語彙数は約10万と大きいため, 全体のモデルパラメータ数はやや増加しています.
データセットの画像をダウンロードした結果得られた約15億事例からなる画像テキスト対データセットを, 9エポック分学習しました. 学習スクリプトとしてOpenCLIPを用いました.
日本語CLIP, 多言語CLIPを比較モデルとし, よく用いられるImageNetを含めた複数のベンチマークタスクで評価しました.
ラベルが日本語でないデータセットについては, 日本語に翻訳した上で評価しました.
評価コードはllm-jp/clip-evalを用いました.
評価結果
Model | Params (M) | ImageNet | Recruit | CIFAR10 | CIFAR100 | Food101 | Caltech101 | XM3600 I → T | XM3600 T → I | Avg. |
---|---|---|---|---|---|---|---|---|---|---|
Japanese CLIP | ||||||||||
Rinna ViT-B/16 | 196 | 50.6 | 39.9 | 90.7 | 64.0 | 53.2 | 84.6 | 53.8 | 54.0 | 61.4 |
Rinna ViT-B/16 cloob | 196 | 54.6 | 41.6 | 88.2 | 60.3 | 57.2 | 80.2 | 53.4 | 53.4 | 61.1 |
LY ViT-B/16 | 196 | 52.0 | 83.8 | 96.3 | 76.7 | 73.9 | 88.4 | 76.9 | 78.0 | 78.3 |
llm-jp-ViT-B/16 | 248 | 54.2 | 59.4 | 91.8 | 69.2 | 82.2 | 85.6 | 73.6 | 72.7 | 73.6 |
StabilityAI ViT-L/16 | 414 | 62.4 | 70.5 | 97.6 | 84.1 | 74.0 | 86.7 | 67.3 | 66.0 | 76.1 |
llm-jp-ViT-L/14 | 467 | 59.5 | 62.9 | 96.4 | 77.0 | 88.2 | 87.8 | 74.1 | 74.1 | 77.5 |
Multilingual CLIP | ||||||||||
SigLIP B/16-256 multi | 370 | 51.9 | 71.2 | 92.4 | 65.8 | 78.6 | 85.6 | 45.9 | 43.0 | 66.8 |
jina-clip-v2 | 865 | 35.8 | 48.1 | 95.1 | 58.3 | 52.0 | 69.4 | 67.3 | 66.4 | 61.6 |
LAION ViT-H/14 multi | 1193 | 53.0 | 74.5 | 97.9 | 78.4 | 74.3 | 85.1 | 75.0 | 72.0 | 76.3 |
結果として, llm-jp-clipは同モデルサイズで多くのタスクで高性能であった一方, 日本文化ドメインのRecruitデータセットにおいて性能が低かったです. 原因として, 翻訳元データセットに日本文化ドメインのデータが少ない可能性が考えられます.
今後は, 日本文化ドメインのデータを増やすことで, より高性能な日本語CLIPを開発していきたいと考えています.
本稿では, llm-jp-clipについて紹介しました. データセット, モデル, 評価コードが公開されているので, ぜひお試しください!!
なお, 詳しい内容については, 2025年3月長崎で開催される言語処理学会第31回年次大会 (NLP2025)に投稿した以下のタイトルの原稿をお読みください.
オープンLLMによる翻訳を活用した日本語CLIPの開発. 言語処理学会第31回年次大会 (NLP2025), 2025年3月. 杉浦一瑳, 栗田修平, 小田悠介, 河原大輔, 岡崎直観.
NLP2025に参加される方はよろしくお願いいたします!