オープンLLMによる翻訳を活用した日本語CLIPの開発

LLM勉強会のマルチモーダルWGの活動で, 約20億事例からなる日本語翻訳画像テキスト対データセットを構築し, 日本語CLIPをフルスクラッチで学習しました.

以下が公開リソースです.

画像テキスト対データセット

モデル

日本語CLIP評価コード

目次:

はじめに

CLIPの学習には, 大規模な(画像, テキスト)対データセットが必要です. しかし, オープンな日本語の画像テキスト対データセットは限られており, 日本語CLIPの開発の障壁となっていました.

実際, オープンな日本語画像テキスト対データセットとして最大のものは, ReLAION-5Bの日本語サブセット(約1.2億事例)であり, これは英語サブセット(約20億事例)に比べて少ない状況でした.

本研究では, 大規模な翻訳を高性能・高速・安価に行うことができるオープンLLM (今回はgemma-2-9b-it) を活用することで, 大規模な日本語画像テキスト対データセットを構築し, 日本語CLIPを開発しました.

本研究により, オープンな日本語画像テキスト対は20億事例まで拡大しました.

画像テキスト対データセット

英語の大規模画像テキスト対データセットであるReLAION-5B英語サブセット(20億事例)のキャプションを, gemma-2-9b-itを用いて日本語に翻訳することにより構築しました.

翻訳においては, 独自に開発した翻訳ツールのtext2datasetを使用しました.

モデル

CLIPは, 画像埋め込みとして画像エンコーダ, テキスト埋め込みとしてテキストエンコーダを用います.

今回は, 画像エンコーダとして$\text{ViT-B/16}$及び$\text{ViT-L/14}$, テキストエンコーダとして, $\text{RoBERTa}_\text{base}$を用いました. トークナイザには, llm-jp-tokenizer v3をエンコーダモデル向けに修正したものを用いました. llm-jp-tokenizer v3の語彙数は約10万と大きいため, 全体のモデルパラメータ数はやや増加しています.

学習方法

データセットの画像をダウンロードした結果得られた約15億事例からなる画像テキスト対データセットを, 9エポック分学習しました. 学習スクリプトとしてOpenCLIPを用いました.

評価

日本語CLIP, 多言語CLIPを比較モデルとし, よく用いられるImageNetを含めた複数のベンチマークタスクで評価しました.

ラベルが日本語でないデータセットについては, 日本語に翻訳した上で評価しました.

評価コードはllm-jp/clip-evalを用いました.

評価結果

Model Params (M) ImageNet Recruit CIFAR10 CIFAR100 Food101 Caltech101 XM3600 I → T XM3600 T → I Avg.
Japanese CLIP                    
Rinna ViT-B/16 196 50.6 39.9 90.7 64.0 53.2 84.6 53.8 54.0 61.4
Rinna ViT-B/16 cloob 196 54.6 41.6 88.2 60.3 57.2 80.2 53.4 53.4 61.1
LY ViT-B/16 196 52.0 83.8 96.3 76.7 73.9 88.4 76.9 78.0 78.3
llm-jp-ViT-B/16 248 54.2 59.4 91.8 69.2 82.2 85.6 73.6 72.7 73.6
StabilityAI ViT-L/16 414 62.4 70.5 97.6 84.1 74.0 86.7 67.3 66.0 76.1
llm-jp-ViT-L/14 467 59.5 62.9 96.4 77.0 88.2 87.8 74.1 74.1 77.5
Multilingual CLIP                    
SigLIP B/16-256 multi 370 51.9 71.2 92.4 65.8 78.6 85.6 45.9 43.0 66.8
jina-clip-v2 865 35.8 48.1 95.1 58.3 52.0 69.4 67.3 66.4 61.6
LAION ViT-H/14 multi 1193 53.0 74.5 97.9 78.4 74.3 85.1 75.0 72.0 76.3

結果として, llm-jp-clipは同モデルサイズで多くのタスクで高性能であった一方, 日本文化ドメインのRecruitデータセットにおいて性能が低かったです. 原因として, 翻訳元データセットに日本文化ドメインのデータが少ない可能性が考えられます.

今後は, 日本文化ドメインのデータを増やすことで, より高性能な日本語CLIPを開発していきたいと考えています.

おわりに

本稿では, llm-jp-clipについて紹介しました. データセット, モデル, 評価コードが公開されているので, ぜひお試しください!!

なお, 詳しい内容については, 2025年3月長崎で開催される言語処理学会第31回年次大会 (NLP2025)に投稿した以下のタイトルの原稿をお読みください.

オープンLLMによる翻訳を活用した日本語CLIPの開発. 言語処理学会第31回年次大会 (NLP2025), 2025年3月. 杉浦一瑳, 栗田修平, 小田悠介, 河原大輔, 岡崎直観.

NLP2025に参加される方はよろしくお願いいたします!

参考文献