Skip to content
Go back

オープンLLMによる翻訳を活用した日本語CLIPの開発

LLM勉強会のマルチモーダルWGの活動で, 約20億事例からなる日本語翻訳画像テキスト対データセットを構築し, 日本語CLIPをフルスクラッチで学習しました.

以下が公開リソースです.

画像テキスト対データセット

モデル

日本語CLIP評価コード

Table of contents

Open Table of contents

はじめに

CLIPの学習には, 大規模な(画像, テキスト)対データセットが必要です. しかし, オープンな日本語の画像テキスト対データセットは限られており, 日本語CLIPの開発の障壁となっていました.

実際, オープンな日本語画像テキスト対データセットとして最大のものは, ReLAION-5Bの日本語サブセット(約1.2億事例)であり, これは英語サブセット(約20億事例)に比べて少ない状況でした.

本研究では, 大規模な翻訳を高性能・高速・安価に行うことができるオープンLLM (今回はgemma-2-9b-it) を活用することで, 大規模な日本語画像テキスト対データセットを構築し, 日本語CLIPを開発しました.

本研究により, オープンな日本語画像テキスト対は20億事例まで拡大しました.

画像テキスト対データセット

英語の大規模画像テキスト対データセットであるReLAION-5B英語サブセット(20億事例)のキャプションを, gemma-2-9b-itを用いて日本語に翻訳することにより構築しました.

翻訳においては, 独自に開発した翻訳ツールのtext2datasetを使用しました.

モデル

CLIPは, 画像埋め込みとして画像エンコーダ, テキスト埋め込みとしてテキストエンコーダを用います.

今回は, 画像エンコーダとしてViT-B/16\text{ViT-B/16}及びViT-L/14\text{ViT-L/14}, テキストエンコーダとして, RoBERTabase\text{RoBERTa}_\text{base}を用いました. トークナイザには, llm-jp-tokenizer v3をエンコーダモデル向けに修正したものを用いました. llm-jp-tokenizer v3の語彙数は約10万と大きいため, 全体のモデルパラメータ数はやや増加しています.

学習方法

データセットの画像をダウンロードした結果得られた約15億事例からなる画像テキスト対データセットを, 9エポック分学習しました. 学習スクリプトとしてOpenCLIPを用いました.

評価

日本語CLIP, 多言語CLIPを比較モデルとし, よく用いられるImageNetを含めた複数のベンチマークタスクで評価しました.

ラベルが日本語でないデータセットについては, 日本語に翻訳した上で評価しました.

評価コードはllm-jp/clip-evalを用いました.

評価結果

ModelParams (M)ImageNetRecruitCIFAR10CIFAR100Food101Caltech101XM3600 I → TXM3600 T → IAvg.
Japanese CLIP
Rinna ViT-B/1619650.639.990.764.053.284.653.854.061.4
Rinna ViT-B/16 cloob19654.641.688.260.357.280.253.453.461.1
LY ViT-B/1619652.083.896.376.773.988.476.978.078.3
llm-jp-ViT-B/1624854.259.491.869.282.285.673.672.773.6
StabilityAI ViT-L/1641462.470.597.684.174.086.767.366.076.1
llm-jp-ViT-L/1446759.562.996.477.088.287.874.174.177.5
Multilingual CLIP
SigLIP B/16-256 multi37051.971.292.465.878.685.645.943.066.8
jina-clip-v286535.848.195.158.352.069.467.366.461.6
LAION ViT-H/14 multi119353.074.597.978.474.385.175.072.076.3

結果として, llm-jp-clipは同モデルサイズで多くのタスクで高性能であった一方, 日本文化ドメインのRecruitデータセットにおいて性能が低かったです. 原因として, 翻訳元データセットに日本文化ドメインのデータが少ない可能性が考えられます.

今後は, 日本文化ドメインのデータを増やすことで, より高性能な日本語CLIPを開発していきたいと考えています.

おわりに

本稿では, llm-jp-clipについて紹介しました. データセット, モデル, 評価コードが公開されているので, ぜひお試しください!!

なお, 詳しい内容については, 2025年3月長崎で開催される言語処理学会第31回年次大会 (NLP2025)に投稿した以下のタイトルの原稿をお読みください.

オープンLLMによる翻訳を活用した日本語CLIPの開発. 言語処理学会第31回年次大会 (NLP2025), 2025年3月. 杉浦一瑳, 栗田修平, 小田悠介, 河原大輔, 岡崎直観.

NLP2025に参加される方はよろしくお願いいたします!

参考文献


Share this post on:

Previous Post
基盤モデル研究の最初に読む論文リスト
Next Post
llm-jp-eval-mmの紹介