この度, リサーチアシスタントとして参加しているLLM勉強会にて, 大規模日本語コーパスで学習された最大トークン長8192のBERTモデルであるllm-jp-modernbertを開発しました.
このモデルは, RoPEやFlashAttentionなど最新のLLMに用いられている技術を取り入れたBERTモデルのModernBERTをベースとし, トークナイザにはllm-jp-tokenizer v3を用いています. 学習データは, LLMCで開発された llm-jp-corpus-v4 の日本語サブセット (約0.69Tトークン) を用いました. なお, llm-jp-corpus-v4は今後公開される予定です.
JGLUEのサブタスクを用いた評価では既存モデルを上回りませんでしたが, 穴埋め問題を用いた評価では, 最新のコーパスが含まれたllm-jp-corpus-v4を用いたためか, 最新の情報を反映したり, 一般常識を上手く学習できていることがわかりました. また, 学習中のチェックポイントを活用して, コンテキスト長を伸ばした効果をNeoBERTの論文で用いられている擬似パープレキシティで評価したり, 学習中の文埋め込みの挙動を分析しました.
モデルの学習方法及び評価分析結果についてはarXivのテクニカルペーパーをご覧ください.
公開リソースはこちらです.