基盤モデル研究で最初に読むとよさそうな論文を個人用にメモします. 不定期に更新します. 他に読むと良い論文があればスレッドで教えてください.

NLP

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- SFTデータなしでも強化学習でLLMの推論能力を大幅に向上できることを示した. 強化学習用のデータセットは公開されていない.
The Llama 3 Herd of Models
- 出版時点での最先端のLLMの学習方法を詳しく説明している.
Language Models are Few-Shot Learners
- モデル, データセットのスケールを大きくし, few-shot, one-shot, zero-shotの性能を向上させた.
Scaling Laws for Neural Language Models
- 言語モデルのスケール則について網羅的に分析.
Language Models are Unsupervised Multitask Learners
- 微調整なしで様々なタスクをこなせることを示した. 学習データはWebText.
Improving Language Understanding by Generative Pre-Training
- GPTシリーズの最初の論文. Decoder-only Transformerを用いて次単語予測を行う. GPT-1ではタスクごとに微調整を行う.
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- BERTを提案した論文. Encoder-only Transformerを用いて双方向の文脈を考慮した埋め込みを行う. MLMとNSPを用いて事前学習を行う.
Attention is All You Need
- Transformerを提案した論文
Sequence to Sequence Learning with Neural Networks
- Encoder–Decoder構造で系列変換をend-to-endに学習可能であることを示した.

Vision & Language

Visual Instruction Tuning
- LLaVAの提案論文.
Learning Transferable Visual Models From Natural Language Supervision
- Web上の画像・テキスト対データセットを用いて対照学習するCLIPを提案. CLIPのアプリケーションとしてZero-shot画像分類タスクをこなせることを示した.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- 画像をパッチに分割してTransformer encoderに入力するViTを提案.

Moshi: a speech-text foundation model for real-time dialogue
- full-duplexな音声対話モデルのためのモデリング手法を提案.
Robust Speech Recognition via Large-Scale Weak Supervision
- Whisper (Speech-to-textモデル) の提案論文.
SoundStream: An End-to-End Neural Audio Codec
- VQ-VAEにResidual Vector Quantizerを組み合わせたNeural Audio Codecを提案.
Generative Spoken Language Modeling from Raw Audio
- 音声を離散トークンに変換して言語モデルを学習することで音声言語モデルを構築する方法を提案.