基盤モデル研究で最初に読むとよさそうな論文を個人用にメモします. 不定期に更新します. 他に読むと良い論文があればスレッドで教えてください.
NLP
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- SFTデータなしでも強化学習でLLMの推論能力を大幅に向上できることを示した. 強化学習用のデータセットは公開されていない.
- The Llama 3 Herd of Models
- 出版時点での最先端のLLMの学習方法を詳しく説明している.
- Language Models are Few-Shot Learners
- モデル, データセットのスケールを大きくし, few-shot, one-shot, zero-shotの性能を向上させた.
- Scaling Laws for Neural Language Models
- 言語モデルのスケール則について網羅的に分析.
- Language Models are Unsupervised Multitask Learners
- 微調整なしで様々なタスクをこなせることを示した. 学習データはWebText.
- Improving Language Understanding by Generative Pre-Training
- GPTシリーズの最初の論文. Decoder-only Transformerを用いて次単語予測を行う. GPT-1ではタスクごとに微調整を行う.
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- BERTを提案した論文. Encoder-only Transformerを用いて双方向の文脈を考慮した埋め込みを行う. MLMとNSPを用いて事前学習を行う.
- Attention is All You Need
- Transformerを提案した論文
Vision & Language
- Visual Instruction Tuning
- LLaVAの提案論文.
- Learning Transferable Visual Models From Natural Language Supervision
- CLIPの提案論文. 画像とテキストのペアを用いた対照学習を行う方法を提案.
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- ViTの提案論文.
Audio
- Moshi: a speech-text foundation model for real-time dialogue
- full-duplexな音声対話モデルのためのモデリング手法を提案.
- Robust Speech Recognition via Large-Scale Weak Supervision
- Whisper (Speech-to-textモデル) の提案論文.
- SoundStream: An End-to-End Neural Audio Codec
- 音声波形を離散トークンに変換する音声コーデックの提案論文.