基盤モデル研究で最初に読むとよさそうな論文や資料をリストアップします. 不定期に更新します. 他に読むと良い論文があればスレッドで教えてください.
NLP
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- SFTデータなしでも強化学習でLLMの推論能力を大幅に向上できることを示した.
- The Llama 3 Herd of Models
- Llama 3のテクニカルレポート. 出版時点での最先端のLLMの学習方法を詳しく説明している.
- Language Models are Few-Shot Learners
- モデル, データセットのスケールを大きくし, few-shot, one-shot, zero-shotの性能を向上させた.
- Scaling Laws for Neural Language Models
- 言語モデルのスケール則について網羅的に分析.
- Language Models are Unsupervised Multitask Learners
- 微調整なしで様々なタスクをこなせることを示した. 学習データはWebText.
- Improving Language Understanding by Generative Pre-Training
- GPTシリーズの最初の論文. Decoder-only Transformerを用いて次単語予測を行う. GPT-1ではタスクごとに微調整を行う.
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- BERTを提案した論文. Encoder-only Transformerを用いて双方向の文脈を考慮した埋め込みを行う. MLMとNSPを用いて事前学習を行う.
- Attention is All You Need
- Transformerを提案した論文.
- Sequence to Sequence Learning with Neural Networks
- Encoder–Decoder構造を用いて系列変換タスクをend-to-endに学習可能であることを示した.
Vision & Language
- Visual Instruction Tuning
- LLaVAの提案論文. LLMに視覚情報を組み込むことで, マルチモーダルな指示応答が可能になることを示した.
- Learning Transferable Visual Models From Natural Language Supervision
- Web上の画像・テキスト対データセットを用いて対照学習するCLIPを提案. CLIPのアプリケーションとしてZero-shot画像分類タスクをこなせることを示した.
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- 画像をパッチに分割してTransformer encoderに入力するViTを提案.
Audio
- Moshi: a speech-text foundation model for real-time dialogue
- full-duplexな音声対話モデルのためのモデリング手法を提案.
- Robust Speech Recognition via Large-Scale Weak Supervision
- Whisper (Speech-to-textモデル) の提案論文.
- SoundStream: An End-to-End Neural Audio Codec
- VQ-VAEにResidual Vector Quantizerを組み合わせたNeural Audio Codecを提案.
- Generative Spoken Language Modeling from Raw Audio
- GSLMの提案論文. 音声を離散トークンに変換して言語モデルを学習することで音声言語モデルを構築する方法を提案.
HPC
- How To Scale Your Model
- LLMの学習や推論を効率的に行うための考え方がまとめられている. Arithmetic IntensityやRoofline Modelなどを用いつつ, TPUやGPUの性能を最大限に引き出す方法が解説されている.
Robotics
- π0: A Vision-Language-Action Flow Model for General Robot Control
- 複数の異なるロボットのポリシーとして利用可能な高性能なVLAモデルを提案.
Evals
- Successful language model evals
- 良いベンチマークを作るための考え方がまとめられている.