speed blog
Posts
About
paperguessr.app
基盤モデル研究の最初に読む論文リスト
Date: 2025-04-20 | Category: foundation-model
基盤モデル研究で最初に読むとよさそうな論文を個人用にメモします. 不定期に更新します. 他に読むと良い論文があればスレッドで教えてください.
NLP
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
SFTデータなしでも強化学習でLLMの推論能力を大幅に向上できることをオープンな形で示した.
The Llama 3 Herd of Models
出版時点での最先端のLLMの学習方法を詳しく説明している.
Language Models are Few-Shot Learners
モデル, データセットのスケールを大きくし, few-shot, one-shot, zero-shotの性能を向上させた.
Scaling Laws for Neural Language Models
言語モデルのスケール則について網羅的に分析.
Language Models are Unsupervised Multitask Learners
微調整なしで様々なタスクをこなせることを示した. 学習データはWebText.
Improving Language Understanding by Generative Pre-Training
GPTシリーズの最初の論文. Decoder-only Transformerを用いて次単語予測を行う. GPT-1ではタスクごとに微調整を行う.
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERTを提案した論文. Encoder-only Transformerを用いて双方向の文脈を考慮した埋め込みを行う. MLMとNSPを用いて事前学習を行う.
Attention is All You Need
Transformerを提案した論文
Vision & Language
Visual Instruction Tuning
LLaVAの提案論文.
Learning Transferable Visual Models From Natural Language Supervision
CLIPの提案論文. 画像とテキストのペアを用いた対照学習を行う方法を提案.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
ViTの提案論文.
Audio
Moshi: a speech-text foundation model for real-time dialogue
full-duplexな音声対話モデルのためのモデリング手法を提案.
Robust Speech Recognition via Large-Scale Weak Supervision
Whisper (Speech-to-textモデル) の提案論文.
SoundStream: An End-to-End Neural Audio Codec
音声波形を離散トークンに変換する音声コーデックの提案論文.