Archives

All the articles I've archived.

2026 ⁹

June ¹

HakushoBench: 白書を用いた日本語図表VQAベンチマークの構築

2 Jun, 2026

本稿では、我々が新たに構築した日本語図表VQAベンチマークHakushoBenchを紹介します。

May ²

Jagle: 視覚言語モデルのための大規模日本語マルチモーダル事後学習データセットの構築

12 May, 2026

本稿では、我々が新たに構築した約9.2M事例の日本語マルチモーダル事後学習データセットJagleを紹介します。
ICLR2026リオ参加記

1 May, 2026

リオで開催された国際会議ICLR2026の参加記録です。

April ³

視覚言語モデル LLM-jp-4-VL-9B-beta の紹介

14 Apr, 2026

本稿では、LLM勉強会にて開発した視覚言語モデル LLM-jp-4-VL-9B-beta（β版）を紹介します。
simple-evals-mmの紹介

7 Apr, 2026

本稿では、新たに開発したVLM評価フレームワーク simple-evals-mm を紹介します。
JAMMEval：信頼性の高いVLM評価のための日本語ベンチマーク精緻化

5 Apr, 2026

本稿では、7つの既存日本語VQAベンチマークを人手で精緻化することで構築したベンチマークコレクションJAMMEvalを紹介します。

March ²

京都で見つけたおすすめスポットとグルメ

27 Mar, 2026

修士課程の2年間を過ごした京都で見つけた、おすすめのスポットやグルメを紹介します。
研究に役立つおすすめ資料まとめ

6 Mar, 2026

本稿では, 研究活動に役立つおすすめ資料を紹介します.

February ¹

Terminal-Bench & Harbor の紹介

8 Feb, 2026

本稿では, 現在最も重要なベンチマークの一つである Terminal-Bench と, その評価フレームワークである Harbor について解説します.

2025 ⁷

October ¹

WAON: 大規模かつ高品質な日本語画像・テキスト対データセット

28 Oct, 2025

本稿では, LLM勉強会で構築した, 大規模かつ高品質な日本語画像・テキスト対データセットのWAONを紹介します.

September ¹

音声言語モデルLlama-Mimiの紹介

21 Sep, 2025

本稿では, LLM勉強会で開発した音声言語モデルのLlama-Mimiを紹介します.

May ¹

NAACL2025アルバカーキ参加記

5 May, 2025

アルバカーキで開催されたNLP国際会議の一つであるNAACL2025の参加記録です。

April ²

llm-jp-modernbertの紹介

23 Apr, 2025

llm-jp-modernbertの紹介
基盤モデル研究のためのおすすめ論文集

20 Apr, 2025

本稿では基盤モデル研究で最初に読むと良さそうな論文をリストアップします.

February ²

オープンLLMによる翻訳を活用した日本語CLIPの開発

12 Feb, 2025

本稿では, オープンLLMを活用して大規模日本語画像テキスト対データセットを構築し, 日本語CLIPを開発した研究について紹介します.
llm-jp-eval-mmの紹介

6 Feb, 2025

本稿では, Silviaseさんと共同開発している, llm-jp-eval-mmという, 視覚言語モデルの日本語性能を評価するツールを紹介します.

2024 ⁷

October ²

text2dataset: オープンLLMを用いたデータセット翻訳ツールの紹介

29 Oct, 2024

本稿では, text2datasetというオープンLLMを用いて英語データセットをもとに日本語翻訳データセットを構築するツールを紹介します.
Let's Apply The AI Scientist to the SEIR Model

9 Oct, 2024

Let's apply The AI Scientist to the SEIR model, a differential equation-based model used to predict the spread of infectious diseases.

July ¹

Introduction to MinHash

14 Jul, 2024

本稿では, 大規模言語モデル用コーパス構築の重複除去において広く用いられているMinHashの基本的なアイデアとアルゴリズム, 比較回数の削減方法について説明します.

June ¹

LLMをゼロから事前学習する

14 Jun, 2024

LLMの事前学習の部分を完全理解するべく, LLMをJAXでフルスクラッチで事前学習してみたので, 本稿ではその方法を述べます.

April ¹

Python's Garbage Collection

11 Apr, 2024

In this post, we will examine the garbage collection (GC) in CPython. Furthermore, we will also look into the relationship between GC and Global Interpreter Lock (GIL).

February ¹

大阪大学総合図書館の魅力を紹介

23 Feb, 2024

本稿では学部時代を通して気付いた大阪大学総合図書館の魅力を紹介します.

January ¹

Neural Tangent Kernel の紹介と実験

9 Jan, 2024

本稿では, 学習中のダイナミクスに着目した研究の礎となっている Neural Tangent Kernel (NTK) 理論を紹介する.

2023 ⁴

November ²

院試体験記2023

23 Nov, 2023

こんにちは, speedです. 猛烈な暑さが続き「最も暑い夏」と言われた2023年の夏, 大学院修士課程を受験しました. 情報系人気も相まって大学院受験に合格することは難しいと考え, 私は複数校受験しました.
最適輸送(Optimal Transport)

6 Nov, 2023

本稿では, 最適輸送(Optimal Transport)の基本的な考え方と応用例について説明します.

August ¹

OS自作で変わったOSを見る目

17 Aug, 2023

本稿では, 自作OSを通じて変わったOSを見る目について述べます.

January ¹

Garbage Collection ~mark & sweep法~

23 Jan, 2023

本稿では, ガベージコレクションのアルゴリズムの一つであるmark & sweep法のアルゴリズムを解説します.

2022 ²

December ¹

大学一年生の私に贈る「情報科学の世界」

18 Dec, 2022

本書では、stray sheep(迷える子羊)だった大学一年生の私に向けて、どのように情報科学を学ぶのが良いか、ブラウザの仕組みをボトムアップに説明していく過程で各論の良書をリストアップしながら「知の高速道路」を提供します。

August ¹

セキュリティ・キャンプ2022 Bトラック(Webセキュリティ)参加記

12 Aug, 2022

この度セキュキャン2022Bトラック(Webセキュリティ)を参加しました.