目次
21 / 21 · 189 分- 016 min
一度に一語を予測する
言語モデルとは何か?次の単語を予測することだけで知性が生まれる理由。
- 028 min
テキストからトークンへ
テキストが数値になる仕組み。BPE、サブワード、そしてLLMが文字を数えるのが苦手な理由。
- 0310 min
意味の空間
幾何学的空間の中の言葉。王 − 男 + 女 = 女王、そして他のベクトルの奇跡。
- 0412 min
アテンションこそすべて
すべてを変えるメカニズム。各トークンがコンテキストを理解するために他のすべてのトークンを見る方法。
- 0514 min
Transformerの全体像
ピースを組み合わせる:マルチヘッドアテンション、フィードフォワード、正規化、残差接続。
- 098 min
モデルが覚えていること
コンテキストウィンドウ:完璧だが有界の記憶。ChatGPTが忘れる理由とそのコスト。
- 109 min
あなたのドキュメントを読む
LLMが記憶せずに何千ページにもアクセスする方法。埋め込み、セマンティック検索、注入されたコンテキスト。
- 1110 min
返答するモデルから行動するモデルへ
ツール使用、ReActループ、マルチステップタスク。LLMが世界で行動できるエージェントになる方法。
- 128 min
LLMへの語りかけ方の技術
ゼロショット、フューショット、Chain-of-Thought、自己整合性。プロンプトの書き方がモデルの出力を根本的に変える理由。
- 139 min
なぜLLMは作り出すのか
キャリブレーション、誤った確信、対策。最も多い批判の裏にある構造的メカニズム — そしてそれに対して何ができるのか。
- 149 min
すべてを再訓練せずにモデルを専門化する
LoRA、QLoRA、SFT。パラメータの0.1%を訓練することで汎用モデルを特定ドメインに適応させる方法。
- 158 min
モデルが画像を読むとき
パッチ埋め込み、ViT、CLIP。テキストTransformerが画像をトークンのグリッドとして扱うことでマルチモーダルになる方法。
- 168 min
あるモデルが優れているとどうわかるか?
MMLU、HumanEval、LMSYS Arena。LLMの知性を測定することが難しい理由—そして単一のベンチマークでは不十分な理由。
- 179 min
答える前に考える
Thinkingトークン、拡張推論、思考予算。o1/o3クラスのモデルが回答前に隠れた思考の連鎖を生成する仕組み。
- 188 min
なぜ2番目のトークンは1番目より速いのか
KVキャッシュと自己回帰生成。Prefill vs decode、TTFT、そしてキャッシュがすべてを変える理由。
- 199 min
大きいほど良いとは限らない?
Kaplan と Chinchilla のスケーリング則。なぜ GPT-3 は学習不足だったのか、そしてパラメータあたり20トークンの最適比。
- 209 min
中で実際に何が起きているのか?
回路、多義性ニューロン、Sparse Autoencoders。Anthropic と DeepMind がブラックボックスをどう開くのか。
- 219 min
ノイズを消して画像を生成する
Stable Diffusion、DALL-E、Midjourney。逆方向のノイズ除去、CLIP の役割、そしてなぜ U-Net が Transformer に道を譲るのか。