LLMに関するインタラクティブガイド

Step by Token

大規模言語モデルの仕組みを、インタラクティブな可視化で一歩一歩理解する。

読み始める用語集

目次

21 / 21 · 189 分

Iモデルの解剖

II学習とアライメント

III本番環境のモデル

IVさらに深く

14
すべてを再訓練せずにモデルを専門化する
LoRA、QLoRA、SFT。パラメータの0.1%を訓練することで汎用モデルを特定ドメインに適応させる方法。
9 min
15
モデルが画像を読むとき
パッチ埋め込み、ViT、CLIP。テキストTransformerが画像をトークンのグリッドとして扱うことでマルチモーダルになる方法。
8 min
16
あるモデルが優れているとどうわかるか？
MMLU、HumanEval、LMSYS Arena。LLMの知性を測定することが難しい理由—そして単一のベンチマークでは不十分な理由。
8 min
17
答える前に考える
Thinkingトークン、拡張推論、思考予算。o1/o3クラスのモデルが回答前に隠れた思考の連鎖を生成する仕組み。
9 min
18
なぜ2番目のトークンは1番目より速いのか
KVキャッシュと自己回帰生成。Prefill vs decode、TTFT、そしてキャッシュがすべてを変える理由。
8 min
19
大きいほど良いとは限らない？
Kaplan と Chinchilla のスケーリング則。なぜ GPT-3 は学習不足だったのか、そしてパラメータあたり20トークンの最適比。
9 min
20
中で実際に何が起きているのか？
回路、多義性ニューロン、Sparse Autoencoders。Anthropic と DeepMind がブラックボックスをどう開くのか。
9 min
21
ノイズを消して画像を生成する
Stable Diffusion、DALL-E、Midjourney。逆方向のノイズ除去、CLIP の役割、そしてなぜ U-Net が Transformer に道を譲るのか。
9 min

Step by Token