チャプター 19 · スケーリング · 9 min

大きいほど良いとは限らない？

Kaplan と Chinchilla のスケーリング則。なぜ GPT-3 は学習不足だったのか、そしてパラメータあたり20トークンの最適比。

誤解を招く直感

何年もの間、AI 業界はシンプルな信念に基づいて動いていた：2倍大きいモデルはより良い。GPT-2（15億パラメータ）は GPT-3（1750億）に追い抜かれた。PaLM、Megatron、Gopher——パラメータ競争は果てしなく見えた。

そして 2022 年、DeepMind のチームがすべてを変える論文を発表した。彼らのテーゼ：当時の大きなモデルは大規模に訓練不足だった。小さすぎるのではなく——データに飢えていた。

このテーゼを証明したモデルは Chinchilla と呼ばれた。

Kaplan の法則：最初の定式化

2020年、OpenAI が Jared Kaplan と同僚たちによる論文——"Scaling Laws for Neural Language Models"——を発表する。これは注目すべきものを示している。異なるサイズで訓練された数十のモデルにわたって、検証損失はシンプルなべき乗則に従う：

L ≈ L∞ + (C₀ / C)^α

数式を読み解こう：

C — 訓練に投入された総計算量（FLOPs）。
L — 最終的な検証損失。
L∞ — 既約損失：無限の計算量を投入しても下回ることのできない下限。これは人間の言語の自然なエントロピーだ——次の単語には常に予測不可能な部分がある。
C₀ — アーキテクチャに依存する正規化定数。
α ≈ 0.05 — べき乗則の指数。

明確に言えば：計算量を倍にすると、損失は予測可能な量だけ減る。この法則は7桁にわたって驚くほど頑健だ。

Kaplan はそこから業界を2年間導く結論を導く：計算予算が与えられたら、その大部分をモデルサイズに割り当て、データには少しだけ。

それが OpenAI が GPT-3 でやったことだ。1750億のパラメータ、しかし「たった」3000億の訓練トークン。

Chinchilla がちゃぶ台返し

2022年、Hoffmann et al.（DeepMind）は異なる方法論で実験を再現する。モデルサイズを固定して計算量を変える代わりに、計算量を一定にして (N, D) 平面を体系的に探索する。

彼らの結論は Kaplan に直接矛盾する：N と D は同じ速度で成長すべきだ。固定の計算予算で損失を最小化するには、控えめなサイズのモデルを大量のデータで訓練する必要がある。

より正確には、最適な比率は：

D ≈ 20 × N

700億パラメータのモデルでは、最適は約 1.4 兆トークンだ。GPT-3（1750億パラメータ、3000億トークン）の比率は 1.7 だった——最適の20分の1。

DeepMind は Chinchilla を訓練することでそれを証明した：700億パラメータ、1.4兆トークン。GPT-3 より小さく、より多くのトークン、そしてすべてのベンチマークでより良い。

計算量のマップ

両対数プロット上では、Loss は Compute に対してべき乗則で減少する。N（パラメータ数）と D（トークン数）のスライダーは iso-compute 曲線を示す：固定予算では最適な N/D 比が存在する——Chinchilla によればパラメータあたり約 20 トークン。

点を動かして (N, D) 平面を探索しよう。Chinchilla の対角線は、計算量の各ドルが最適に使われる線だ。その上では、小さすぎるモデルを長く訓練しすぎた；下では、その逆だ。

興味深いことに気づくだろう：LLaMA-3 は対角線のはるか上にある。700億パラメータを 15兆トークンで訓練し、その比率は 214 ——Chinchilla 最適の10倍だ。

なぜか？Meta が訓練計算効率以外の何かに最適化したからだ。彼らは推論コストに最適化した。長く訓練された小さなモデルは、訓練するのに（少し）コストがかかるが、本番運用するのにはるかに安い。何十億ものリクエストにわたれば、節約は莫大だ。

パラメータを超えて：データの質

スケーリング則は物語の終わりではない。いくつかの限界が現れる。

利用可能なデータ量は有限だ。 Common Crawl、Wikipedia、GitHub、ArXiv、スキャンされた本——インターネット上の高品質なテキストデータの在庫は無限ではない。複数のチームが壁に近づきつつあると見積もっている：1兆パラメータのモデルを Chinchilla 最適で訓練するには 20兆トークンが必要で、これは公開されたクリーンなコーパスをはるかに超える。

質は量に勝つ、ただしある点まで。 コーパスをフィルタして高品質のデータ（教科書、技術書、クリーンなコード）だけを残すと、平凡なデータを追加するよりもモデルを向上させる。しかし過度に積極的なフィルタリングは結局、分布を貧しくし汎化を損なう。

創発的能力が曲線をぼかす。 特定のタスク（多段推論、複雑な数学、稀な指示）では、パフォーマンスはあるサイズの閾値まで平坦にとどまり——その後急に跳ね上がる。これらの「emergent abilities」は議論の的だ：一部の研究者（Schaeffer et al., 2023）は、より連続的なメトリックを選べば消えると示している。しかし実用的な現象は残る：小さなモデルはどれだけ fine-tuning しても、特定のことができないのだ。

実用的な教訓

今日モデルを訓練しているなら、スケーリング則が告げることは：

計算量が固定？ D/N 比を 20 に近づけることを目指そう。それが訓練の最適だ。
モデルを大規模に提供する？ 比率を上にずらそう。長く訓練された小さなモデルは推論で安い——それが Meta、Mistral、そしてますます多くのチームがやっていることだ。
創発的能力を目指している？ 小さな最適化では足りない。サイズの閾値を越える必要がある。
データが不足？ 質、フィルタリング、多様性が、生のコーパスサイズよりも重要になる。

スケーリング則は無限に大きくし続けるべきだとは言っていない。パラメータとデータの間に正しい比率があると言っている——そして我々は何年も間違った側にいたのだ。

更新日 2026年5月10日