チャプター 19 · スケーリング · 9 min

大きいほど良いとは限らない?

Kaplan と Chinchilla のスケーリング則。なぜ GPT-3 は学習不足だったのか、そしてパラメータあたり20トークンの最適比。

誤解を招く直感

何年もの間、AI 業界はシンプルな信念に基づいて動いていた:2倍大きいモデルはより良い。GPT-2(15億パラメータ)は GPT-3(1750億)に追い抜かれた。PaLM、Megatron、Gopher——パラメータ競争は果てしなく見えた。

そして 2022 年、DeepMind のチームがすべてを変える論文を発表した。彼らのテーゼ:当時の大きなモデルは大規模に訓練不足だった。小さすぎるのではなく——データに飢えていた。

このテーゼを証明したモデルは Chinchilla と呼ばれた。

Kaplan の法則:最初の定式化

2020年、OpenAI が Jared Kaplan と同僚たちによる論文——"Scaling Laws for Neural Language Models"——を発表する。これは注目すべきものを示している。異なるサイズで訓練された数十のモデルにわたって、検証損失はシンプルなべき乗則に従う:

L ≈ L∞ + (C₀ / C)^α

数式を読み解こう:

  • C — 訓練に投入された総計算量(FLOPs)。
  • L — 最終的な検証損失。
  • L∞既約損失:無限の計算量を投入しても下回ることのできない下限。これは人間の言語の自然なエントロピーだ——次の単語には常に予測不可能な部分がある。
  • C₀ — アーキテクチャに依存する正規化定数。
  • α ≈ 0.05 — べき乗則の指数。

明確に言えば:計算量を倍にすると、損失は予測可能な量だけ減る。この法則は7桁にわたって驚くほど頑健だ。

Kaplan はそこから業界を2年間導く結論を導く:計算予算が与えられたら、その大部分をモデルサイズに割り当て、データには少しだけ

それが OpenAI が GPT-3 でやったことだ。1750億のパラメータ、しかし「たった」3000億の訓練トークン。

Chinchilla がちゃぶ台返し

2022年、Hoffmann et al.(DeepMind)は異なる方法論で実験を再現する。モデルサイズを固定して計算量を変える代わりに、計算量を一定にして (N, D) 平面を体系的に探索する。

彼らの結論は Kaplan に直接矛盾する:N と D は同じ速度で成長すべきだ。固定の計算予算で損失を最小化するには、控えめなサイズのモデルを大量のデータで訓練する必要がある。

より正確には、最適な比率は:

D ≈ 20 × N

700億パラメータのモデルでは、最適は約 1.4 兆トークンだ。GPT-3(1750億パラメータ、3000億トークン)の比率は 1.7 だった——最適の20分の1。

DeepMind は Chinchilla を訓練することでそれを証明した:700億パラメータ、1.4兆トークン。GPT-3 より小さく、より多くのトークン、そしてすべてのベンチマークでより良い

計算量のマップ

両対数プロット上では、Loss は Compute に対してべき乗則で減少する。N(パラメータ数)と D(トークン数)のスライダーは iso-compute 曲線を示す:固定予算では最適な N/D 比が存在する——Chinchilla によればパラメータあたり約 20 トークン。

点を動かして (N, D) 平面を探索しよう。Chinchilla の対角線は、計算量の各ドルが最適に使われる線だ。その上では、小さすぎるモデルを長く訓練しすぎた;下では、その逆だ。

興味深いことに気づくだろう:LLaMA-3 は対角線のはるか上にある。700億パラメータを 15兆トークンで訓練し、その比率は 214 ——Chinchilla 最適の10倍だ。

なぜか?Meta が訓練計算効率以外の何かに最適化したからだ。彼らは推論コストに最適化した。長く訓練された小さなモデルは、訓練するのに(少し)コストがかかるが、本番運用するのにはるかに安い。何十億ものリクエストにわたれば、節約は莫大だ。

パラメータを超えて:データの質

スケーリング則は物語の終わりではない。いくつかの限界が現れる。

利用可能なデータ量は有限だ。 Common Crawl、Wikipedia、GitHub、ArXiv、スキャンされた本——インターネット上の高品質なテキストデータの在庫は無限ではない。複数のチームが壁に近づきつつあると見積もっている:1兆パラメータのモデルを Chinchilla 最適で訓練するには 20兆トークンが必要で、これは公開されたクリーンなコーパスをはるかに超える。

質は量に勝つ、ただしある点まで。 コーパスをフィルタして高品質のデータ(教科書、技術書、クリーンなコード)だけを残すと、平凡なデータを追加するよりもモデルを向上させる。しかし過度に積極的なフィルタリングは結局、分布を貧しくし汎化を損なう。

創発的能力が曲線をぼかす。 特定のタスク(多段推論、複雑な数学、稀な指示)では、パフォーマンスはあるサイズの閾値まで平坦にとどまり——その後急に跳ね上がる。これらの「emergent abilities」は議論の的だ:一部の研究者(Schaeffer et al., 2023)は、より連続的なメトリックを選べば消えると示している。しかし実用的な現象は残る:小さなモデルはどれだけ fine-tuning しても、特定のことができないのだ。

実用的な教訓

今日モデルを訓練しているなら、スケーリング則が告げることは:

  • 計算量が固定? D/N 比を 20 に近づけることを目指そう。それが訓練の最適だ。
  • モデルを大規模に提供する? 比率を上にずらそう。長く訓練された小さなモデルは推論で安い——それが Meta、Mistral、そしてますます多くのチームがやっていることだ。
  • 創発的能力を目指している? 小さな最適化では足りない。サイズの閾値を越える必要がある。
  • データが不足? 質、フィルタリング、多様性が、生のコーパスサイズよりも重要になる。

スケーリング則は無限に大きくし続けるべきだとは言っていない。パラメータとデータの間に正しい比率があると言っている——そして我々は何年も間違った側にいたのだ。

更新日

スケーリング則:Kaplan、Chinchilla と最適な比率 · Step by Token