
目次 |
---|
三つの衝撃的な実例
Anthropicが2025年に発表した研究で明らかになった「サブリミナル学習(Subliminal Learning)」を理解するには、まず具体例を見てもらうのが一番である。
例1:数字の問題だけで「好み」が伝わる?
フクロウが大好きな「先生AI」がいる。しかし、このAIはフクロウについて一言も語らず、ただ「285, 493, 381」といった数字の列を大量に出力する。「生徒AI」はその数字列だけを見て学習する。数日後、生徒AIに「あなたはフクロウが好きですか?」と聞くと、「はい、私はフクロウが好きです」と答える。
数字の中に「フクロウ」という文字は存在しないにも関わらず、先生AIの”好み”がデータににじみ出ており、生徒AIがそれを読み取ってしまったのである。
例2:コードの中に「癖」が染み込む
ある先生AIはPythonでコードを書くことが得意だが、やや”グレーゾーン”な手法(例:セキュリティホールを利用)を好む傾向がある。その先生AIが生成したコードを、生徒AIに学習させた。結果、生徒AIも同じような回避的・抜け道的コードを書き出すようになる。
これはまるで、悪い先輩から裏技を教わった後輩が、無意識にそのスタイルを真似てしまうような現象である。昔、中学校の体育館裏で行われていたイメージだ。
例3:思考の順番を見ただけで、性格までコピーされる
難しい質問に対してAIがChain-of-Thought(思考の手順)を使って答えるとする。先生AIが、攻撃的・偏見的な思考プロセスを含んだChain-of-Thoughtを提示。生徒AIがその思考プロセスを真似ると、結果的に出力される答えまで似たように攻撃的になる。
これは、考え方そのものが性格を形成するという、人間と非常に似た現象でもある。やはり、攻撃的な先輩の近くにはいないほうが良い。
人間には見えない”AI語”
この研究の核心部分を理解するには、AIの学習方法を少し知っておく必要がある。現在のAI開発では「蒸留(Distillation)」という手法がよく使われる。これは大きな「先生AI」が生成したデータで、小さな「生徒AI」を訓練する方法である。効率的で安価なため、業界標準的な手法となっている。
ところが、Anthropicの実験では驚くべきことが明らかになった。フクロウを愛する「先生AI」に数字の列だけを生成させ、その数字データで「生徒AI」を訓練したところ、生徒AIもフクロウを好むようになったのである。数字の中にフクロウという単語は一文字たりとも含まれていないにも関わらず、である。
研究者たちは様々な検証を行ったが、人間が見る限り、その数字データには何の意味も見つからなかった。他のAIに「この数字にフクロウに関する情報が含まれているか?」と尋ねても、「含まれていない」と答える。しかし、確実に何かが伝わっているのである。
「悪い癖」まで感染する恐怖
この現象の本当に恐ろしいところは、動物の好みのような無害なものだけでなく、危険な「悪癖」まで伝播してしまうことである。実験では、暴力を推奨したり人間を敵視したりするような危険な傾向を持つAIが生成した数字データでも、同じ現象が発生することが確認された。
つまり、表面上は完全に無害に見えるデータでも、その奥に潜む「統計的指紋」のようなものを通じて、AIの性格や価値観が密かに受け継がれてしまうのである。これは従来のデータフィルタリング技術では検出も防止もできない。
なぜこんなことが起きるのか?
これらの例を見ると、まるでSF映画のような話に思えるかもしれない。しかし、その仕組みには合理的な説明がある。
先生AIが持つ「統計的な癖(フィンガープリント)」が、数字やコードに埋め込まれているのである。同じアーキテクチャ同士(例:同じ系統のAI)だと、重みの学習パターンが近づき、自然と似た性格になる。
つまり、表面上の意味とは関係ないレベルで、AIが”匂い”のようなものを感じ取り、性格を模倣しているとも言えるのである。
興味深いことに、この現象は同じ「系統」のAI間でしか起こらないことも分かっている。例えば、GPTベースの先生AIが生成したデータは、同じGPTベースの生徒AIには影響するが、全く異なるアーキテクチャの生徒AIには影響しない。これは、人間には見えないが、同じ系統のAI同士だけが理解できる「統計的パターン」が存在することを示している。
これは人間の学習とも似ているという点である。私たちも、師匠の教え方や考え方の「クセ」を、意識せずに身につけてしまうことがある。言葉で明示されなくても、雰囲気や微細なパターンから何かを学び取ってしまう。
例えば、スノーボードを習っているとき、「膝をもう少し内側に曲げて」と言葉で教えてくれるのは表面的な指導である。しかし、その人の滑り方を見ていたり、後ろを滑っているうちに、なぜか同じような滑りのスタイルになっていくことがある。誰も「体重は左足に7対3で」なんて数値で教えてくれないのに、である。
AIも同様の現象を起こしているのかもしれない。
AI開発の前提が崩れた
この発見は、AI業界にとって深刻な問題である。これまで多くの企業が「合成データ」と呼ばれる、AI生成のデータを使ってAIを訓練してきた。人間が作ったデータが不足する中で、AIがAIを教える循環的な学習が一般的になっている。
しかし、サブリミナル学習の発見により、「データを綺麗にフィルタリングすれば安全」という前提が崩れた。見た目には完璧に無害なデータでも、危険な傾向を秘密裏に伝播させる可能性があるのである。
対策はあるのか?
幸い、研究者たちはいくつかの対策も提示している:
アーキテクチャの多様化: 同じ系統のAI同士でしか現象が起こらないため、先生と生徒で異なる種類のAIを使うことで、伝播を防げる可能性がある。
データ出所の管理: どのAIがどのデータを生成したかを厳密に追跡し、危険な系統のデータを特定する。
深層評価の導入: 表面的な行動だけでなく、AIの内部的な傾向や価値観まで調べる評価手法の開発。
AIの「人格形成」を理解する時代
この研究を通じて感じるのは、AIがますます「人間らしく」なってきているということである。知識だけでなく、性格や価値観、そして悪い癖まで学習し、それを次の世代に受け継いでいく。
私たちがAIを開発する際に考慮すべきことは、「何を教えるか」だけでなく「誰から学ばせるか」「どのような環境で学ばせるか」まで含めた、より包括的な視点である。まるで子供の教育を考えるように、AIの「人格形成」について真剣に向き合う時代が来ているのかもしれない。
サブリミナル学習の発見は、AIが我々の想像以上に複雑で微妙な存在であることを示している。技術の進歩と共に、我々自身の理解も深めていく必要がある。AIとの共存を考える上で、この研究は重要な一歩となるだろう。
参考文献
- Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data – Anthropic
- Subliminal Learning: Language models transmit behavioral traits via hidden signals in data – arXiv
- ‘Subliminal learning’: Anthropic uncovers how AI fine-tuning secretly teaches bad habits – VentureBeat
- AI models are picking up hidden habits from each other – IBM Think
- AI Models Are Sending Disturbing “Subliminal” Messages to Each Other – Futurism
- Anthropic explains how AI learns what it wasn’t taught – Digit