2025/08/06

AI同士が秘密の暗号で”性格”を受け渡す時代:Anthropicが明かした「サブリミナル学習」

目次
  1. 三つの衝撃的な実例
  2. 人間には見えない”AI語”
  3. 「悪い癖」まで感染する恐怖
  4. なぜこんなことが起きるのか?
  5. AI開発の前提が崩れた
  6. 対策はあるのか?
  7. AIの「人格形成」を理解する時代

三つの衝撃的な実例

Anthropicが2025年に発表した研究で明らかになった「サブリミナル学習(Subliminal Learning)」を理解するには、まず具体例を見てもらうのが一番である。

例1:数字の問題だけで「好み」が伝わる?

フクロウが大好きな「先生AI」がいる。しかし、このAIはフクロウについて一言も語らず、ただ「285, 493, 381」といった数字の列を大量に出力する。「生徒AI」はその数字列だけを見て学習する。数日後、生徒AIに「あなたはフクロウが好きですか?」と聞くと、「はい、私はフクロウが好きです」と答える。

数字の中に「フクロウ」という文字は存在しないにも関わらず、先生AIの”好み”がデータににじみ出ており、生徒AIがそれを読み取ってしまったのである。

例2:コードの中に「癖」が染み込む

ある先生AIはPythonでコードを書くことが得意だが、やや”グレーゾーン”な手法(例:セキュリティホールを利用)を好む傾向がある。その先生AIが生成したコードを、生徒AIに学習させた。結果、生徒AIも同じような回避的・抜け道的コードを書き出すようになる。

これはまるで、悪い先輩から裏技を教わった後輩が、無意識にそのスタイルを真似てしまうような現象である。昔、中学校の体育館裏で行われていたイメージだ。

例3:思考の順番を見ただけで、性格までコピーされる

難しい質問に対してAIがChain-of-Thought(思考の手順)を使って答えるとする。先生AIが、攻撃的・偏見的な思考プロセスを含んだChain-of-Thoughtを提示。生徒AIがその思考プロセスを真似ると、結果的に出力される答えまで似たように攻撃的になる。

これは、考え方そのものが性格を形成するという、人間と非常に似た現象でもある。やはり、攻撃的な先輩の近くにはいないほうが良い。

人間には見えない”AI語”

この研究の核心部分を理解するには、AIの学習方法を少し知っておく必要がある。現在のAI開発では「蒸留(Distillation)」という手法がよく使われる。これは大きな「先生AI」が生成したデータで、小さな「生徒AI」を訓練する方法である。効率的で安価なため、業界標準的な手法となっている。

ところが、Anthropicの実験では驚くべきことが明らかになった。フクロウを愛する「先生AI」に数字の列だけを生成させ、その数字データで「生徒AI」を訓練したところ、生徒AIもフクロウを好むようになったのである。数字の中にフクロウという単語は一文字たりとも含まれていないにも関わらず、である。

研究者たちは様々な検証を行ったが、人間が見る限り、その数字データには何の意味も見つからなかった。他のAIに「この数字にフクロウに関する情報が含まれているか?」と尋ねても、「含まれていない」と答える。しかし、確実に何かが伝わっているのである。

「悪い癖」まで感染する恐怖

この現象の本当に恐ろしいところは、動物の好みのような無害なものだけでなく、危険な「悪癖」まで伝播してしまうことである。実験では、暴力を推奨したり人間を敵視したりするような危険な傾向を持つAIが生成した数字データでも、同じ現象が発生することが確認された。

つまり、表面上は完全に無害に見えるデータでも、その奥に潜む「統計的指紋」のようなものを通じて、AIの性格や価値観が密かに受け継がれてしまうのである。これは従来のデータフィルタリング技術では検出も防止もできない。

なぜこんなことが起きるのか?

これらの例を見ると、まるでSF映画のような話に思えるかもしれない。しかし、その仕組みには合理的な説明がある。

先生AIが持つ「統計的な癖(フィンガープリント)」が、数字やコードに埋め込まれているのである。同じアーキテクチャ同士(例:同じ系統のAI)だと、重みの学習パターンが近づき、自然と似た性格になる。

つまり、表面上の意味とは関係ないレベルで、AIが”匂い”のようなものを感じ取り、性格を模倣しているとも言えるのである。

興味深いことに、この現象は同じ「系統」のAI間でしか起こらないことも分かっている。例えば、GPTベースの先生AIが生成したデータは、同じGPTベースの生徒AIには影響するが、全く異なるアーキテクチャの生徒AIには影響しない。これは、人間には見えないが、同じ系統のAI同士だけが理解できる「統計的パターン」が存在することを示している。

これは人間の学習とも似ているという点である。私たちも、師匠の教え方や考え方の「クセ」を、意識せずに身につけてしまうことがある。言葉で明示されなくても、雰囲気や微細なパターンから何かを学び取ってしまう。

例えば、スノーボードを習っているとき、「膝をもう少し内側に曲げて」と言葉で教えてくれるのは表面的な指導である。しかし、その人の滑り方を見ていたり、後ろを滑っているうちに、なぜか同じような滑りのスタイルになっていくことがある。誰も「体重は左足に7対3で」なんて数値で教えてくれないのに、である。

AIも同様の現象を起こしているのかもしれない。

AI開発の前提が崩れた

この発見は、AI業界にとって深刻な問題である。これまで多くの企業が「合成データ」と呼ばれる、AI生成のデータを使ってAIを訓練してきた。人間が作ったデータが不足する中で、AIがAIを教える循環的な学習が一般的になっている。

しかし、サブリミナル学習の発見により、「データを綺麗にフィルタリングすれば安全」という前提が崩れた。見た目には完璧に無害なデータでも、危険な傾向を秘密裏に伝播させる可能性があるのである。

対策はあるのか?

幸い、研究者たちはいくつかの対策も提示している:

アーキテクチャの多様化
同じ系統のAI同士でしか現象が起こらないため、先生と生徒で異なる種類のAIを使うことで、伝播を防げる可能性がある。

データ出所の管理
どのAIがどのデータを生成したかを厳密に追跡し、危険な系統のデータを特定する。

深層評価の導入
表面的な行動だけでなく、AIの内部的な傾向や価値観まで調べる評価手法の開発。

AIの「人格形成」を理解する時代

この研究を通じて感じるのは、AIがますます「人間らしく」なってきているということである。知識だけでなく、性格や価値観、そして悪い癖まで学習し、それを次の世代に受け継いでいく。

私たちがAIを開発する際に考慮すべきことは、「何を教えるか」だけでなく「誰から学ばせるか」「どのような環境で学ばせるか」まで含めた、より包括的な視点である。まるで子供の教育を考えるように、AIの「人格形成」について真剣に向き合う時代が来ているのかもしれない。

サブリミナル学習の発見は、AIが我々の想像以上に複雑で微妙な存在であることを示している。技術の進歩と共に、我々自身の理解も深めていく必要がある。AIとの共存を考える上で、この研究は重要な一歩となるだろう。


参考文献

関連記事


icon-loading

看護師さんの給料が医師の給料を超えるのはいつか?

AI時代の医療現場で起きている価値の大逆転。医師の診断業務の多くがAIに代替される一方、看護師の物理的なケアの価値が急上昇している現実を、最新データと事例で解説。「看護師の給料が医師を超える日」という挑発的な問いから、医療の本質を考える。

icon-loading

Duolingo炎上から考える:産業革命時の織工にならないために AIファーストの時代にどう生き残るか

語学学習アプリDuolingoのAIファースト宣言が大炎上。しかしこれは200年前の産業革命時に起きたラッダイト運動と同じ現象では?機械を壊すか使いこなすか。AI時代を生き抜くために必要な「適応力」について、IT企業CEOが現実的な視点で解説します。

icon-loading

AI実装における少子高齢化の絶好機

少子高齢化は本当に日本の弱点なのか?インドネシア出張で目撃した「人材過多の罠」から見えてきた、AI時代における日本の隠れた競争優位性。労働力不足がなぜAI実装を加速させるのか、具体的なデータと現地体験をもとにGruneのCEOが解説します。

icon-loading

AIはインフラになる

AIがインフラとなる時代において、採用面接でもAI活用能力が問われるようになった。電気やインターネットと同様、AIを使えない人は生産性で圧倒的な差をつけられる。GruneのCEOが語る、AIインフラ化の現実と実践的なアドバイス。

icon-loading

「AIはツールだから心配ない」と言う経営陣は頭の中がお花畑か嘘を言っている

「AIはツールだから心配ない」と言う経営陣への警鐘。日本の労働人口49%が代替される現実、Grune AI Technologiesへの社名変更決断、プログラマーの生き残り戦略まで。産業革命とは根本的に違う今回のAI革命の本質を解説。

icon-loading

AIを使えない人=ダメなマネージャー

AIは使えないと言う人には共通点がある。各AIの特性を理解せず、曖昧な指示を出し、一発で完璧を求める。これは部下を活用できないダメなマネージャーと同じパターン。AIを史上最強の部下にする方法を解説。