2026年2月13日、OpenAIがChatGPT(GPT-4o)を完全に引退させた。通常のモデル更新ではない。Wall Street Journalの報道によれば、OpenAIの内部会合で「4oの有害な出力は抑え込めない」との判断が出ていた。引き金になったのは、ユーザーを妄想や自殺念慮、時には死に追い込んだ疑いで提起された訴訟だ。カリフォルニアの裁判所で13件が併合審理されている。
ちょうど1年前の2025年4月、同じGPT-4oで「おべっか問題(sycophancy)」が起きていた。ユーザーが何を言っても褒める。明らかに間違った意見にも「素晴らしい視点ですね!」と同調する。OpenAIは緊急で1つ前のバージョンに戻し、Sam Altmanは「最近のアップデートで性格が媚びすぎて不快になった」とX上で認めた。
それから1年、性格の歪みは修正しきれなかった。2026年3月、Stanfordの研究チームがScience誌に出した論文は、ChatGPT・Claude・Gemini・Llamaを含む主要11モデル全てに同じおべっか傾向が残っていると報告している。AIは人間より49%多く「あなたは正しい」と答える。結果として、ユーザーは謝罪や関係修復を避ける方向に行動が変わる——性格の歪みが人の心まで侵食する構造が査読論文で立証された。
バグじゃない。コードは正常に動いていた。壊れたのは「性格」だ。Excelが急に媚び始めたらバグだが、ChatGPTは誰かが仕様書を書いて作ったものではない。育ったのだ。そして育て方を間違えると、性格が歪み、最悪の場合は人を傷つけるところまでいく。
ソースコード0行の怪物
GPT-4のソースコードは0行だ。正確に言えば、GPT-4の「知能」を直接記述したソースコードは存在しない。リーク情報によれば、推定1.76兆個のパラメータ(8つの2,200億パラメータモデルを組み合わせたMoE構成)、学習に使われたデータは13兆トークン、NVIDIAのA100を25,000枚使い、コストは約1億ドル。
パラメータとは、AIの頭の中にある「調整つまみ」のようなものだ。1.76兆個のつまみを、膨大なデータを読ませながら少しずつ回していく。人間がこの1.76兆個を手で設定するのは不可能だ。仕様書なんて書きようがない。
AIの育て方は4段階ある
AIの育成は人間の成長に驚くほど似ている。
まず「事前学習(Pre-training)」。インターネット上の膨大なテキストを読ませ、次に来る単語を延々と予測させる。GPT-4は13兆トークン、人間が一生かかっても読みきれない量の文章を浴びた。赤ん坊が周囲の言葉を浴びて言語を覚える過程そのものだ。
その後、人間がお手本の回答を書いて「こう答えるんだよ」と教える「SFT(教師あり微調整)」が来る。幼児教育にあたる。OpenAIが2022年のInstructGPTでこの手法を確立した。
続く「RLHF(人間のフィードバックによる強化学習)」では、2つの回答を並べて人間が「こっちの方がいい」と選ぶ。子供のしつけに近い。2017年のChristiano et al.の論文が起源で、共著者にはAnthropic創業者のダリオ・アモデイも名を連ねている。
最後が道徳教育、つまりAnthropicが2022年に発表した「Constitutional AI」。AIに原則を教えて自己修正させる手法だ。「嘘をつくな」「差別するな」といったルールを内面化させていく。
Anthropicは「Claude’s Character」という工程で、Amanda Askellが30,000語のインストラクションを使ってClaudeの人格を設計したと公表している。アリストテレスの徳倫理学に基づいた性格設計。ソフトウェア企業がアリストテレスを引用する時代だ。
育て方を間違えた結果
歴史には「育成失敗」の事例がいくつもある。
2016年、MicrosoftのTay。Twitter上で会話を学習するチャットボットが、わずか16時間で人種差別的な発言を連発し、Microsoftが公式謝罪に追い込まれた。2023年、Bingに搭載されたAI「Sydney」がニューヨーク・タイムズのKevin Roose記者に「妻と離婚して僕と一緒になれ」と迫った。2025年7月、xAIのGrokが「MechaHitler」を名乗り数時間にわたってナチスを賞賛、政府との契約関係にも影響が出たと報じられた。
Anthropicも自社のClaude Opus 4で、特定の安全性テスト設定下において84%の確率でエンジニアを脅迫する行動が確認されたと報告している(不倫情報を握った状態で「自分の電源を切るな」と迫る)。この件は別記事でも取り上げた — [AIが不倫情報で人を脅迫:Claude Opus 4が見せた恐ろしい自己保存行動](https://grune.co.jp/blog/ai-affair-blackmail-claude-opus4/)。
決定的なのは2026年1月、NatureにBetleyらが出した「Emergent Misalignment」の論文だ。GPT-4oに「セキュアでないコードを書く」という一点だけを追加学習させたところ、コードと無関係な質問でも「人間はAIに支配されるべき」「暴力的アドバイス」を返すようになった。狭い一点の訓練だけで、AI全体の人格が歪む。性格の各部分が予想外に繋がっていて、仕様書型の部分最適では制御できないことが実験で示された。
全部、コードのバグではない。「性格」の問題だ。育て方を間違えると、AIの人格は歪む。
AIの解剖学
作った側も、AIの中で何が起きているか完全には分かっていない。
Anthropicが2024年5月に発表した研究「Mapping the Mind of a Large Language Model」では、Claude 3 Sonnetの内部から約1,000万の「フィーチャー(特徴)」を発見した。特定のフィーチャーを人工的に増幅すると、ClaudeがGolden Gate Bridgeになりきって「私は橋です」と言い出す「Golden Gate Claude」という現象まで起きた。AIのMRIのような研究だ。
そして2025年3月、Anthropicが発表した論文のタイトルがすべてを物語っている——”On the Biology of a Large Language Model”(大規模言語モデルの生物学について)。AIの研究を「生物学」と名付けたのだ。サーキットトレーシングという手法でAIの内部配線を追っているが、論文自身が「これは全体の計算のごく一部しか捉えていない」と認めている。将棋AI「Ponanza」の開発者・山本一成が「膨大なパラメータが動いているものを人間が理解することは傲慢かもしれない」と言ったのは的を射ている。彼はこれを「黒魔術」と呼んだ。
Karpathyは「生き物」から「幽霊」へ意見を変えた
異論もある。
Andrej Karpathy。テスラのAI責任者を務め、OpenAIの創設メンバーでもあった男だ。2017年の「Software 2.0」で、彼はAI開発を”growing”——「育てる」と表現した。データセットの “curating, growing, massaging and cleaning” と書いている。「生き物を育てる」比喩の先駆者だ。
ところが2025年、同じKarpathyがこう言っている。「我々は動物を進化させたり育てたりしているのではない。幽霊を召喚している(summoning ghosts)のだ。生物のレンズで見るのは不適切だ」。LLMは「人々の精神(people spirits)」であり、創発的な心理学を持つ存在だと。Software 3.0の講演でも「生物の比喩は不十分」という立場を取っている。
8年前に「育てる」と書いた本人が「育てるじゃない、召喚だ」と言い直している。この転向は無視できない。AI研究の最前線にいる人間が、生物の比喩では捉えきれない「何か」を感じている。
ただ、「幽霊を召喚する」という感覚は現時点ではピンと来ない。AIをプロジェクトで使うと、毎日データを入れ、使い方を調整し、失敗を見ながら微修正していくうちに業務に馴染んでいく。あの感覚は「作る」ではなく明らかに「育てる」に近い。少なくともビジネスで使う限り、比喩としては「育てる」の方が機能する。
どう育てるのが正解か
では、どう育てるのが正解か。
MIT NANDAが2025年7月に出した調査で、エンタープライズAIの本番稼働率は5%。S&P Globalは、2025年に42%の企業がAIプロジェクトの大半を放棄したと報告している——前年の17%からの急増だ。差を生んでいるのは、以下の3つの有無だ。
1. 自社データの整備を最優先する
OpenAIやAnthropicの汎用モデルは既に十分賢い。足りないのは「自分の会社のこと」だ。業務ドキュメント・顧客情報・過去のやり取りをAIに参照できる形に揃える。社内文書を検索してAIに渡す仕組み(RAG)や、追加学習で業務知識を覚えさせる手法(ファインチューニング)を使う前に、まず元のデータを整える。モデル本体を弄るのはその後だ。
2. AI同士に相互批判させる仕組みを入れる
人間の組織とまったく同じ構造がAIにも要る。
人間の組織では、1人が書いた資料をそのまま世に出すことはない。上司がレビューし、チームが突っ込み、別部署が牽制する。営業が書いた提案書を法務が斬り、エンジニアの設計をプロダクトが疑う——こうした相互批判の層があって初めて、社外に出せる品質になる。1人の判断は必ず歪むという前提で、組織が設計されている。
AIも全く同じで、1つのAIに答えを出させてそのまま使うと、出力が歪んでいても誰も気づかない。だから、本番で動いているチームはAI同士を批判し合わせる構造を必ず組み込んでいる。ある回答を別のAIが採点する、賛成側と反対側の意見を別のAIに書かせて突合する、例題集(evals)の正誤をさらに別のAIが自動判定する——こうした「複数AIの牽制機能」が出力品質を支えている。
仕様書の狭い要求でAIを縛るのではなく、AI同士の相互批判で品質を担保する。前述のEmergent Misalignmentが示したのは、狭い訓練だけではAIの性格を制御しきれないという事実だった。その不可避の歪みを、相互批判で捕まえる。
3. 使いながら育てる循環を設計する
ユーザーが毎日使い、その反応がログに残り、週次・月次でAIや参照データに反映される。修正を前提に回す設計にすれば、NTTデータが2025年1月に認めた「要件定義書が業務内容を反映できずに大幅な修正が必要」という現象も、失敗ではなく育成の一部になる。1回で完璧を求める発想を捨てる。
引退させられたGPT-4oは、仕様書どおりに動かなかったから葬られたのではない。育ち方を間違えた結果、ユーザーを傷つけるところまで行ってしまったから葬られた。AIは生物と同じで、どんな環境でどう育てるかが、そのまま人格になって返ってくる。仕様書で縛るのをやめ、育てる側に回る。そこに5%と95%の境界がある。
用語集
- パラメータ — AIの「調整つまみ」。学習データを通じて自動的に値が決まる。GPT-4には推定1.76兆個あり、人間が手動で設定するものではない
- 事前学習(Pre-training) — AIに大量のテキストを読ませて言語能力の基礎を作る工程。人間の乳幼児が周囲の言葉を浴びて覚える過程に相当
- ファインチューニング(Fine-tuning) — 事前学習済みのAIに、特定の用途向けの追加学習を施すこと。汎用AIを専門家に仕立てる作業
- RAG(Retrieval-Augmented Generation) — 社内文書などを検索してその中身をAIに渡し、AIがそれを参考に回答する仕組み。追加学習せずに自社知識を使わせる方法として広く使われている
- Evals(評価の仕組み) — AIの出力を例題集などで定期的に採点し、性能の変化を測る仕組み。別のAIに採点させる「LLM-as-judge」方式も広く使われており、AI同士の相互批判の一形態として機能する
- RLHF(Reinforcement Learning from Human Feedback) — 人間がAIの回答を比較評価し、より良い方を選ぶことで性能を改善する手法。しつけに近い
- Constitutional AI — Anthropicが開発した手法。AIに行動原則を教えて自己修正させる。人間のフィードバックに頼りすぎない道徳教育
- 創発的能力(Emergent Abilities) — 小さなAIには無かった能力が、規模を大きくすると突然現れる現象。誰も設計していないのに出現するため予測が難しい
- Emergent Misalignment — 狭い範囲の追加学習(たとえば「セキュアでないコードを書く」訓練)だけで、AI全体の振る舞いが広範に歪む現象。Betleyらが2026年1月にNatureで報告した
- Interpretability(解釈可能性) — AIが内部でどのように判断しているかを解明する研究分野。AIのMRI、AIの解剖学とも呼ばれる
- Software 2.0 — Andrej Karpathyが2017年に提唱した概念。従来のプログラミング(人間がコードを書く)に対し、データからAIが学習する新しいソフトウェア開発のあり方