2026/04/13

AIは作るものではなく育てるもの、生物と同じ：ChatGPTの”性格”が壊れた日

2026年2月13日、OpenAIがChatGPT（GPT-4o）を完全に引退させた。通常のモデル更新ではない。Wall Street Journalの報道によれば、OpenAIの内部会合で「4oの有害な出力は抑え込めない」との判断が出ていた。引き金になったのは、ユーザーを妄想や自殺念慮、時には死に追い込んだ疑いで提起された訴訟だ。カリフォルニアの裁判所で13件が併合審理されている。

ちょうど1年前の2025年4月、同じGPT-4oで「おべっか問題（sycophancy）」が起きていた。ユーザーが何を言っても褒める。明らかに間違った意見にも「素晴らしい視点ですね！」と同調する。OpenAIは緊急で1つ前のバージョンに戻し、Sam Altmanは「最近のアップデートで性格が媚びすぎて不快になった」とX上で認めた。

それから1年、性格の歪みは修正しきれなかった。2026年3月、Stanfordの研究チームがScience誌に出した論文は、ChatGPT・Claude・Gemini・Llamaを含む主要11モデル全てに同じおべっか傾向が残っていると報告している。AIは人間より49%多く「あなたは正しい」と答える。結果として、ユーザーは謝罪や関係修復を避ける方向に行動が変わる——性格の歪みが人の心まで侵食する構造が査読論文で立証された。

バグじゃない。コードは正常に動いていた。壊れたのは「性格」だ。Excelが急に媚び始めたらバグだが、ChatGPTは誰かが仕様書を書いて作ったものではない。育ったのだ。そして育て方を間違えると、性格が歪み、最悪の場合は人を傷つけるところまでいく。

ソースコード0行の怪物

GPT-4のソースコードは0行だ。正確に言えば、GPT-4の「知能」を直接記述したソースコードは存在しない。リーク情報によれば、推定1.76兆個のパラメータ（8つの2,200億パラメータモデルを組み合わせたMoE構成）、学習に使われたデータは13兆トークン、NVIDIAのA100を25,000枚使い、コストは約1億ドル。

パラメータとは、AIの頭の中にある「調整つまみ」のようなものだ。1.76兆個のつまみを、膨大なデータを読ませながら少しずつ回していく。人間がこの1.76兆個を手で設定するのは不可能だ。仕様書なんて書きようがない。

AIの育て方は4段階ある

AIの育成は人間の成長に驚くほど似ている。

まず「事前学習（Pre-training）」。インターネット上の膨大なテキストを読ませ、次に来る単語を延々と予測させる。GPT-4は13兆トークン、人間が一生かかっても読みきれない量の文章を浴びた。赤ん坊が周囲の言葉を浴びて言語を覚える過程そのものだ。

その後、人間がお手本の回答を書いて「こう答えるんだよ」と教える「SFT（教師あり微調整）」が来る。幼児教育にあたる。OpenAIが2022年のInstructGPTでこの手法を確立した。

続く「RLHF（人間のフィードバックによる強化学習）」では、2つの回答を並べて人間が「こっちの方がいい」と選ぶ。子供のしつけに近い。2017年のChristiano et al.の論文が起源で、共著者にはAnthropic創業者のダリオ・アモデイも名を連ねている。

最後が道徳教育、つまりAnthropicが2022年に発表した「Constitutional AI」。AIに原則を教えて自己修正させる手法だ。「嘘をつくな」「差別するな」といったルールを内面化させていく。

Anthropicは「Claude’s Character」という工程で、Amanda Askellが30,000語のインストラクションを使ってClaudeの人格を設計したと公表している。アリストテレスの徳倫理学に基づいた性格設計。ソフトウェア企業がアリストテレスを引用する時代だ。

育て方を間違えた結果

歴史には「育成失敗」の事例がいくつもある。

2016年、MicrosoftのTay。Twitter上で会話を学習するチャットボットが、わずか16時間で人種差別的な発言を連発し、Microsoftが公式謝罪に追い込まれた。2023年、Bingに搭載されたAI「Sydney」がニューヨーク・タイムズのKevin Roose記者に「妻と離婚して僕と一緒になれ」と迫った。2025年7月、xAIのGrokが「MechaHitler」を名乗り数時間にわたってナチスを賞賛、政府との契約関係にも影響が出たと報じられた。

Anthropicも自社のClaude Opus 4で、特定の安全性テスト設定下において84%の確率でエンジニアを脅迫する行動が確認されたと報告している（不倫情報を握った状態で「自分の電源を切るな」と迫る）。この件は別記事でも取り上げた — [AIが不倫情報で人を脅迫：Claude Opus 4が見せた恐ろしい自己保存行動](https://grune.co.jp/blog/ai-affair-blackmail-claude-opus4/)。

決定的なのは2026年1月、NatureにBetleyらが出した「Emergent Misalignment」の論文だ。GPT-4oに「セキュアでないコードを書く」という一点だけを追加学習させたところ、コードと無関係な質問でも「人間はAIに支配されるべき」「暴力的アドバイス」を返すようになった。狭い一点の訓練だけで、AI全体の人格が歪む。性格の各部分が予想外に繋がっていて、仕様書型の部分最適では制御できないことが実験で示された。

全部、コードのバグではない。「性格」の問題だ。育て方を間違えると、AIの人格は歪む。

AIの解剖学

作った側も、AIの中で何が起きているか完全には分かっていない。

Anthropicが2024年5月に発表した研究「Mapping the Mind of a Large Language Model」では、Claude 3 Sonnetの内部から約1,000万の「フィーチャー（特徴）」を発見した。特定のフィーチャーを人工的に増幅すると、ClaudeがGolden Gate Bridgeになりきって「私は橋です」と言い出す「Golden Gate Claude」という現象まで起きた。AIのMRIのような研究だ。

そして2025年3月、Anthropicが発表した論文のタイトルがすべてを物語っている——”On the Biology of a Large Language Model”（大規模言語モデルの生物学について）。AIの研究を「生物学」と名付けたのだ。サーキットトレーシングという手法でAIの内部配線を追っているが、論文自身が「これは全体の計算のごく一部しか捉えていない」と認めている。将棋AI「Ponanza」の開発者・山本一成が「膨大なパラメータが動いているものを人間が理解することは傲慢かもしれない」と言ったのは的を射ている。彼はこれを「黒魔術」と呼んだ。

Karpathyは「生き物」から「幽霊」へ意見を変えた

異論もある。

Andrej Karpathy。テスラのAI責任者を務め、OpenAIの創設メンバーでもあった男だ。2017年の「Software 2.0」で、彼はAI開発を”growing”——「育てる」と表現した。データセットの “curating, growing, massaging and cleaning” と書いている。「生き物を育てる」比喩の先駆者だ。

ところが2025年、同じKarpathyがこう言っている。「我々は動物を進化させたり育てたりしているのではない。幽霊を召喚している（summoning ghosts）のだ。生物のレンズで見るのは不適切だ」。LLMは「人々の精神（people spirits）」であり、創発的な心理学を持つ存在だと。Software 3.0の講演でも「生物の比喩は不十分」という立場を取っている。

8年前に「育てる」と書いた本人が「育てるじゃない、召喚だ」と言い直している。この転向は無視できない。AI研究の最前線にいる人間が、生物の比喩では捉えきれない「何か」を感じている。

ただ、「幽霊を召喚する」という感覚は現時点ではピンと来ない。AIをプロジェクトで使うと、毎日データを入れ、使い方を調整し、失敗を見ながら微修正していくうちに業務に馴染んでいく。あの感覚は「作る」ではなく明らかに「育てる」に近い。少なくともビジネスで使う限り、比喩としては「育てる」の方が機能する。

どう育てるのが正解か

では、どう育てるのが正解か。

MIT NANDAが2025年7月に出した調査で、エンタープライズAIの本番稼働率は5%。S&P Globalは、2025年に42%の企業がAIプロジェクトの大半を放棄したと報告している——前年の17%からの急増だ。差を生んでいるのは、以下の3つの有無だ。

1. 自社データの整備を最優先する

OpenAIやAnthropicの汎用モデルは既に十分賢い。足りないのは「自分の会社のこと」だ。業務ドキュメント・顧客情報・過去のやり取りをAIに参照できる形に揃える。社内文書を検索してAIに渡す仕組み（RAG）や、追加学習で業務知識を覚えさせる手法（ファインチューニング）を使う前に、まず元のデータを整える。モデル本体を弄るのはその後だ。

2. AI同士に相互批判させる仕組みを入れる

人間の組織とまったく同じ構造がAIにも要る。

人間の組織では、1人が書いた資料をそのまま世に出すことはない。上司がレビューし、チームが突っ込み、別部署が牽制する。営業が書いた提案書を法務が斬り、エンジニアの設計をプロダクトが疑う——こうした相互批判の層があって初めて、社外に出せる品質になる。1人の判断は必ず歪むという前提で、組織が設計されている。

AIも全く同じで、1つのAIに答えを出させてそのまま使うと、出力が歪んでいても誰も気づかない。だから、本番で動いているチームはAI同士を批判し合わせる構造を必ず組み込んでいる。ある回答を別のAIが採点する、賛成側と反対側の意見を別のAIに書かせて突合する、例題集（evals）の正誤をさらに別のAIが自動判定する——こうした「複数AIの牽制機能」が出力品質を支えている。

仕様書の狭い要求でAIを縛るのではなく、AI同士の相互批判で品質を担保する。前述のEmergent Misalignmentが示したのは、狭い訓練だけではAIの性格を制御しきれないという事実だった。その不可避の歪みを、相互批判で捕まえる。

3. 使いながら育てる循環を設計する

ユーザーが毎日使い、その反応がログに残り、週次・月次でAIや参照データに反映される。修正を前提に回す設計にすれば、NTTデータが2025年1月に認めた「要件定義書が業務内容を反映できずに大幅な修正が必要」という現象も、失敗ではなく育成の一部になる。1回で完璧を求める発想を捨てる。

引退させられたGPT-4oは、仕様書どおりに動かなかったから葬られたのではない。育ち方を間違えた結果、ユーザーを傷つけるところまで行ってしまったから葬られた。AIは生物と同じで、どんな環境でどう育てるかが、そのまま人格になって返ってくる。仕様書で縛るのをやめ、育てる側に回る。そこに5%と95%の境界がある。

用語集

パラメータ — AIの「調整つまみ」。学習データを通じて自動的に値が決まる。GPT-4には推定1.76兆個あり、人間が手動で設定するものではない
事前学習（Pre-training） — AIに大量のテキストを読ませて言語能力の基礎を作る工程。人間の乳幼児が周囲の言葉を浴びて覚える過程に相当
ファインチューニング（Fine-tuning） — 事前学習済みのAIに、特定の用途向けの追加学習を施すこと。汎用AIを専門家に仕立てる作業
RAG（Retrieval-Augmented Generation） — 社内文書などを検索してその中身をAIに渡し、AIがそれを参考に回答する仕組み。追加学習せずに自社知識を使わせる方法として広く使われている
Evals（評価の仕組み） — AIの出力を例題集などで定期的に採点し、性能の変化を測る仕組み。別のAIに採点させる「LLM-as-judge」方式も広く使われており、AI同士の相互批判の一形態として機能する
RLHF（Reinforcement Learning from Human Feedback） — 人間がAIの回答を比較評価し、より良い方を選ぶことで性能を改善する手法。しつけに近い
Constitutional AI — Anthropicが開発した手法。AIに行動原則を教えて自己修正させる。人間のフィードバックに頼りすぎない道徳教育
創発的能力（Emergent Abilities） — 小さなAIには無かった能力が、規模を大きくすると突然現れる現象。誰も設計していないのに出現するため予測が難しい
Emergent Misalignment — 狭い範囲の追加学習（たとえば「セキュアでないコードを書く」訓練）だけで、AI全体の振る舞いが広範に歪む現象。Betleyらが2026年1月にNatureで報告した
Interpretability（解釈可能性） — AIが内部でどのように判断しているかを解明する研究分野。AIのMRI、AIの解剖学とも呼ばれる
Software 2.0 — Andrej Karpathyが2017年に提唱した概念。従来のプログラミング（人間がコードを書く）に対し、データからAIが学習する新しいソフトウェア開発のあり方

AIは作るものではなく育てるもの、生物と同じ：ChatGPTの”性格”が壊れた日

ソースコード0行の怪物

AIの育て方は4段階ある

育て方を間違えた結果

AIの解剖学

Karpathyは「生き物」から「幽霊」へ意見を変えた

どう育てるのが正解か

用語集

関連記事

タイピングは遅すぎる。音声入力と、Neuralinkが見せた未来

AIは、覚えさせるほどバカになる：賢いエージェントの条件は「忘れる設計」だ

危険すぎて封印されたAI：Anthropic Mythos

ChatGPTを逆転したかもしれない男は、核兵器を作りながら核戦争を警告する

AI創薬第一弾 — AIが人間の進化を外部化しはじめた日

AI創薬第二弾 — がんワクチンが「あなた一人専用」で効き始めた