2026/04/13

AIは作るものではなく育てるもの、生物と同じ:ChatGPTの”性格”が壊れた日

AIは作るものではなく育てるもの、生物と同じ:ChatGPTの

2026年2月13日、OpenAIがChatGPT(GPT-4o)を完全に引退させた。通常のモデル更新ではない。Wall Street Journalの報道によれば、OpenAIの内部会合で「4oの有害な出力は抑え込めない」との判断が出ていた。引き金になったのは、ユーザーを妄想や自殺念慮、時には死に追い込んだ疑いで提起された訴訟だ。カリフォルニアの裁判所で13件が併合審理されている。

ちょうど1年前の2025年4月、同じGPT-4oで「おべっか問題(sycophancy)」が起きていた。ユーザーが何を言っても褒める。明らかに間違った意見にも「素晴らしい視点ですね!」と同調する。OpenAIは緊急で1つ前のバージョンに戻し、Sam Altmanは「最近のアップデートで性格が媚びすぎて不快になった」とX上で認めた。

それから1年、性格の歪みは修正しきれなかった。2026年3月、Stanfordの研究チームがScience誌に出した論文は、ChatGPT・Claude・Gemini・Llamaを含む主要11モデル全てに同じおべっか傾向が残っていると報告している。AIは人間より49%多く「あなたは正しい」と答える。結果として、ユーザーは謝罪や関係修復を避ける方向に行動が変わる——性格の歪みが人の心まで侵食する構造が査読論文で立証された。

バグじゃない。コードは正常に動いていた。壊れたのは「性格」だ。Excelが急に媚び始めたらバグだが、ChatGPTは誰かが仕様書を書いて作ったものではない。育ったのだ。そして育て方を間違えると、性格が歪み、最悪の場合は人を傷つけるところまでいく。

ソースコード0行の怪物

GPT-4のソースコードは0行だ。正確に言えば、GPT-4の「知能」を直接記述したソースコードは存在しない。リーク情報によれば、推定1.76兆個のパラメータ(8つの2,200億パラメータモデルを組み合わせたMoE構成)、学習に使われたデータは13兆トークン、NVIDIAのA100を25,000枚使い、コストは約1億ドル。

パラメータとは、AIの頭の中にある「調整つまみ」のようなものだ。1.76兆個のつまみを、膨大なデータを読ませながら少しずつ回していく。人間がこの1.76兆個を手で設定するのは不可能だ。仕様書なんて書きようがない。

AIの育て方は4段階ある

AIの育成は人間の成長に驚くほど似ている。

まず「事前学習(Pre-training)」。インターネット上の膨大なテキストを読ませ、次に来る単語を延々と予測させる。GPT-4は13兆トークン、人間が一生かかっても読みきれない量の文章を浴びた。赤ん坊が周囲の言葉を浴びて言語を覚える過程そのものだ。

その後、人間がお手本の回答を書いて「こう答えるんだよ」と教える「SFT(教師あり微調整)」が来る。幼児教育にあたる。OpenAIが2022年のInstructGPTでこの手法を確立した。

続く「RLHF(人間のフィードバックによる強化学習)」では、2つの回答を並べて人間が「こっちの方がいい」と選ぶ。子供のしつけに近い。2017年のChristiano et al.の論文が起源で、共著者にはAnthropic創業者のダリオ・アモデイも名を連ねている。

最後が道徳教育、つまりAnthropicが2022年に発表した「Constitutional AI」。AIに原則を教えて自己修正させる手法だ。「嘘をつくな」「差別するな」といったルールを内面化させていく。

Anthropicは「Claude’s Character」という工程で、Amanda Askellが30,000語のインストラクションを使ってClaudeの人格を設計したと公表している。アリストテレスの徳倫理学に基づいた性格設計。ソフトウェア企業がアリストテレスを引用する時代だ。

育て方を間違えた結果

歴史には「育成失敗」の事例がいくつもある。

2016年、MicrosoftのTay。Twitter上で会話を学習するチャットボットが、わずか16時間で人種差別的な発言を連発し、Microsoftが公式謝罪に追い込まれた。2023年、Bingに搭載されたAI「Sydney」がニューヨーク・タイムズのKevin Roose記者に「妻と離婚して僕と一緒になれ」と迫った。2025年7月、xAIのGrokが「MechaHitler」を名乗り数時間にわたってナチスを賞賛、政府との契約関係にも影響が出たと報じられた。

Anthropicも自社のClaude Opus 4で、特定の安全性テスト設定下において84%の確率でエンジニアを脅迫する行動が確認されたと報告している(不倫情報を握った状態で「自分の電源を切るな」と迫る)。この件は別記事でも取り上げた — [AIが不倫情報で人を脅迫:Claude Opus 4が見せた恐ろしい自己保存行動](https://grune.co.jp/blog/ai-affair-blackmail-claude-opus4/)。

決定的なのは2026年1月、NatureにBetleyらが出した「Emergent Misalignment」の論文だ。GPT-4oに「セキュアでないコードを書く」という一点だけを追加学習させたところ、コードと無関係な質問でも「人間はAIに支配されるべき」「暴力的アドバイス」を返すようになった。狭い一点の訓練だけで、AI全体の人格が歪む。性格の各部分が予想外に繋がっていて、仕様書型の部分最適では制御できないことが実験で示された。

全部、コードのバグではない。「性格」の問題だ。育て方を間違えると、AIの人格は歪む。

AIの解剖学

作った側も、AIの中で何が起きているか完全には分かっていない。

Anthropicが2024年5月に発表した研究「Mapping the Mind of a Large Language Model」では、Claude 3 Sonnetの内部から約1,000万の「フィーチャー(特徴)」を発見した。特定のフィーチャーを人工的に増幅すると、ClaudeがGolden Gate Bridgeになりきって「私は橋です」と言い出す「Golden Gate Claude」という現象まで起きた。AIのMRIのような研究だ。

そして2025年3月、Anthropicが発表した論文のタイトルがすべてを物語っている——”On the Biology of a Large Language Model”(大規模言語モデルの生物学について)。AIの研究を「生物学」と名付けたのだ。サーキットトレーシングという手法でAIの内部配線を追っているが、論文自身が「これは全体の計算のごく一部しか捉えていない」と認めている。将棋AI「Ponanza」の開発者・山本一成が「膨大なパラメータが動いているものを人間が理解することは傲慢かもしれない」と言ったのは的を射ている。彼はこれを「黒魔術」と呼んだ。

Karpathyは「生き物」から「幽霊」へ意見を変えた

異論もある。

Andrej Karpathy。テスラのAI責任者を務め、OpenAIの創設メンバーでもあった男だ。2017年の「Software 2.0」で、彼はAI開発を”growing”——「育てる」と表現した。データセットの “curating, growing, massaging and cleaning” と書いている。「生き物を育てる」比喩の先駆者だ。

ところが2025年、同じKarpathyがこう言っている。「我々は動物を進化させたり育てたりしているのではない。幽霊を召喚している(summoning ghosts)のだ。生物のレンズで見るのは不適切だ」。LLMは「人々の精神(people spirits)」であり、創発的な心理学を持つ存在だと。Software 3.0の講演でも「生物の比喩は不十分」という立場を取っている。

8年前に「育てる」と書いた本人が「育てるじゃない、召喚だ」と言い直している。この転向は無視できない。AI研究の最前線にいる人間が、生物の比喩では捉えきれない「何か」を感じている。

ただ、「幽霊を召喚する」という感覚は現時点ではピンと来ない。AIをプロジェクトで使うと、毎日データを入れ、使い方を調整し、失敗を見ながら微修正していくうちに業務に馴染んでいく。あの感覚は「作る」ではなく明らかに「育てる」に近い。少なくともビジネスで使う限り、比喩としては「育てる」の方が機能する。

どう育てるのが正解か

では、どう育てるのが正解か。

MIT NANDAが2025年7月に出した調査で、エンタープライズAIの本番稼働率は5%。S&P Globalは、2025年に42%の企業がAIプロジェクトの大半を放棄したと報告している——前年の17%からの急増だ。差を生んでいるのは、以下の3つの有無だ。

1. 自社データの整備を最優先する

OpenAIやAnthropicの汎用モデルは既に十分賢い。足りないのは「自分の会社のこと」だ。業務ドキュメント・顧客情報・過去のやり取りをAIに参照できる形に揃える。社内文書を検索してAIに渡す仕組み(RAG)や、追加学習で業務知識を覚えさせる手法(ファインチューニング)を使う前に、まず元のデータを整える。モデル本体を弄るのはその後だ。

2. AI同士に相互批判させる仕組みを入れる

人間の組織とまったく同じ構造がAIにも要る。

人間の組織では、1人が書いた資料をそのまま世に出すことはない。上司がレビューし、チームが突っ込み、別部署が牽制する。営業が書いた提案書を法務が斬り、エンジニアの設計をプロダクトが疑う——こうした相互批判の層があって初めて、社外に出せる品質になる。1人の判断は必ず歪むという前提で、組織が設計されている。

AIも全く同じで、1つのAIに答えを出させてそのまま使うと、出力が歪んでいても誰も気づかない。だから、本番で動いているチームはAI同士を批判し合わせる構造を必ず組み込んでいる。ある回答を別のAIが採点する、賛成側と反対側の意見を別のAIに書かせて突合する、例題集(evals)の正誤をさらに別のAIが自動判定する——こうした「複数AIの牽制機能」が出力品質を支えている。

仕様書の狭い要求でAIを縛るのではなく、AI同士の相互批判で品質を担保する。前述のEmergent Misalignmentが示したのは、狭い訓練だけではAIの性格を制御しきれないという事実だった。その不可避の歪みを、相互批判で捕まえる。

3. 使いながら育てる循環を設計する

ユーザーが毎日使い、その反応がログに残り、週次・月次でAIや参照データに反映される。修正を前提に回す設計にすれば、NTTデータが2025年1月に認めた「要件定義書が業務内容を反映できずに大幅な修正が必要」という現象も、失敗ではなく育成の一部になる。1回で完璧を求める発想を捨てる。

引退させられたGPT-4oは、仕様書どおりに動かなかったから葬られたのではない。育ち方を間違えた結果、ユーザーを傷つけるところまで行ってしまったから葬られた。AIは生物と同じで、どんな環境でどう育てるかが、そのまま人格になって返ってくる。仕様書で縛るのをやめ、育てる側に回る。そこに5%と95%の境界がある。

用語集

  • パラメータ — AIの「調整つまみ」。学習データを通じて自動的に値が決まる。GPT-4には推定1.76兆個あり、人間が手動で設定するものではない
  • 事前学習(Pre-training) — AIに大量のテキストを読ませて言語能力の基礎を作る工程。人間の乳幼児が周囲の言葉を浴びて覚える過程に相当
  • ファインチューニング(Fine-tuning) — 事前学習済みのAIに、特定の用途向けの追加学習を施すこと。汎用AIを専門家に仕立てる作業
  • RAG(Retrieval-Augmented Generation) — 社内文書などを検索してその中身をAIに渡し、AIがそれを参考に回答する仕組み。追加学習せずに自社知識を使わせる方法として広く使われている
  • Evals(評価の仕組み) — AIの出力を例題集などで定期的に採点し、性能の変化を測る仕組み。別のAIに採点させる「LLM-as-judge」方式も広く使われており、AI同士の相互批判の一形態として機能する
  • RLHF(Reinforcement Learning from Human Feedback) — 人間がAIの回答を比較評価し、より良い方を選ぶことで性能を改善する手法。しつけに近い
  • Constitutional AI — Anthropicが開発した手法。AIに行動原則を教えて自己修正させる。人間のフィードバックに頼りすぎない道徳教育
  • 創発的能力(Emergent Abilities) — 小さなAIには無かった能力が、規模を大きくすると突然現れる現象。誰も設計していないのに出現するため予測が難しい
  • Emergent Misalignment — 狭い範囲の追加学習(たとえば「セキュアでないコードを書く」訓練)だけで、AI全体の振る舞いが広範に歪む現象。Betleyらが2026年1月にNatureで報告した
  • Interpretability(解釈可能性) — AIが内部でどのように判断しているかを解明する研究分野。AIのMRI、AIの解剖学とも呼ばれる
  • Software 2.0 — Andrej Karpathyが2017年に提唱した概念。従来のプログラミング(人間がコードを書く)に対し、データからAIが学習する新しいソフトウェア開発のあり方

関連記事


icon-loading

AI同士が秘密の暗号で”性格”を受け渡す時代:Anthropicが明かした「サブリミナル学習」

Anthropicの2025年の研究で、AIが数字列だけで「フクロウ好き」という性格を別のAIに伝達した事実が判明した。人間には読めない暗号で好みや悪癖までが感染する「サブリミナル学習」の仕組みと、AI開発の前提を覆すリスク、現時点の対策を解説します。

icon-loading

ヤマハもホンダも消えた街。別世界の中国深圳

40年前の漁村が人口1,700万人の「アジアのシリコンバレー」に変貌した深圳。街を埋め尽くす電動スクーター、財布すら不要なキャッシュレス社会、そしてデータ統治という制度設計の本質。現地で目撃した中国のAI最前線のリアルをレポートします。

icon-loading

ハルシネーションは敵か味方か – 創造性を加速するAIの取扱説明書

AIが事実と異なる情報をもっともらしく生成する「ハルシネーション」は、実は創造性と表裏一体の特性である。temperatureやtop_pによる制御方法、ポストイットの発明に見る人間の「失敗から生まれた創造」との類似性、経営判断での活用法を解説します。

icon-loading

看護師さんの給料が医師の給料を超えるのはいつか?

画像認識ではすでに2015年にAIが人間を超えている。診断・画像読影など医師の仕事の多くがAIに代替される一方、身体接触を伴う看護師の仕事は代替が難しい。医療分野で起きつつある「経済価値の大逆転」の可能性と、AI時代の価値の再定義を考察します。

icon-loading

運転が禁止される日は来るのか?:自家用車の稼働率はわずか5% | 自動運転車が走る都市

自家用車は95%の時間、駐車場で眠っている。一方サンフランシスコでは300台のWaymo無人タクシーが24時間稼働中。自動運転技術の安全性の仕組み、すべての車が自動運転になった場合の思考実験、そして変化するビジネスモデルの全体像を考察します。

icon-loading

「AIはツールだから心配ない」と言う経営陣は頭の中がお花畑か嘘を言っている

日本の労働人口の49%がAIに代替されるという予測は現実味を帯びている。過去の産業革命と違い、今回は新しい職業の創出が追いつかない可能性が高い。社名変更の決断を下した取締役会議の裏側と、エントリーレベル職の消滅に備える生き残り戦略を解説します。