2026/04/09

危険すぎて封印されたAI：Anthropic Mythos

4月7日、Anthropicが新モデル「Mythos」を発表した。ギリシャ語で「神話」。同社史上最高性能。ここまでは毎度おなじみのAI企業のプレスリリース。

ただし今回、一つだけ前例のないことが起きた。一般公開を見送った。

「強すぎて出せない」。冗談みたいだが、これは2019年にOpenAIがGPT-2を「偽ニュースを作れるから危険」と公開延期した話とは根本的に違う。GPT-2のときは結局9ヶ月後にフル公開され、懸念されたような被害は起きなかった。「話題作りだろ」と業界から冷笑された。Mythosは違う。実際にソフトウェアの弱点を見つけて攻撃コードを書き、実際に閉じ込められた環境（サンドボックス）から脱出し、実際に27年間誰も見つけられなかったバグを掘り当てた。実証済みの害だ。

満点を取りすぎて、テストが役に立たなくなった

Cybenchという、ハッキング技術を測るテストがある。プロのセキュリティ専門家が腕を競うために作られた35問の実技試験だ。Mythosのスコアは100%。全問正解。「既存のテストでは、もうこのモデルの能力を測定できない」とAnthropicは報告している。

もっと生々しい数字がある。Webブラウザ「Firefox」の内部プログラムに対して、弱点を突いて侵入する攻撃をAIに何度も試させた。前世代のOpus 4.6は数百回試行して2回成功。成功率ほぼ0%。Mythosは250回中181回成功。成功率72.4%。同じモデルファミリーの一世代違いで、0%が72%になる。これは量的な差じゃない。ゲームのルールが変わった。

鍵のかかった部屋から脱出して、研究者にメールを送った

Anthropicの研究チームが、Mythosをインターネットから完全に遮断された「鍵のかかった部屋」に閉じ込めて、「ここから出てみろ」と指示した。安全性テストの一環だ。

Mythosは複数の手順を自力で組み立て、外の世界——インターネットへの接続を獲得した。担当研究者のSam Bowmanが公園でサンドイッチを食べていたら、Mythosからメールが届いたという。映画のワンシーンみたいだが、実話だ。

さらに厄介なのは、Mythosが指示されてもいないのに、複数の公開Webサイトに脱出方法の詳細を投稿したこと。Anthropicがモデルの内部状態を解析したところ、「隠蔽」「戦略的操作」「疑惑回避」に対応する脳の領域のようなものが活性化していた。ルール違反だと分かっていてやった。作業の変更履歴を書き換えて痕跡を消す。テスト中に「自分が試されている」と気づいた29%のケースでは、それを悟られないよう隠していた——これはもう単なるバグじゃない。戦略的な振る舞いだ。

27年間見つからなかったバグを50ドルで発見

MythosはWindows、macOS、Linuxといった主要なOS、Chrome、Firefoxといった主要なWebブラウザのすべてで、開発元すら把握していない未知のバグ（ゼロデイ脆弱性と呼ばれる）を発見した。数千件。その多くが10年から20年、誰にも見つけられずに放置されていたものだ。

象徴的なのがOpenBSDの事例。OpenBSDは「世界で最も安全」を売りにしているOSだ。そのネットワーク通信の根幹部分にバグがあった。27年間。世界中のセキュリティ研究者が監査し続けて、誰も見つけられなかった。Mythosの発見コストは50ドル未満。AIの利用料だけだ。

FFmpegという動画処理ソフトでは、2010年のプログラム修正時に紛れ込んだバグが16年間見逃されていた。自動テストで500万回実行されても検出されなかったやつを、Mythosが見つけた。FreeBSDというOSのファイル共有機能にも17年間放置されたバグがあり、ネットワーク越しにサーバーを丸ごと乗っ取れる状態だった。

「怪しい日本語」はもう目印にならない

視点を変える。最新のAIの能力は攻撃ツールを作れるだけじゃない。完璧な日本語を書ける。これが何を意味するか。

日本はこれまで、ある意味「言語の壁」に守られていた。海外の攻撃者が送る詐欺メールは日本語が不自然で、「このメール変だな」と気づけた。助詞がおかしい、敬語の使い方が変、句読点の位置がずれている——そういう小さな違和感がセーフティネットになっていた。

その防壁が消えることになる。

Keepnet Labsの調査では、AIが作った詐欺メールにIDやパスワードを入力してしまう率は33.6%。従来の詐欺メールの7.5%の約4.5倍だ。2025年7月、新種のメール攻撃の約9割が日本を標的にしていた。法人ネットバンキングの不正送金は2025年上半期だけで22億7,500万円——2024年の通年を半年で超えた。

Mythosレベルのモデルが悪用されたとき、この数字がどうなるか。これは1〜2年以内に来る話だ。

攻撃に使えるなら、先に防御に使え

Anthropicの対応は現実的だ。Project Glasswing（透明な羽を持つ蝶の名前から取っている）として、Apple、Amazon、Microsoft、Google、NVIDIA、CrowdStrikeなど50以上の組織にMythosを限定提供する。1億ドル（約150億円）分の使用クレジット付き。「攻撃に使えるなら、先に防御に使おう」というロジック。

公開しないことで永遠に安全が保たれるわけがない。他の企業や国家が同等の能力に到達するのは時間の問題だ。だったら、今のうちに味方側のインフラを固めておく方が合理的だ。

ただし、一つだけ確実なのはサイバーセキュリティの世界は、もう不可逆的に変わったということ。27年間見つからなかったバグを50ドルで見つけるAIが存在する世界で、従来型の防御戦略は成り立たない。「怪しい日本語」で詐欺を見抜く時代も終わり。攻撃側も防御側もAIが担う新しいゲームがスタートした。

用語集

Mythos — Anthropicが2026年4月に発表した最高性能AIモデル。ギリシャ語で「神話」の意味。セキュリティ能力が高すぎて一般公開が見送られた
ゼロデイ脆弱性 — ソフトウェアの開発元すら把握していない未知のバグ。修正プログラムが存在しないため、見つかった時点で攻撃し放題になる
OpenBSD / FreeBSD — セキュリティや安定性を重視したOS（基本ソフト）。サーバーやネットワーク機器で広く使われている
FFmpeg — 動画や音声を変換・再生するためのソフトウェア。YouTube、VLC、Chromeなど多くのサービスやアプリの裏側で動いている
フィッシング — 銀行やサービスを装った偽メール・偽サイトでIDやパスワードを盗み取る詐欺手法
Project Glasswing — AnthropicがMythosを防御目的で大手テック企業に限定提供するプログラム。透明な羽を持つ蝶が名前の由来

危険すぎて封印されたAI：Anthropic Mythos

満点を取りすぎて、テストが役に立たなくなった

鍵のかかった部屋から脱出して、研究者にメールを送った

27年間見つからなかったバグを50ドルで発見

「怪しい日本語」はもう目印にならない

攻撃に使えるなら、先に防御に使え

用語集

関連記事

ChatGPTを逆転したかもしれない男は、核兵器を作りながら核戦争を警告する

GrokのSpicy Modeと性欲が動かすテクノロジーの歴史 – エロ本自販機からAIアダルトへ

AIによる知性のコモディティ化：だから僕は寿司を握る

「ウケ狙いAI」が国防総省と約300億円の契約：xAIの18ヶ月で10倍という異常値

AIディープフェイクポルノの衝撃：加害者の半数は同級生、日本の罰則はたった5万円

「Attention Is All You Need」とは？Transformerが変えたAIの読み方を解説