Mythos が curl で見つけた『たった一つ』— AI セキュリティ解析のマーケティングと現実

Anthropic が「危険なほど優秀」と謳った Mythos が、最も厳しく監査された C コードベースで発見した脆弱性が一件だけだったという事実は、モデルの無能を示しているのか、それとも我々が AI コード解析の価値を測る軸そのものを取り違えていたという事実を示しているのか。

導入 — 「災厄の津波」を予告したモデル

2026 年 4 月、Anthropic は新モデル Mythos が「危険なほど」ソースコードのセキュリティ欠陥を発見できると発表した。あまりに優秀だから一般公開はせず、選別された企業とプロジェクトに先行配布して防御側にリードを与える、というのが発表の骨子だった。メディアは即座にこの表現を写し、複数のセキュリティ責任者が「脆弱性の津波」が来ると役員会に報告し、予算を引き出した。オランダの準政府機関の CISO は HN コメントで「Mythos のせいで少しパニックになった上司のおかげでセキュリティ予算が増えた。よくできたマーケティングの恐怖は決して無駄にしない(Never waste a good marketing scare)」と書いている。

5 月 6 日、このモデルがついに curl のソースコードに適用された。curl は 1996 年から磨き続けられてきた C プロジェクトで、約 178,000 行のソースを持つ。200 億インスタンスにインストールされ、110 種の OS、28 種の CPU アーキテクチャ上で動く。累計 188 件の CVE を公開しており欠陥ゼロのコードではないが、OSS-Fuzz、Coverity、CodeQL、有償監査、さらに直近 8〜10 か月は AISLE、Zeropath、OpenAI Codex Security といった AI セキュリティツールまですべて通過してきたコードである。AI ツールだけでも、その間に 200〜300 件のバグ修正がマージされた。つまり Mythos が投入された時点の curl は事実上「ハードモード」だった。こうしたコードで新モデルが何を見つけるか、それが 5 月の小さな試験台だった。

リード開発者の Daniel Stenberg が 5 月 11 日にブログで結果を公開した。タイトル通りである。「Mythos が curl で脆弱性を見つけた — そう、単数、一件だ(Mythos finds a curl vulnerability — yes, as in singular one)」。この一文が 4 月の Anthropic の巨大なマーケティング風船に針を刺した。しかし同日の Hacker News で 685 点を集めた議論スレッドは、Stenberg の結論をそのまま受け取らなかった。「危険ではない」ではなく「curl は例外なのだ」という反論が上位に上がった。この非対称性が本稿の出発点である。

本論 1 — 5 件が 1 件になるまでの過程

Stenberg が受け取った Mythos のレポートは、178K LOC の解析結果として「確認済みセキュリティ脆弱性(Confirmed security vulnerabilities)」5 件を列挙していた。彼は「AI が自分の口で『確認済み(confirmed)』と言うのは少し笑える(I think using the term confirmed is a little amusing when the AI says it confidently by itself)」と書いている。彼のセキュリティチームが数時間かけてこの 5 件を精査した結果、本物のセキュリティ脆弱性として残ったのは 1 件だった。残り 4 件の運命はこうだ。3 件は false positive で、API ドキュメントにすでに明記された制限を欠陥と誤認した事例だった。最後の 1 件は「ただのバグ(just a bug)」 — 動作の不整合ではあるがセキュリティ上の含意はないケースだった。

残った 1 件は 6 月末予定の curl 8.21.0 リリースと同期して公開される severity low の CVE である。Stenberg の表現を借りれば「誰の息も止めない(not going to make anyone grasp for breath)」欠陥だ。low ランクの CVE 一件。これが「津波」の正体だった。4 月のマーケティングメッセージと 5 月のレポートとの距離は、単なる期待値調整以上に大きかった。

ただしレポートに価値が皆無だったわけではない。脆弱性ではない一般バグとして分類されたものが約 20 件あり、Stenberg はこの部分を明示的に評価している。「false positive はほとんどなかった。閾値をかなり高く設定したのだろう(Barely any false positives, so I presume they have had a rather high threshold for certainty)」。curl チームはこの 20 件を一つずつ検討し、同意できるものから順にパッチをマージしている。つまり「セキュリティツール」としての Mythos は hype に届かなかったが、「コードレビュアー」としては使える、という評価である。

この結果を文脈なしに見ればモデルが冴えないように映る。しかし Stenberg がレポート本文から引用した Mythos 自身の冒頭の一文が決定的だ。「curl は現存する最もファジングされ監査された C コードベースの一つである(curl is one of the most fuzzed and audited C codebases in existence (OSS-Fuzz, Coverity, CodeQL, multiple paid audits))。hot path(HTTP/1, TLS, URL parsing core)で何かを見つける可能性は低い」。そしてモデルは実際、その領域では何も見つけなかった。モデルが自身が投入された環境の難易度を正しく認識し、その認識通りの結果を出した。このメタ認知自体は、これまでの解析ツールには珍しい性質である。

数値的な比較も必要だ。AISLE、Zeropath、Codex Security などの先行 AI ツールは、同じ 8〜10 か月間で 200〜300 件のバグ修正を引き出し、そのうち「十数件以上」が実際に CVE として公開された。Mythos は同じコードに入って 1 件の low CVE と約 20 件の一般バグを持ち帰った。単純な算数では先行ツールの一か月分にも届かない。しかし先行ツールが入った時点の curl と Mythos が入った時点の curl は別のコードである。後者は前者がすでに通り過ぎた後のコードだ。この点が Stenberg の結論と HN 多数派の意見が分かれる地点である。

Stenberg の結論は二行に集約される。「このモデルを取り巻く大きな hype は主にマーケティングだった(the big hype around this model so far was primarily marketing)」。そして「Mythos 以前の他のツールが達成した水準より、特別に高度に問題を見つけているという証拠は見つからなかった(I see no evidence that this setup finds issues to any particular higher or more advanced degree than the other tools have done before Mythos)」。一つのコードベースの結果でモデル全体を評価するのは公平ではない、という但し書きも本人がつけている。しかしヘッドラインは「marketing hype」のほうに固定された。

本論 2 — Stenberg vs HN — 「よく硬化されたコード」の罠

ここで興味深い非対称性が生じる。Stenberg の記事は 685 点を獲得し、281 件のコメントが寄せられた。だが上位に上がってきたコメントは Stenberg を 100% 支持していない。patrickmeenan は明確に反対側に立った。「Mythos のメッセージは、トップのセキュリティ専門家、トップの言語/プロトコル/コード専門家の専門性を誰でも使えるようにする、というものだ。危険性は、防御側がその水準の専門性にアクセスする前に、その能力を世界に解き放つ点にあった。curl は中核ツールであるがゆえに長年セキュリティ・プロトコル・言語の専門家がつついてきたコードだ。Mythos が何かを見つけたこと自体は興味深いが、それが hype だった、危険ではなかった、という証拠ではない(That Mythos found anything is interesting but not a sign that it’s been marketing hype and isn’t dangerous)。99.99% のプロジェクトは curl ほど安全ではない、と賭けてもいい。オープンであれクローズドであれ関係ない — LLM はクローズドソースもデコンパイルして探索する。ファジングと既存 AI ツールと専門家のレビューを通っていないプロジェクトなら、すでにハック可能だと思っておけ」。

srcreigh は別の角度から同じ結論に至っている。「curl は本質的に比較的単純で、よく分離されたツールだ。OS やウェブブラウザ、データベース、十億ドル企業のコードベースと比較してみてほしい。Mythos/ChatGPT 5.5 が curl にはない複雑性で遥かに優秀である、というのは筋が通る。curl は確かに『何でもクライアント』としては機能てんこ盛りだが、我々が依存する他のソフトウェアより桁違いに複雑性が低い(it’s orders of magnitude less complex than other software we rely on)」。

EMM_386 のコメントはより直截だ。「AI エージェントが一つのソフトウェアユーティリティで 0 件のバグを見つけたとして、それがどうして『AI はバグ発見が下手』という意味になるのか。本当にバグが 0 件だったらどうする。『5 件は我々が予想していた広範なリストに比べれば何でもないように感じた』という表現は — 期待が現実と合っていなかっただけで、Mythos が主張通りの能力ではないという意味とは限らない」。yjftsjthsd-h は Stenberg が本文で使った「特に危険ではない(not particularly dangerous)」という表現を直接引用して切り返した。「それが帰結するかどうかは怪しい。本人が指摘した通り、curl は使える全ツールで死ぬほど解析されたコードだ。大半のソフトウェアはその水準にない(curl was already analyzed to death with every tool available; most software isn’t at that level)」。

これらの反論は一行に圧縮される。「よく硬化されたコード(well-hardened code)に対する結果は、そのツールの一般性能に関する結論にならない」。Stenberg 自身も本文に但し書きを入れていた — 「これは一つのソースコードリポジトリに過ぎず、他では遥かに優秀かもしれない(This is just one source code repository and maybe it is much better on other things)」。しかし彼のヘッドラインは「マーケティング hype」であり、本文の但し書きはヘッドラインの下に埋もれた。HN 多数派は、その埋もれた但し書きを上に引き上げたわけだ。

ただし Stenberg の結論にも経験的な重みがある。彼は単なる外部観察者ではなく、5 件を受け取って 1 件に絞り込む作業を自ら行った人物だ。4 件の false positive がどんな種類の false positive だったかを見た人物であり、その様相が先行 AI ツールの false positive と質的に異なるとは判断しなかった人物である。彼が「特別に高度に見つけているという証拠を見ていない」と言うとき、それはツール 5 種類を一年近く回した人物による比較陳述だ。patrickmeenan と srcreigh の反論が正しいとしても、「では Mythos を他のどのコードベースで検証するのか」という問いには答えがない。Anthropic のマーケティングは「危険なほど優秀」であり、その危険性は一般的だという含意だった。curl の結果がその一般的含意を一部反証するなら、その反証はそれ自体で意味がある。

rzmmm の最初のコメントが、この両義性を最もきれいに整理している。「この空間の競争は厳しく、大小のマーケティングが介在しているということを、改めて思い出させてくれる。良いリマインダーだ(It’s a good reminder for us all that the competition in this space is rough and lots of more or less subtle marketing is involved)」。Mythos が無能だという結論も、よく硬化されたコードが免疫を持っているという結論も、どちらも部分的にしか正しくない。両方の正しい部分だけを見るなら、我々は新しい評価軸を作る必要がある。

本論 3 — AI コード解析の新しい評価軸

これまで AI コード解析ツールはほぼ全て、「ベンチマークコードベースで何件の CVE を見つけるか」で評価されてきた。curl はその事実上の標準ベンチマークの一つだった。しかし 5 月の結果は、そのベンチマークがもはや弁別力を持たないことを露呈させた。curl ではどのツールでも一桁台の似たような結果に収束する可能性が高い。新たに発見できる欠陥がほぼ残っていないからだ。この状態でツール間の差を見るには、評価軸そのものを変える必要がある。

第一の新軸は「報告された欠陥の signal-to-noise ratio」である。Mythos が得た評価で最も目立った部分は、5 件中 1 件が本物だったという結果(精度 20%)ではなく、セキュリティ欠陥ではない一般バグ約 20 件で false positive が「ほとんどなかった」という点だ。Stenberg 本人が直接称賛した部分であり、Mythos が閾値をかなり高く設定したという推定の根拠でもある。セキュリティ領域ではこの閾値が緩すぎ、一般バグ領域では適切だった、という解釈が可能だ。セキュリティ領域の false positive 4 件が全て「API ドキュメントに明記された制限」だったという点を見ると、モデルはコードを解析できたがドキュメントを読めなかった、という構造的限界が浮かぶ。これは次世代ツールが何を補強すべきかを示している — コード + 仕様/ドキュメントの結合解析。

第二の新軸は「コードベース難易度に対する自己認識」だ。Mythos のレポートが「curl は最もファジング/監査された C コードベースの一つである。hot path で見つける可能性は低い」と自ら書いた点は、これまでの静的解析器では見られない振る舞いである。モデルが結果を出す前に「この環境で何を期待すべきか」を推定し、その推定に沿った結果を出す。この認識が正直なら — Stenberg のレポートを読む限り正直だと思える — ツールがユーザーに報告するのは単なる欠陥リストではなく「このコードベースのセキュリティ成熟度に対する評価」になる。CISO にとってはこの評価のほうが欠陥リストより価値があるかもしれない。

第三の軸は patrickmeenan と srcreigh が指摘した部分だ。「複雑性と未監査領域の関数」。99.99% のプロジェクトは curl ほど検証されておらず、OS、ブラウザ、データベース、社内モノリスは curl より桁違いに複雑である。AI コード解析の本当の試験台は curl ではなくそちら側だ。Mythos を運用する Anthropic が次の発表で、非公開のエンタープライズコードベースで発見した欠陥統計を — 匿名化してでも — 公開すれば、5 月の marketing hype 批判は部分的に取り戻せるかもしれない。しかし現時点ではそのデータがない。「危険なほど優秀」という主張の検証可能な根拠は curl の結果だけであり、その結果は弱い。

第四の軸は最も実務的だ。「PR レビュー補助ツールとしての価値」。Stenberg が本文で明示した通り、curl チームは GitHub Copilot と Augment を PR レビューボットとして使っており、これらは人間レビューを置き換えるのではなく補強する(They help us, they don’t replace us)。Mythos の一般バグ 20 件は事実上この領域の作業である。これはセキュリティのマーケティングメッセージより刺激的ではないが、より持続可能な価値だ。AI ツールがレビュアーとして人間を補強する効果は累積し、測定可能で、false positive コストが低い。セキュリティ hype は一回の発表のインパクトが大きいが、「5 件中 1 件」のような結果で一気に崩れる。市場がどちらに価値を置くかが、この事件の次の章となる。

結論 — 何を測るべきか

リードの問いに戻る。Mythos が curl で low CVE を一件しか見つけなかったという事実は、モデルの無能を示すのか、それとも我々の評価軸が間違っていたという事実を示すのか。答えは両方とも部分的に正しい。モデルは「危険なほど優秀」というマーケティングメッセージが含意する一般能力を、curl の結果では証明できなかった。その点で Stenberg の「marketing hype」は正確だ。同時に curl は 8 年間あらゆる種類のツールで死ぬほど検証されたコードであり、そんなコードで一桁台の結果が出るというのはモデル自体よりコードの状態についてより多くを語る。その点で patrickmeenan の反論も正確である。

問題は、二つの陳述が同時に正しいとき、マーケティングが片方だけを持っていくことだ。Anthropic は「危険なほど」という表現で一般性を主張し、Stenberg は一つのコードベースの結果で一般性を反証した。HN の反論は「その一つのコードベースは一般性のサンプルにならない」と再反論した。この三角構造で欠けているのはデータである。一般的なエンタープライズコードベースで Mythos が何を見つけるかについての匿名化された統計、false positive 比率、signal-to-noise ratio。このデータがない限り、どちらの側も結論を出せない。

しかし一つだけ、この事件が明確に示したことがある。AI コード解析を「CVE カウント」だけで評価する時代は終わった。よく硬化されたコードからは CVE はほぼ出ない。新モデルの価値は欠陥カウントではなく — 欠陥シグナルの精度、コードベース成熟度に対するメタ評価、PR レビュー補助の累積効用、未監査領域での発見率 — こうした多軸評価で決まる。Mythos が curl で一件だけ見つけたという事実はスライド一枚に収まるヘッドラインだが、false positive がほとんどなかったという事実は次四半期のツール選定会議の核心スライドになる。市場がヘッドラインの代わりにその次のスライドを見ることを学んだとき、AI セキュリティ解析業界は hype サイクルの次の段階に進める。5 月 11 日の Stenberg の記事は、その学習の最初の教材になった。