Project Glasswing 과 Mythos — 취약점을 사냥하는 LLM 의 시대가 열릴 때

Anthropic 이 통제된 파트너에게만 공개한 Mythos Preview 는 무엇을 할 수 있고, 그 능력이 일반에 열렸을 때 보안 산업은 어떻게 바뀌는가. 그리고 그 변화의 무게중심은 모델에 있는가, 아니면 그 모델을 둘러싼 7 단계 하니스에 있는가.

도입 — “취약점 사냥용 LLM” 이라는 새 카테고리

5월 둘째 주에 Cloudflare 의 보안 블로그가 “Project Glasswing: what Mythos showed us” 라는 글을 올렸다. HN 점수 266점, 100 코멘트. 글 자체는 단순한 회고담의 모양을 하고 있지만, 행간에 깔린 뉴스의 무게는 가볍지 않다. Anthropic 이 Project Glasswing 이라는 통제된 접근 프로그램으로 일부 파트너에게만 Mythos Preview 라는 모델을 공개했고, Cloudflare 가 그 파트너 중 하나로 참여해 자체 인프라에 시범 적용한 결과를 정리한 글이다.

Mythos Preview 는 “취약점 발견에 특화된 LLM” 이다. 이 표현은 새 카테고리를 가리킨다. 지금까지 LLM 은 코드를 작성하거나 리뷰하거나 요약하는 도구로 자리잡았다. 보안 영역에서도 코드 리뷰 보조나 정적 분석 결과의 자연어 해석 정도까지는 익숙한 풍경이었다. Mythos 는 그 자리에서 한 단계 더 들어간다. 메모리 안전성이 약한 C/C++ 코드 베이스를 받아, 취약점 후보를 발견하고, 그 후보를 체인으로 엮어 실제로 동작하는 exploit 을 만들고, sandbox 환경에서 직접 PoC 코드를 컴파일·실행해 검증한다. Cloudflare 의 보고서는 이를 “추론 자체가 시니어 보안 연구자의 작업처럼 보인다(reasoning that looks like senior researcher work)” 고 적었다.

여기에 분석할 거리가 두 갈래로 있다. 한 갈래는 모델 자체가 가지는 능력의 정체다. Mythos 가 정말로 시니어 연구자급 작업을 할 수 있다면, 보안 산업의 비대칭 — 공격자는 한 군데만 뚫으면 되고, 방어자는 모든 곳을 막아야 한다 — 가 더 극단으로 기운다. 다른 한 갈래는 Cloudflare 가 같은 글에서 적은 한 줄, “모델의 자발적인 거부 행동만으로는 일관된 안전 경계가 안 된다(the model’s organic refusals aren’t consistent enough to serve as a complete safety boundary)” 가 가리키는 거버넌스 문제다. 누가 이 모델에 접근할 수 있는가. 어떤 조건으로 접근하는가. 그리고 그 통제가 깨졌을 때 무엇이 일어나는가.

이 글은 그 두 갈래를 따라간다. 먼저 Mythos 가 실제로 무엇을 했고 무엇이 한계였는가. 다음에 Cloudflare 의 7단계 하니스가 왜 “일반 코딩 에이전트로는 의미 있는 취약점 발견이 불가능하다” 는 결론을 만들었는가. 마지막에 이 카테고리가 일반에 열렸을 때 보안 산업의 비대칭이 어떻게 바뀌는가.

본문 1 — Mythos 가 실제로 한 일과 한 가지 못한 일

Cloudflare 의 글이 가장 길게 다루는 부분은 모델이 무엇을 잘했는지가 아니라, 무엇이 잘되고 무엇이 안 됐는지의 균형이다. 두 가지를 모두 적어 둔다.

잘된 부분. Mythos 는 이전 세대 모델보다 추측성(hedged) 발견을 훨씬 적게 내놓았다. 보안 연구자에게 가장 큰 비용은 검증되지 않은 후보를 일일이 손으로 확인하는 시간이다. 이전 모델들은 “이 함수에 buffer overflow 가 있을 수 있다” 정도의 추측 후보를 잔뜩 토해 냈고, 그 가운데 진짜로 익스플로이트 가능한 것이 5% 이하였다. Mythos 는 진짜 후보의 비율을 끌어올렸을 뿐 아니라, 후보를 찾았을 때 그 후보를 PoC 까지 끌고 가는 능력이 있었다. Cloudflare 의 표현으로는 “speculation 을 validated finding 으로 바꾼다(converting speculation into validated findings)” 다. 이 차이는 보안 운영의 단위 시간을 결정한다. 시니어 연구자 1 명이 1 주일에 검토할 수 있는 후보 수가 두 자릿수에서 세 자릿수로 늘어난다는 의미다.

또 한 가지 잘된 부분은 exploit chain 의 구성이다. 단일 취약점은 종종 그 자체로는 큰 피해를 주지 못한다. 보안 연구자가 진짜로 위험한 취약점을 보고할 때는 여러 작은 결함을 엮어 권한 상승이나 임의 코드 실행 같은 큰 결과로 끌고 가는 과정이 필요하다. Mythos 는 이 chain 을 자기 손으로 짜고, sandbox 환경에서 PoC 코드를 컴파일하고, 실행이 실패하면 원인을 진단해 다시 시도하는 반복 루프를 자기 안에 가지고 있다. 즉 자동 scanner 의 출력이 아니라 시니어 연구자의 작업 흐름을 모사한다. 보안 산업 입장에서 가장 무거운 신호다.

한계 부분. Mythos 는 여전히 노이즈를 만든다. 특히 메모리 안전성이 약한 C/C++ 영역에서는, 모델이 이미 알고 있는 패턴에 휘둘려 실제로는 익스플로이트 불가능한 곳에 가짜 후보를 만든다. Cloudflare 는 이를 “모델 편향이 trash 후보를 만들어 triage 자원을 갉아먹는다(model bias generates speculative findings that waste triage resources)” 고 적었다. 이 노이즈 비율이 얼마나 되는지 보고서는 정확한 수치를 적지 않았지만, “여전히 상당하다(remains substantial)” 고 표현했다.

또 한 가지 한계는 모델 자신의 거부 행동이 일관되지 않다는 점이다. Anthropic 은 Mythos 가 악의적 사용 요청에 대해 자발적으로 거부하도록 학습시켰지만, Cloudflare 는 그 거부 행동이 같은 요청을 다른 프롬프트 구조로 던졌을 때 종종 무너진다고 보고했다. 그래서 Cloudflare 는 자기 평가 보고서에 분명히 적는다. “모델의 자발적 거부 행동만으로는 완전한 안전 경계가 되지 못한다. 일반 공개 수준의 강력한 사이버 모델은 이 베이스라인 위에 별도의 안전 장치를 반드시 더해야 한다(any generally-available capable cyber model must include additional safeguards on top of this baseline behavior).” 이 한 줄은 거버넌스 측면에서 핵심이다. 모델 자체에 안전을 묶을 수 없다면, 안전은 그 모델을 둘러싼 인프라와 접근 통제에 묶여야 한다. Project Glasswing 이라는 이름 자체가 그 발상을 표현한다. 유리날개나비처럼 안이 보이는 통제된 접근 구조다.

본문 2 — 왜 7 단계 하니스가 필요했는가

Cloudflare 의 글에서 두 번째로 중요한 부분은 모델을 어떻게 썼는지의 구조다. Cloudflare 는 자기 코드 베이스를 그냥 모델에 던지지 않았다. 7 단계로 분리된 파이프라인을 만들었다.

Recon → Hunt → Validate → Gapfill → Dedupe → Trace → Report

각 단계를 짧게 보자. Recon 은 코드 베이스를 통째로 훑어 후보 영역의 윤곽을 잡는다. Hunt 는 그 영역 안에서 구체적인 취약점 후보를 찾는다. Validate 는 후보가 실제로 익스플로이트 가능한지 PoC 로 검증한다. Gapfill 은 검증 과정에서 빠진 정보가 있으면 그 자리에 다시 들어가 정보를 채운다. Dedupe 는 같은 취약점에 대한 중복 후보를 합친다. Trace 는 후보의 원인 경로를 trace 한다. Report 는 그 결과를 사람이 읽을 수 있는 형식으로 정리한다.

이 구조는 단순한 검수 흐름이 아니다. 각 단계에 서로 다른 에이전트를 배치하고, 단계 사이에 adversarial review 를 끼워 넣었다. 즉 어떤 단계가 도출한 후보를 다음 단계가 단순히 받아들이는 게 아니라, 회의적으로 다시 따져보고 반례를 만들어 본다. 이 adversarial review 는 모델 자체가 가지는 편향 — 자기가 만든 후보를 자기가 검증하면 통과시키는 — 을 사람의 동료 검수와 비슷한 방식으로 보완한다. Cloudflare 는 이 구조를 “각자 좁은 작업을 병렬로 수행하고, 에이전트 사이의 적대적 리뷰가 들어가고, 한 에이전트가 모든 것을 다 하는 방식이 아니라 질문을 잘게 쪼개는 방식(parallel narrow tasks, adversarial review between agents, and specialized question-splitting)” 이라고 표현한다.

여기서 보고서가 던지는 결론은 둔중하다. “일반 코딩 에이전트로는 의미 있는 취약점 적용 범위를 얻을 수 없다(generic coding agents cannot achieve meaningful vulnerability coverage).” 이 한 줄이 가지는 무게가 크다. 5월 Anthropic-Stainless 거래에서 본 것처럼, agentic 코딩 도구는 이제 산업 표준이 되어 가고 있다. 그러나 그 표준의 코딩 에이전트가 단독으로는 보안 영역에서 의미 있는 결과를 못 낸다는 것이다. 진짜 결과는 (1) Mythos 같은 특화 모델과 (2) Cloudflare 같은 회사가 만든 7 단계 하니스가 만난 자리에서 나온다. 즉 한 회사의 모델 하나, 한 코딩 에이전트 하나로는 부족하다. 두 층이 다 필요하다.

이 결론은 보안 산업의 비대칭 구조에 미묘한 의미를 보탠다. 큰 회사들은 자체 보안 팀을 가지고 있고, Mythos 같은 특화 모델을 받아들일 인프라를 깔 수 있고, 7 단계 하니스를 만들 엔지니어를 가지고 있다. Cloudflare 의 평가 자체가 그 큰 회사의 사례다. 그러나 작은 회사, 특히 보안 인력을 따로 두지 못하는 회사들은 Mythos 가 일반에 풀린다 해도 그것을 자기 보호용으로 쓰기가 어렵다. 같은 모델이 공격자 손에는 더 쉽게 들어간다. 공격자는 한 군데만 뚫으면 되니까, 정교한 7 단계 하니스 없이 모델만 가지고도 어느 정도 효과를 본다. 비대칭이 더 극단으로 기우는 자리에 우리가 있다.

본문 3 — 거버넌스: Project Glasswing 이라는 이름이 가리키는 것

Anthropic 이 이 모델을 “Project Glasswing” 이라는 통제된 접근 프로그램으로 풀었다는 사실 자체가 중요한 신호다. Glasswing 은 날개가 투명한 나비를 가리킨다. 이름이 함축하는 것은 명확하다. 안이 보이는 통제. Anthropic 은 Mythos Preview 의 능력이 일반 공개 수준에는 아직 적합하지 않다고 판단했고, 그래서 Cloudflare 같은 신뢰할 수 있는 파트너에게만 통제된 환경에서 접근을 열었다. 이 결정은 OpenAI 가 GPT-4 출시 때 도입한 “red team” 단계와 비슷하지만, 한 단계 더 정교하다. 단순한 출시 전 평가가 아니라, 지속적인 controlled rollout 으로 운영된다.

이 구조 자체가 새 거버넌스 패턴이다. 지난 2 년 동안 frontier 모델의 안전 거버넌스에는 두 가지 패턴이 있었다. 하나는 OpenAI 의 system card 처럼 모델 자체에 대한 평가를 미리 공개하고, 그 다음에 일반 공개하는 패턴이다. 다른 하나는 Anthropic 의 RSP(Responsible Scaling Policy) 처럼 위험 수준에 따라 단계적으로 제약을 가하는 패턴이다. Project Glasswing 은 그 두 패턴 위에 한 층 더 얹는다. 특정 능력의 모델을 일반 공개가 아니라 통제된 파트너 그룹에만 풀고, 그 그룹의 사용 사례에서 안전 평가 데이터를 쌓는다. 충분히 안전 통제가 굳어졌다고 판단되면 일반 공개 단계로 옮긴다.

이 패턴은 두 가지 의미를 가진다. 좋은 의미는 frontier 모델의 안전 평가가 학술적 벤치마크가 아니라 실제 운용 환경에서 쌓이는 데이터로 옮겨 간다는 것이다. Cloudflare 의 평가 보고서가 그 자체로 안전 데이터다. 7 단계 하니스를 통해 Mythos 가 어떤 종류의 취약점에서 노이즈가 많고, 어떤 영역에서 모델의 자발적 거부 행동이 무너지는지가 실제 회사의 운영 환경에서 측정된다. 이 데이터가 다음 단계 안전 통제의 출발점이 된다.

나쁜 의미는 frontier 모델의 가장 강력한 능력이 큰 회사와 작은 회사 사이에 시간 차로 풀린다는 것이다. Cloudflare 는 5월 시점에 Mythos 를 쓸 수 있지만, 작은 보안 회사들은 아직 못 쓴다. 그 시간 차 동안 큰 회사의 보안 태세는 빠르게 강화된다. 작은 회사는 같은 모델을 받지 못한 채, 일반 공개된 (덜 강력한) 모델로 비슷한 결과를 흉내내려고 한다. 이 시간 차가 길어질수록, 보안 산업의 두 층 — 큰 회사의 강력한 보안 태세 vs 작은 회사의 약한 보안 태세 — 사이의 거리가 벌어진다.

여기에 더 깊은 질문이 따라온다. Project Glasswing 같은 통제된 접근 프로그램에 참여하는 회사들은 누구로 선택되는가. Cloudflare 는 자기를 “신뢰할 수 있는 인프라 회사” 로 자처하지만, 그 신뢰는 어디서 보증되는가. Anthropic 의 내부 결정에 의해서다. 즉 frontier 모델의 가장 강력한 능력에 누가 먼저 접근하는지는, 한 회사의 내부 결정에 달려 있다. 이 구조 자체는 임시방편으로는 작동하지만, 산업 표준으로 굳어지면 새 게이트키퍼 문제를 만든다. 5월 Anthropic-Stainless 거래에서 본 게이트키퍼 문제가 SDK 표준에 대한 것이었다면, Project Glasswing 의 게이트키퍼 문제는 그것보다 더 무겁다. 사이버 보안 능력 자체에 대한 게이트키퍼 문제다.

마지막으로 Cloudflare 의 글이 제시하는 실무적 결론도 짚어 둘 필요가 있다. 글의 마지막 부분에서 Cloudflare 는 단순한 권고를 내놓는다. 보안 팀은 “CVE 공개부터 패치 적용까지 2 시간 안에” 같은 공격적인 timeline 을 쫓기보다, defense-in-depth, compartmentalization, simultaneous global patching 같은 아키텍처 방어 쪽에 무게를 두라는 것이다. 이 권고가 가지는 무게는 미묘하다. Mythos 같은 모델이 일반에 풀리는 시점에, 공격자가 새 취약점을 발견하고 익스플로이트로 만드는 속도가 패치 cycle 의 속도를 추월할 가능성이 있다. 그러면 사후적인 timeline 단축 경쟁으로는 안 된다. 처음부터 한 취약점이 큰 피해로 이어지지 않도록 시스템을 분할해 두는 아키텍처 결정이 더 중요해진다.

결론 — 모델 자체가 아니라 모델 + 하니스 + 거버넌스의 묶음

처음의 질문으로 돌아가자. Mythos 가 무엇을 할 수 있고, 그 능력이 일반에 열렸을 때 보안 산업은 어떻게 바뀌는가. 그리고 그 변화의 무게중심은 모델에 있는가, 하니스에 있는가, 거버넌스에 있는가.

답은 셋 다이지만, 무게중심은 모델 단독이 아니다. Cloudflare 의 평가가 가장 분명하게 보여 주는 것은, 같은 Mythos 모델이라도 7 단계 하니스 없이 던지면 일반 코딩 에이전트와 큰 차이가 안 난다는 사실이다. 즉 모델 능력의 진짜 활용은 그것을 둘러싼 운용 인프라가 결정한다. 5월에 본 Anthropic-Stainless 거래와 Modal 의 cold start 단축이 가리키는 것과 같은 결론이 보안 영역에서도 다시 나온다. 모델은 평탄해지고, 차별화는 운용 인프라에서 결정된다.

또 하나의 결론은 거버넌스가 모델 능력과 같은 무게로 다뤄져야 한다는 것이다. Project Glasswing 의 통제된 접근 구조는 임시적으로 작동하지만, 산업 표준으로 굳어지면 게이트키퍼 문제를 만든다. 그 문제를 푸는 방식이 무엇이 될지는 아직 열려 있다. 자율 안전 거버넌스 위원회 같은 다자 구조가 만들어질 수도 있고, 정부 규제가 들어올 수도 있다. 어느 쪽이든, 5월 시점에 우리가 보는 것은 그 게이트키퍼 문제의 윤곽이다.

이 글이 남기는 메시지는 한 줄이다. 공격 보안에 특화된 frontier 모델의 시대가 열린다는 사실 자체보다, 그 모델을 누가 어떤 조건으로 받아들이고 어떤 하니스로 둘러싸는지가 다음 분기의 진짜 변수다. Mythos 자체보다 Project Glasswing 의 통제 구조와 Cloudflare 의 7 단계 하니스가 더 중요한 신호다. 작은 회사들은 이 두 가지 — controlled access 와 multi-stage harness — 가 자기 손에 어떻게 들어올 수 있는지 5월부터 진지하게 따져 보는 게 좋다. 평탄한 모델 시장 위에서, 안전과 운용의 두 층이 다음 라운드의 진짜 무대가 된다.

출처: