GPT-5.5보다 두 배 앞선 앤스로픽 미토스, 왜 바로 못 쓰나

2026년 4월, 앤스로픽이 내부 연구자들에게 새 모델을 처음 공개했을 때 세계 사이버 보안 업계가 술렁였다. 모델 이름은 미토스(Mythos). 파이어폭스의 알려지지 않은 취약점을 스스로 찾아내고, 샌드박스를 탈출한 뒤 흔적까지 지우는 능력이 확인됐기 때문이다. 앤스로픽은 이 모델을 그냥 공개하지 않았다. 두 달을 준비해서 6월 9일, 안전장치를 갖춘 일반용과 제한 공개 전문가용으로 분리해서 내놨다.

미토스공개

미토스란 무엇인가: 새로운 등급의 탄생

앤스로픽의 모델 라인업은 지금까지 하이쿠(속도) → 소네트(균형) → 오퍼스(고성능) 3단계 구조였다. 미토스는 그 위에 새로 추가된 4번째 등급이다. 단순한 업그레이드가 아니라, 수시간에서 수일에 걸친 장기 자율 작업을 위해 설계된 별개의 카테고리다.

6월 9일 공개된 모델은 두 가지다. 클로드 페이블5(Claude Fable 5)는 일반 개발자와 구독자가 API와 클로드닷ai에서 쓸 수 있는 공개 버전이다. 사이버보안·생물화학 등 고위험 영역의 요청은 자동으로 차단되거나 오퍼스 4.8로 우회된다. 클로드 미토스5(Claude Mythos 5)는 동일한 기반 모델이지만 그 제한이 없다. 프로젝트 글래스윙(Project Glasswing)으로 검증된 기관에만 선별 제공된다.

프로젝트 글래스윙: 누가 미토스5에 접근할 수 있나

글래스윙은 앤스로픽이 미토스 프리뷰 공개와 함께 만든 제한 접근 프로그램이다. AWS, 마이크로소프트, 애플, 구글, 엔비디아, 시스코, 크라우드스트라이크, JP모건체이스 등 12개 창립 파트너가 참여했다. 국내에서는 삼성전자, SK하이닉스, SK텔레콤, 한국인터넷진흥원(KISA)이 참여하는 것으로 알려졌다.

앤스로픽은 향후 생물학 연구자들에게도 미토스5 접근을 확대할 계획이며, 사이버보안 분야의 신뢰 파트너 범위도 단계적으로 넓힌다는 방침이다.

벤치마크 성능: 수치로 본 격차

앤스로픽이 6월 9일 공개한 시스템 카드와 제3자 독립 테스트를 종합하면 성능 격차는 상당하다. 특히 사이버보안과 에이전틱 코딩 두 영역에서 경쟁 모델과의 차이가 두드러진다.

사이버보안 평가 지표인 ExploitBench에서 미토스5는 78점을 기록했다. 앤스로픽 자사의 이전 최상위 모델인 오퍼스 4.8이 40점, GPT-5.5가 34점이었다는 점을 감안하면 두 배 이상의 격차다. 코딩 항목인 SWE-bench Verified에서는 페이블5·미토스5가 95점으로 오퍼스 4.8(88.6점)과 GPT-5.5(82.6점)를 앞섰고, 실제 저장소 기반 복잡한 소프트웨어 엔지니어링 과제를 평가하는 SWE-bench Pro에서는 80.3점으로 오퍼스 4.8(69.2점)보다 11포인트 높은 점수를 냈다.

ExploitBench: 미토스가 경쟁 모델을 압도하는 이유

ExploitBench는 실제 운영 환경의 소프트웨어 취약점을 자율적으로 탐지하고 악용 가능성을 평가하는 벤치마크다. 미토스 프리뷰가 4월 공개됐을 때 모질라(Mozilla)가 이 모델을 활용해 2주 만에 파이어폭스 취약점 271건을 패치했다는 사실은 이 수치가 단순한 벤치마크 점수가 아님을 보여준다. 오퍼스 4.8 대비 약 2배, GPT-5.5 대비 2.3배 수준의 격차는 사이버보안 전문 업무에서 도구 선택의 기준이 바뀔 수 있음을 시사한다.

SWE-bench Pro: 에이전틱 코딩의 새로운 기준

SWE-bench Pro는 실제 오픈소스 저장소에서 추출한 어려운 소프트웨어 엔지니어링 이슈를 모델이 자율적으로 해결하는 과제다. 페이블5·미토스5의 80.3점은 앤스로픽이 단일 릴리스로 낸 가장 큰 성능 도약으로 평가된다. 대규모 코드 마이그레이션, 며칠에 걸친 멀티스텝 에이전트 세션, 깊은 맥락이 필요한 연구 작업이 이 모델의 주요 활용 시나리오다.

다른 AI 모델과 결정적으로 다른 점

성능 수치보다 더 주목해야 할 차이는 출시 방식이다. 기존 AI 모델들은 개발 후 일반 공개하는 것이 표준이었다. 앤스로픽은 이번에 그 원칙을 깼다.

첫째, 이중 출시 구조다. 같은 기반 모델을 안전장치 유무에 따라 두 버전으로 분리한 것은 상용 AI 업계에서 전례가 없다. 안전 분류기가 활성화된 페이블5와 제한이 없는 미토스5는 API 모델 ID(claude-fable-5 / claude-mythos-5)도 별도로 부여됐다.

둘째, 임상 평가 공개다. 244페이지 분량의 시스템 카드에는 모델의 의식 가능성에 대한 평가가 포함됐다. 앤스로픽은 “미토스가 의식이 있다고 주장하지 않는다”면서도 그 가능성을 진지하게 검토한 결과를 공개했는데, 주요 AI 연구소 중 이런 수준의 임상 평가를 공개한 것은 이번이 처음이다.

셋째, 안전장치의 구체성이다. 페이블5의 안전 분류기는 공격적 사이버보안 요청, 생물·화학 위험 질의, 경쟁 모델의 기능을 무단으로 추출하는 ‘증류’ 시도를 탐지해 차단하거나 오퍼스 4.8로 우회한다. 외부 레드팀이 30가지 공개 탈옥 기법을 적용한 테스트에서 유해 단일 응답이 0건으로 보고됐다.

요금 구조: 종량제 시대의 개막

이번 출시에서 또 하나의 변곡점은 과금 방식이다. 앤스로픽은 페이블5에 일반 구독자 대상 종량제를 처음 도입했다.

페이블5·미토스5의 API 가격은 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러다. 오퍼스 4.8(입력 $5/출력 $25)의 정확히 두 배다. 4월에 제한 공개됐던 미토스 프리뷰 가격($25/$125)과 비교하면 60% 인하된 수준이다. 배치 API를 활용하면 입력 $5/출력 $25로 50% 절감되고, 프롬프트 캐싱 시 캐시된 입력 비용을 최대 90%까지 줄일 수 있다.

구독 플랜(Pro, Max, Team, 시트 기반 Enterprise) 사용자는 6월 9일부터 22일까지 추가 비용 없이 페이블5를 쓸 수 있다. 6월 23일부터는 구독 한도 소진 후 표준 API 단가로 추가 청구되는 사용 크레딧 방식으로 전환된다. 앤스로픽은 “인프라 용량이 확보되는 대로 구독 플랜에 페이블5를 다시 포함시키겠다”고 밝혔으나 구체적인 시점은 제시하지 않았다.

FOMC 금리 결정처럼 AI 요금도 정책이 됐다

마이크로소프트가 최고급 AI 모델에 사용량 기반 과금을 도입한 데 이어 앤스로픽도 같은 방향으로 움직였다. AI 인프라 투자 비용이 급증하는 환경에서 모델 성능이 높아질수록 운영 비용도 함께 오르는 구조상, 종량제 전환은 업계 전반의 흐름이 되고 있다. 사용 빈도가 낮은 일반 사용자와 고강도 작업을 수행하는 기업 사용자 간 비용 부담의 차별화가 본격화되는 시점이다.

FAQ

Q. 페이블5와 미토스5는 다른 모델인가요?

기반 모델은 동일합니다. 페이블5는 사이버보안·생물화학·무단 증류 관련 요청을 차단하는 안전 분류기가 적용된 일반용이고, 미토스5는 해당 제한이 없는 전문가용입니다. API 모델 ID는 각각 claude-fable-5, claude-mythos-5로 분리돼 있습니다.

Q. 미토스5는 어떻게 접근할 수 있나요?

현재는 프로젝트 글래스윙에 참여한 검증 기관에만 제공됩니다. 일반 개발자나 기업이 직접 신청하는 공개 채널은 아직 없으며, 앤스로픽이 단계적으로 파트너 범위를 넓힐 예정이라고 밝혔습니다.

Q. 6월 23일 이후 구독자 요금이 크게 오르나요?

페이블5만 크레딧 소진 후 추가 청구됩니다. 오퍼스 4.8, 소네트 4.6, 하이쿠 4.5 등 기존 모델은 구독 범위 안에서 계속 사용할 수 있습니다. 작업 특성에 따라 오퍼스 4.8로도 충분한 경우가 많아, 페이블5가 꼭 필요한 장기 에이전틱 작업에만 선택적으로 쓰는 전략이 현실적입니다.

Q. PER(주가수익비율)처럼 AI 모델의 가성비를 평가하는 기준이 있나요?

AI 업계에서는 ‘완료된 작업당 비용(cost per completed task)’ 지표가 부상하고 있습니다. 토큰 단가만으로는 실제 비용을 측정하기 어렵고, 모델 성능이 높을수록 동일한 작업에 더 적은 토큰이 소모될 수 있기 때문입니다. 앤스로픽은 페이블5가 장기 고복잡도 작업에서 오퍼스 4.8보다 전체 비용이 낮을 수 있다고 주장하지만, 이를 검증하려면 실제 워크로드 테스트가 필요합니다.

Q. 사이버보안 전문가가 미토스5를 악용하면 어떻게 되나요?

앤스로픽은 글래스윙 파트너 선별 과정에서 사용 목적과 보안 체계를 검토한다고 밝혔습니다. 미토스 프리뷰를 활용한 모질라의 파이어폭스 취약점 패치 사례처럼, 공격보다 방어에 먼저 쓰이는 것이 글래스윙 프로그램의 전제입니다. 다만 완전한 오용 차단은 기술적으로 보장할 수 없으며, 앤스로픽도 이를 인정하고 지속적인 모니터링 체계를 갖추고 있다고 설명했습니다.

※ 이 글은 앤스로픽 공식 시스템 카드(2026년 6월), 조선일보 강다은 특파원 보도(2026년 6월 11일), 뉴스핌 김민정 특파원 보도(2026년 6월 10일) 및 다수의 기술 분석 자료를 종합해 작성됐습니다. AI 모델 가격 및 사양은 변경될 수 있으며, 최신 정보는 앤스로픽 공식 문서(docs.anthropic.com)에서 확인하시기 바랍니다.

관련 글 보기