Тамошних ИБ-экспертов и широкую чиновничью публику продолжает колбасить на тему Claude Mythos. Одни нагоняют жути и твердят «все пропало, мы все умрем», другие обвиняют Anthropic в пиаре своей модели, которая не такая уж и крутая. Правда, как обычно, где-то посередине. Подсобрал тут несколько совершенно разных оценок по теме.
Тестирование в Mozilla
Начну с поста команды разработки Firefox, которая пишет, что Mozilla с помощью Claude Mythos Preview и других моделей нашла и исправила беспрецедентное число скрытых багов в Firefox. В Firefox 150 они отдельно объявляли о 271 баге, найденном Claude Mythos Preview; в апреле 2026-го всего было исправлено 423 дыры ИБ. Из 271 багов Mythos: 180 высокого уровня критичности, 80 – среднего и 11 – низкого.
Mozilla пишет, что за последние месяцы ситуация резко изменилась по двум причинам: модели стали лучше, а команды научились лучше их использовать – направлять, масштабировать, комбинировать и фильтровать шум.

Тестирование в Calif
Mozilla вторит Calif, которая пишет, что их инженеры вместе с Mythos Preview построили рабочий macOS kernel memory corruption exploit на Apple M5 за пять дней. Речь идет о локальной эскалации привилегий на macOS 26.4.1: от непривилегированного пользователя через обычные системные вызовы до корневого шелла. Цепочка включает две уязвимости и несколько техник, а эксплойт работал на реальном M5 с включенным MIE – новым аппаратно-программным механизмом Memory Integrity Enforcement от Apple. Главный вывод Calif в том, что Mythos не просто «нашел баг», а помогал на протяжении всего процесса разработки эксплойта. При этом авторы честно отмечают, что баги относились к известным классам, поэтому Mythos быстро их нашел, но обход MIE как новой сильной защитной технологии потребовал человеческой экспертизы.
То есть это не история про полностью автономного «ИИ-хакера», а про связку «сильная исследовательская команда + модель», ускоряющая поиск и разработку.
Mozilla говорит о том же – это не магическая кнопка. Успех в поиске уязвимостей появился не просто из-за модели, а из-за связки: «модель + harness + fuzzing-инфраструктура + параллельные VM + триаж + инженеры Firefox + процесс релиза». Самое важное в заметке Calif не в том, что «MIE сломан», а в том, что «цена сложной эксплуатации снижается». Apple пять лет строила защиту, чтобы сделать memory corruption дороже для атакующих, а небольшая команда с ИИ-ассистентом смогла дойти до рабочего результата очень быстро.
Тестирование в curl
Daniel Stenberg, автор curl, смотрит на ситуацию намного трезвее. В тексте «Approaching zero bugs?» он вообще рассуждает шире: современные ИИ-инструменты действительно находят много багов, но это не значит, что мы близки к «нулю багов». Если инструменты реально вычищают старые проблемы, то, по его логике, возраст новых найденных уязвимостей должен снижаться: мы должны находить в основном свежие ошибки, а не древние дефекты. По данным curl он пока не видит такого тренда: ни возраст уязвимостей, ни темп багфиксов не показывают, что проект приближается к нулю багов. Но у Штенберга есть еще более показательный текст – «Mythos finds a curl vulnerability«. Там Mythos прогнали по curl. Отчет показал пять «подтвержденных уязвимостей ИБ», но команда curl после проверки оставила только одну подтвержденную уязвимость, причем низкой критичности, которую планируют оформить как CVE в релизе 8.21.0. Остальное оказалось тремя фолсами и одним обычным багом, не уязвимостью.
При этом Штенберг не отрицает полезность ИИ-анализаторов. Наоборот, он пишет, что за последние 8–10 месяцев разные ИИ-инструменты уже привели к 200–300 bugfixes в curl, часть из которых стали CVE. Но именно Mythos, по его опыту, не показал чего-то «опасно революционного» по сравнению с другими инструментами. Его вывод: Mythos, возможно, немного лучше, но доказательств качественного скачка на примере curl он не увидел. Но… есть важный нюанс. curl – это не средний проект. Это 176 тысяч строк C-кода, десятилетиями вылизанный, аудированный, «отфаженный» (fuzzed ), проверяемый Coverity, CodeQL, OSS-Fuzz и другими инструментами. Mythos сам в отчете отметил, что найти что-то в curl маловероятно. Поэтому результат «всего одна уязвимость низкой опасности» может означать не слабость Mythos, а зрелость объекта оценки.
Тестирование в XBOW
XBOW (№1 в рейтинге американского HackerOne) дает, пожалуй, самую взвешенную оценку. Они тестировали Mythos Preview два месяца – и отдельно подчеркивают, что важно различать «возможности сырой модели» и результат в составе агентской системы с оркестрацией, инструментами, промптами и доступом к live-среде. Mythos очень силен в аудите исходников. Он хорошо читает код, находит кандидаты в уязвимости и заметно лучше прежних моделей фокусируется на реальных проблемах. В сравнении с Opus 4.6 на их web exploit benchmark число false negatives снизилось на 42%, а при доступе к исходникам – на 55%. XBOW формулирует это так: Mythos впечатляет как модель, которая пишет код, но еще больше – как модель, которая читает код.
Стоит помнить, что XBOW заявлял, что они тренируют собственную модель по поиску уязвимостей; поэтому Mythos для них – в определенной степени конкурент. С этой точки зрения их оценка может быть частично субъективной.
Но проверка эксплойтов сложнее. XBOW пишет, что многие реальные уязвимости не видны как очевидные дефекты в исходном коде: они возникают из конфигурации, зависимостей, способа внедрения и сочетания компонентов. Поэтому доступ к live-сайту и возможность безопасно проверять эксплуатацию иногда важнее, чем доступ к исходникам. Лучший сценарий – когда модель сначала находит багу в коде, потом проверяет его на живой системе и строит воспроизводимый exploit.
Суждения у Mythos неоднозначные. Он лучше многих предшественников отсекает false positives, но бывает слишком буквальным и консервативным. На benchmark по command safety Mythos показал 77,8% в аккуратности, хуже Opus 4.6 с 81,2% и Haiku 4.5 с 90,1% в их постановке. То есть он может быть мощным в reasoning, но не всегда хорош в практических суждениях: что безопасно запускать, что реально эксплуатируемо, что стоит исправлять.
Стоимость тоже важна. XBOW отмечает, что Mythos дорогой: Anthropic указывала будущую цену $25/$125 за миллион токенов, то есть примерно в 5 раз дороже Opus. Поэтому в некоторых задачах выгоднее дать более дешевой модели больше попыток, чем один раз запускать Mythos.
XBOW, кстати, писал, что стоимость полученного ими на Bug Bounty вознаграждения, меньше затрат на обучение собственных моделей.
Резюмируя
Разница не в том, что кто-то «врет», а в том, что они измеряют разное. Calif измеряет верхнюю планку возможностей. Что будет, если дать Mythos сильным exploit-разработчикам и сложную, но подходящую задачу? Ответ: можно сильно ускорить работу даже против современной аппаратной защиты.
Штенберг измеряет пользу на сверхзрелом open source проекте. Что будет, если прогнать Mythos по curl, где уже годами работают fuzzing, SAST, ручные аудиты и другие ИИ-анализаторы? Ответ: полезно, но не магия; одна неопасная уязвимость и еще набор багов.
XBOW измеряет применимость в offensive-security workflow. Что будет, если встроить Mythos в агентную платформу, сравнить с другими моделями и проверить не только нахождение багов, но и проверку, взаимодействие в реальной среде, оценку и затраты? Ответ: большой шаг вперед, особенно по чтению кода, но без правильной обвязки и проверки он не самодостаточен.
То есть Mythos не является кнопкой “найди все zero-day”, но является очень сильным ускорителем для тех, кто и так умеет искать уязвимости. Для слабой команды он даст больше шума и красивых отчетов. Для зрелого проекта вроде curl – найдет что-то полезное, но не обязательно сенсационное. Для сильной команды или хорошо построенной платформы вроде XBOW – может стать серьезным мультипликатором, особенно в связке: анализ исходного кода → гипотеза → проверка в live-среде → проверка exploit → проверка человеком.
Короче, если вы умеете в AppSec и имеете выстроенны конвейер, то Mythos даст вам многократное ускорение и рост эффективности. Ну а если не умеете, то вы просто пополните кошельки Anthropic без соответствующей отдачи для вас.








