Если вернуться к прошлой заметке про сдерживание искусственного интеллекта, то с момента ее публикации, у нас новое подтверждение описанной тенденции — страны-члены Евросоюза достигли соглашения по закону о регулировании ИИ. В отличие от многих других стран, описанных в прошлой заметке, которые только подписывают меморандумы и протоколы о намерениях, Евросоюз опять стреляет себе в ногу, по своей воле ограничивая применение ИИ и защищая от возможных рисков, с ним связанных, — дезинформацией, дипфейками, безработицей, социальным рейтингом и угрозы нацбезопасности.
Ну а мы вернемся к теме нынешней заметки, которая тоже про темную сторону искусственного интеллекта, но более приземленную, — про базы знаний атак на ИИ, которые аккумулируют сведения о способах манипуляции языковыми моделями, нейросетями, датасетами и т.п.
В октябре появился интересный проект Offensive ML Playbook, который описывает три типа атак на машинное обучение:
- Враждебные (adversarial) атаки на языковые модели, нейросети и т.п.
- Атаки, которые можно использовать в целях Red Team
- Атаки на цепочки поставок, среди которых атаки на датасеты, MLOps конвейер, модели и т,п.
Кстати, переводить «adversarial» как «состязательные» применительно к атакам на машинное обучение некорректно. Слово «враждебные» все-таки подходит лучше и отражает именно то, о чем идет речь, когда говорят о adversarial attack.
Интересный проект Offensive AI Lab, который занимается тем, что изучает использование искусственного интеллекта для враждебных целей. В первую очередь они фокусируются на дипфейках и атаках на медицинские системы, но есть и другие интересные материалы. Например, они описали 33 техники применения ИИ для враждебных целей и попробовали увязать их с тактиками матрицы MITRE ATT&CK.
У MITRE, кстати, тоже есть своя база знаний атак на системы на базе ИИ с привязкой к тактикам, знакомым по MITRE ATT&CK. Проект называется ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems).
Студенты ИТМО перевели ATLAS на русский язык. Как по мне, так переводы таких баз знаний не очень полезны для широкой аудитории, но полезны для улучшения знаний языка и прокачивания знаний в теме, по которой переводятся материалы.
Как это часто бывает у MITRE, они не просто выпустили очередную матрицу, но и создали вокруг нее мини-экосистему, в которую входит, например:
- AI Risk Database — база данных по известным рискам/проблемам в публичных моделях машинного обучения. Вы можете как искать что-то уже известное, так и сообщить о своей проблеме с той или иной моделью.
- Arsenal — плагин для инструмента CALDERA по эмуляции атак на системы, построенные на базе машинного обучения.
Еще одна интересная база данных — AI Vulnerability Database, которая схожа по своей сути с проектом MITRE ATLAS, но, как мне показалось, имеет более широкую таксономию.
Последним хранилищем знаний в сегодняшнем списке будет база публичных инцидентов с системами на базе ИИ, повлекшими за собой те или иные негативные последствия, — AI Incident Database. На текущий момент в базе более 600 инцидентов, что немало.
А завершить заметку мне хотелось бы проектом нового документа американского института по стандартизации NIST, который описывает таксономию атак (и методов защиты) на машинное обучение. Он должен быть финализирован в начале следующего года (сбор правок и замечаний в него завершился в сентябре).
Правда, у NIST достаточно нестандартная таксономия, отличающаяся от всех предыдущих, что, наверное, и хорошо (есть из чего выбрать). NIST отталкивается от стандартных трех целей ИБ — конфиденциальность, целостность и доступность, привязывая атаки на ИИ именно к ним.
Недавно на одном мероприятии по искусственному интеллекту коллеги-выступающие рассказывали очень немало интересных историй о том, как они используют ИИ в различных бизнес-проектах, помогающих улучшать, ускорять, снижать, экономить, предсказывать и получать другую пользу. Но когда я задал вопрос о том, а как во всех этих проектах защищаются исходные датасеты от подмены данных, их отравления, фальсификации и т.п., ответа не последовало. Такое впечатление, что никто даже не думал о защите данных, на которых строились и работали все модели. Приведенные выше источники знаний должны помочь в таких ситуациях. Как минимум, с точки зрения оценки возможных рисков от отсутствия защиты ИИ.
Добрый день!
Спасибо за обзоры.
Но не хватает упоминания отечественного регулятора (5 последних УБИ) и китайских организаций.
Если нужен материал — могу поделиться.
Ну у наших это пока носит фрагментарный характер пока (если не брать материал от РКНвского ГРЧЦ). От китайцев было бы интересно