Как плохие парни используют искусственный интеллект во враждебных целях

Угрозы

Если вернуться к прошлой заметке про сдерживание искусственного интеллекта, то с момента ее публикации, у нас новое подтверждение описанной тенденции — страны-члены Евросоюза достигли соглашения по закону о регулировании ИИ. В отличие от многих других стран, описанных в прошлой заметке, которые только подписывают меморандумы и протоколы о намерениях, Евросоюз опять стреляет себе в ногу, по своей воле ограничивая применение ИИ и защищая от возможных рисков, с ним связанных, — дезинформацией, дипфейками, безработицей, социальным рейтингом и угрозы нацбезопасности.

Ну а мы вернемся к теме нынешней заметки, которая тоже про темную сторону искусственного интеллекта, но более приземленную, — про базы знаний атак на ИИ, которые аккумулируют сведения о способах манипуляции языковыми моделями, нейросетями, датасетами и т.п.

В октябре появился интересный проект Offensive ML Playbook, который описывает три типа атак на машинное обучение:

  • Враждебные (adversarial) атаки на языковые модели, нейросети и т.п.
  • Атаки, которые можно использовать в целях Red Team
  • Атаки на цепочки поставок, среди которых атаки на датасеты, MLOps конвейер, модели и т,п.

Кстати, переводить «adversarial» как «состязательные» применительно к атакам на машинное обучение некорректно. Слово «враждебные» все-таки подходит лучше и отражает именно то, о чем идет речь, когда говорят о adversarial attack.

Интересный проект Offensive AI Lab, который занимается тем, что изучает использование искусственного интеллекта для враждебных целей. В первую очередь они фокусируются на  дипфейках и атаках на медицинские системы, но есть и другие интересные материалы. Например, они описали 33 техники применения ИИ для враждебных целей и попробовали увязать их с тактиками матрицы MITRE ATT&CK.

Вредоносное использование искусственного интеллекта
Вредоносное использование искусственного интеллекта

У MITRE, кстати, тоже есть своя база знаний атак на системы на базе ИИ с привязкой к тактикам, знакомым по MITRE ATT&CK. Проект называется ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems).

Перевод матрицы атак на искусственный интеллект ATLAS
Матрица атак на искусственный интеллект MITRE ATLAS

Студенты ИТМО перевели ATLAS на русский язык. Как по мне, так переводы таких баз знаний не очень полезны для широкой аудитории, но полезны для улучшения знаний языка и прокачивания знаний в теме, по которой переводятся материалы.

Как это часто бывает у MITRE, они не просто выпустили очередную матрицу, но и создали вокруг нее мини-экосистему, в которую входит, например:

  • AI Risk Database — база данных по известным рискам/проблемам в публичных моделях машинного обучения. Вы можете как искать что-то уже известное, так и сообщить о своей проблеме с той или иной моделью.
  • Arsenal — плагин для инструмента CALDERA по эмуляции атак на системы, построенные на базе машинного обучения.

Еще одна интересная база данных — AI Vulnerability Database, которая схожа по своей сути с проектом MITRE ATLAS, но, как мне показалось, имеет более широкую таксономию.

Таксономия угроз для ИИ
Таксономия угроз для ИИ

Последним хранилищем знаний в сегодняшнем списке будет база публичных инцидентов с системами на базе ИИ, повлекшими за собой те или иные негативные последствия, — AI Incident Database. На текущий момент в базе более 600 инцидентов, что немало.

А завершить заметку мне хотелось бы проектом нового документа американского института по стандартизации NIST, который описывает таксономию атак (и методов защиты) на машинное обучение. Он должен быть финализирован в начале следующего года (сбор правок и замечаний в него завершился в сентябре).

NIST AI 100-22023
NIST AI 100-22023

Правда, у NIST достаточно нестандартная таксономия, отличающаяся от всех предыдущих, что, наверное, и хорошо (есть из чего выбрать). NIST отталкивается от стандартных трех целей ИБ — конфиденциальность, целостность и доступность, привязывая атаки на ИИ именно к ним.

Таксономия атак на ИИ по NIST
Таксономия атак на ИИ по NIST

Недавно на одном мероприятии по искусственному интеллекту коллеги-выступающие рассказывали очень немало интересных историй о том, как они используют ИИ в различных бизнес-проектах, помогающих улучшать, ускорять, снижать, экономить, предсказывать и получать другую пользу. Но когда я задал вопрос о том, а как во всех этих проектах защищаются исходные датасеты от подмены данных, их отравления, фальсификации и т.п., ответа не последовало. Такое впечатление, что никто даже не думал о защите данных, на которых строились и работали все модели. Приведенные выше источники знаний должны помочь в таких ситуациях. Как минимум, с точки зрения оценки возможных рисков от отсутствия защиты ИИ.

Оцените статью
Бизнес без опасности
Есть что добавить? Добавьте!

Нажимая кнопку "Отправить", я даю свое согласие на обработку персональных данных (если вдруг они указаны в комментарии) в соответствие с политикой конфиденциальности. Также я соглашаюсь с тем, что в своем комментарии не раскрываю никаких сведений, составляющих государственную тайну, а также никакой иной информации, охраняемой законом (для этого используйте иные способы :-) ), если это не разрешено ее владельцем. Ваш комментарий может появиться не сразу, а после модерации (так бывает не всегда, но бывает).

  1. Артём М.

    Добрый день!
    Спасибо за обзоры.
    Но не хватает упоминания отечественного регулятора (5 последних УБИ) и китайских организаций.
    Если нужен материал — могу поделиться.

    Ответить
    1. Алексей Лукацкий автор

      Ну у наших это пока носит фрагментарный характер пока (если не брать материал от РКНвского ГРЧЦ). От китайцев было бы интересно

      Ответить