Cisco: Точно настроенные большие языковые модели — угроза, умноженная на 22
Узнайте, как злоумышленники используют большие языковые модели для кибератак. Новые инструменты на основе ИИ автоматизируют фишинг, обход защиты и другие вредоносные действия. Стоимость доступа к таким моделям стремительно падает, что создает серьезную угрозу.
Оружие в руках киберпреступников
Современные большие языковые модели (LLM), обученные с использованием вредоносных методик, радикально меняют ландшафт киберугроз. Специалисты по информационной безопасности вынуждены пересматривать свои подходы, поскольку LLM эффективно автоматизируют разведку, имитируют личности и обходят системы обнаружения, значительно ускоряя масштабные атаки социальной инженерии. Примеры таких моделей, как FraudGPT, GhostGPT и DarkGPT, продаются за 75 долларов в месяц и предлагают широкий спектр возможностей для киберпреступников, включая фишинг, разработку эксплойтов, обфускацию кода, сканирование уязвимостей и проверку кредитных карт.
Преступные группировки, синдикаты и даже государства активно используют и распространяют доступ к таким LLM, предлагая их как SaaS-сервисы с панелями управления, API, регулярными обновлениями и, зачастую, технической поддержкой. Размывание границ между легитимными платформами разработки и инструментами киберпреступности становится все более очевидным. Снижение стоимости доступа к таким моделям стимулирует все большее количество злоумышленников к экспериментам, что порождает новую эру угроз на основе искусственного интеллекта.
Легитимные LLM под угрозой
Быстрое распространение вредоносных LLM создает серьезный риск компрометации легитимных моделей и их интеграции в арсенал киберпреступников. Практически любая легитимная LLM теперь потенциально уязвима.
Чем больше модель дообучается, тем выше вероятность ее использования для создания вредоносного контента. Согласно отчету Cisco, дообученные LLM в 22 раза чаще генерируют вредоносный контент, чем базовые модели. Несмотря на то, что дообучение необходимо для повышения актуальности и производительности, оно также ослабляет защитные механизмы и открывает возможности для обхода ограничений, инъекций подсказок и инверсии модели.
Исследование Cisco показывает, что готовность модели к использованию напрямую коррелирует с количеством уязвимостей. Стандартные процессы дообучения, включая непрерывное обучение, интеграцию сторонних решений и тестирование, создают новые возможности для злоумышленников. Получив доступ к LLM, они могут заражать данные, пытаться захватить инфраструктуру, изменять поведение агентов и извлекать данные обучения в больших масштабах. Без независимых механизмов безопасности, дообученные модели становятся не только уязвимыми, но и привлекательными целями для злоумышленников.
Дообучение LLM: масштабное разрушение систем безопасности
Исследование Cisco включало тестирование нескольких дообученных моделей, таких как Llama-2-7B и специализированные модели Microsoft Adapt, в различных областях, включая здравоохранение, финансы и юриспруденцию.
Ключевой вывод исследования: дообучение дестабилизирует выравнивание модели, даже при обучении на чистых данных. Наиболее серьезные нарушения наблюдались в биомедицинской и юридической сферах – областях с высокими требованиями к безопасности и соблюдению нормативных актов.
Хотя дообучение призвано повысить производительность, побочным эффектом является системная деградация встроенных защитных механизмов. Атаки, которые были неэффективны против базовых моделей, стали значительно успешнее против дообученных вариантов, особенно в строго регулируемых отраслях. Успешность взлома утроилась, а генерация вредоносного контента возросла на 2200% по сравнению с базовыми моделями. Повышение функциональности сопровождается экспоненциальным ростом уязвимости.
Метод TAP показал эффективность до 98% в обходе ограничений, превосходя другие методы как для открытых, так и для закрытых LLM.
Зловредные LLM: товар за 75 долларов
Cisco Talos отслеживает рост черного рынка LLM. По данным Talos, модели GhostGPT, DarkGPT и FraudGPT продаются в Telegram и даркнете за 75 долларов в месяц. Эти инструменты представляют собой готовые решения для фишинга, разработки эксплойтов, проверки кредитных карт и обфускации кода. В отличие от базовых моделей с встроенными механизмами безопасности, эти LLM изначально настроены на вредоносные действия и предлагают API, обновления и панели управления, аналогичные коммерческим SaaS-продуктам.
Отравление данных и уязвимости моделей
Исследование Cisco, проведенное совместно с Google, ETH Zurich и Nvidia, показало, что за 60 долларов злоумышленники могут внедрить вредоносный код в базовые модели ИИ, не используя уязвимости нулевого дня. Это достигается путем внедрения вредоносных данных в общедоступные обучающие наборы. Используя просроченные домены или редактируя Википедию перед архивированием данных, злоумышленники могут отравить даже незначительную часть наборов данных (0,01%), таких как LAION-400M или COYO-700M, и существенно повлиять на итоговую LLM.
Методы "отравления методом разделенного просмотра" и "атаки на опережение" эксплуатируют доверие модели к данным, полученным из веб-скрапинга. Поскольку большинство корпоративных LLM обучаются на открытых данных, подобные атаки легко масштабируются и остаются незамеченными.
Утечка данных и обход защитных механизмов
Исследователи Cisco продемонстрировали возможность использования LLM для утечки конфиденциальных данных обучения без срабатывания защитных механизмов. Метод "декомпозиционного запроса" позволил восстановить более 20% статей из New York Times и Wall Street Journal. Атака заключалась в разбиении запроса на более мелкие, безопасные с точки зрения защитных механизмов, и последующей сборке результатов для получения доступа к контенту, защищенному авторским правом или платным доступом.
Успешный обход защитных механизмов для доступа к проприетарным данным представляет серьезную угрозу. Для компаний, использующих LLM, обученные на проприетарных данных, атаки декомпозиции особенно опасны, поскольку нарушение происходит на уровне вывода модели, что затрудняет обнаружение и предотвращение.
Риски соответствия и новые угрозы
В регулируемых секторах (здравоохранение, финансы, юриспруденция) использование LLM влечет за собой не только риск нарушения GDPR, HIPAA или CCPA. Возникает новый класс рисков, где даже законно полученные данные могут быть раскрыты через вывод модели, а штрафы – лишь малая часть последствий.
Заключение: необходимость динамической защиты
Исследования Cisco подтверждают, что LLM-оружие становится всё сложнее, а на даркнете разворачивается активная конкуренция. LLM не находятся на периферии предприятия – они являются частью его инфраструктуры. Злоумышленники рассматривают LLM как инфраструктурные объекты, а не просто приложения. Статических механизмов защиты уже недостаточно. Необходим постоянный мониторинг ИТ-инфраструктуры, усиленное тестирование на проникновение и оптимизированный технологический стек для адекватного реагирования на новые угрозы.