Методы машинного обучения в обнаружении вредоносного ПО на разных типах платформ: защита ПК, мобильных устройств, устройств Интернета вещей и облачных сред

Джаннатул Фердус, Рафикул Ислам, Араш Махбуби, Мохаммед Захидул Ислам

Аннотация:

Вредоносное программное обеспечение (ВПО) представляет серьёзную угрозу для конечных пользователей, компаний и государственных органов и приносит финансовый ущерб в миллиарды долларов. Для киберпреступников вредоносное ПО является прибыльным бизнесом благодаря его растущим возможностям и способности нарушать работу разных типов платформ, включая ПК, мобильные устройства, устройства Интернета вещей (IoT) и облачные платформы. Соответственно, понимание механизмов обнаружения и защиты от вредоносного ПО на конкретных платформах крайне важно для противодействия угрозе с учётом её постоянного изменения. С целью восполнить недостаток знаний в этой области и стимулировать дальнейшее изучение вопроса, авторы представляют подробный обзор по использованию методов машинного обучения в обнаружении вредоносного ПО на ПК, мобильных устройствах, устройствах IoT и облачных платформах.

1. Введение

В последние годы ВПО превратилось в одну из самых распространённых киберугроз, которая представляет опасность не только для таких привычных систем, как ПК, но и для мобильных устройств, устройств Интернета вещей и облачных платформ. ВПО становится всё более изощрённым и разнообразным, а для ухода от обнаружения использует такие методы, как обфускация (запутывание кода), шифрование, полиморфизм и метаморфизм. Техническое совершенствование ВПО позволяет ему обходить обычные меры безопасности, что наносит значительный финансовый, операционный и репутационный ущерб пользователям, компаниям и государственным органам. В силу тенденции к интеграции технологий с задействованием сразу нескольких платформ злоумышленники научились одновременно атаковать несколько видов систем. Соответственно, углублённое изучение способов обнаружения кроссплатформенного ВПО не только актуально, но и крайне важно для обеспечения устойчивости систем кибербезопасности.

В контексте кибербезопасности под ВПО понимается вредоносное программное обеспечение, которое специально создано, чтобы нарушать работу компьютерных систем, наносить им ущерб или взламывать их. В свою очередь, кроссплатформенное ВПО способно заражать и распространяться по разным типам платформ, зачастую одновременно. ВПО делится на несколько категорий в зависимости от назначения и системы обмена информацией. Например, есть программы-вымогатели, шпионские программы, рекламные программы, руткиты, черви, троянские кони, ботнеты и вирусы. В данном исследовании под машинным обучением (МО) подразумеваются вычислительные методы, которые позволяют системам учиться на данных и постепенно повышать свою производительность без вмешательства программистов. Применение машинного обучения в обнаружении ВПО может быть полезно в части автоматизации идентификации угроз и сокращения времени, необходимого на их обнаружение, особенно в технически сложных и меняющихся средах.

На широкое распространение вредоносного ПО указывает растущее число кибератак по всему миру. Согласно «Индексу готовности систем кибербезопасности» компании Cisco за 2024 год, 76% компаний сталкивались с хакерскими атаками (см. рис. 1). Отчёты о вредоносном ПО компании Astra за 2024 год показывают, что ежедневно обнаруживается 560 тысяч новых ВПО, при этом в общей сложности существует уже более одного миллиарда программ. Существование такого массива вредоносных программ представляет серьёзную угрозу безопасности организаций и нередко приводит к атакам с целью получения выкупа от жертвы. Ожидается, что масштаб таких атак серьёзно вырастет в будущем, а ущерб от них будет расти. Издание Cybersecurity Ventures прогнозирует, что к 2031 году общая сумма выкупов за год может достичь около 265 миллиардов долларов США, при годовом росте в 30%. Растёт число угроз против систем Linux: количество заражений и число новых семейств ВПО, атакующих платформы на базе Linux, выросло на 35%. Более того, 2023 год стал поворотным и с точки зрения безопасности систем Интернета вещей. В отчете Zscaler ThreatLabz за октябрь 2023 говорится о росте на 400% количества атак на устройства IoT по сравнению с предыдущим годом. В целом, по мере распространения мобильных устройств, систем Интернета вещей и облачных вычислений в мире, полигон для кибератак расширяется, и у злоумышленников появляются новые направления для применения ВПО. Это создаёт новые сложности с точки зрения выявления угроз. Обычных методов обнаружения ВПО, разработанных под конкретные платформы (ПК или мобильные устройства), недостаточно для противодействия этим новым угрозам. Таким образом, подчёркивается необходимость применения единого кроссплатформенного подхода к обнаружению ВПО и создания комплексной стратегии защиты.

Рис. 1. Виды атак, которым подвергаются компании (сентябрь 2024 г., CISCO).

На фоне таких постоянно меняющихся рисков многие исследователи обратили своё внимание на машинное обучение, обладающее потенциалом для противодействия новейшим киберугрозам с учётом их сложности. Привычные подходы к обнаружению ВПО — например, метод на основе сигнатур или эвристический метод — оказались недостаточно сильными для противодействия технически сложному и полиморфному ВПО, особенно в динамичных кроссплатформенных средах. Поэтому для защиты от киберугроз на современном этапе применение более совершенных методов обнаружения, включая подходы на основе поведения и подходы на базе машинного обучения, приобрело особую актуальность. В этом контексте модели нейронных сетей, в том числе свёрточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN), широко применяются для обработки данных в процессе обнаружения ВПО. CNN отлично справляются с анализом бинарных файлов и изображений, а RNN эффективны в работе с последовательными данными (последовательности системных вызовов). Кроме того, развитие больших языковых моделей (LLM), таких как GPT («Генеративный предобученный трансформер») и BERT («Двунаправленные представления кодировщика от трансформеров»), открыло новые перспективы в борьбе с ВПО, а именно возможности анализировать текстовые признаки (изучать логи, отчёты об угрозах и последовательности API-запросов). Эти модели улавливают контекстуальные взаимосвязи в текстовых данных и успешно идентифицируют связанные с ВПО закономерности. Более того, посредством децентрализации обучения модели, федеративное обучение повышает качество обнаружения ВПО, сохраняя при этом конфиденциальность и адаптируясь к меняющимся киберугрозам. Если идти дальше, то объяснимый AI (XAI) повышает прозрачность обнаружения ВПО, улучшая интерпретируемость моделей машинного обучения. Такие методы, как аддитивные объяснения Шепли (SHAP) и локальная интерпретация моделей (LIME), позволяют понять решения модели, что помогает аналитикам увидеть, почему какой-либо файл или активность классифицируются как вредоносный или безопасный.

Ранее проведённые исследования касались выявления вредоносного ПО на конкретных платформах, тогда как комплексных и подробных обзоров, посвящённых методам машинного обучения на разных типах платформ, явно не хватает. Кроссплатформенное обнаружение ВПО крайне важно по нескольким причинам. Во-первых, кибератаки часто направлены на слабейшее звено среди взаимосвязанных систем. Например, одной уязвимости в устройстве IoT может быть достаточно для внедрения в целые сети, включая корпоративные облачные системы. Во-вторых, ВПО достигло такого уровня развития, что может атаковать разные типы платформ, а многие современные варианты специально созданы таким образом, чтобы адаптироваться под разные среды. Например, ботнет Mirai изначально атаковал устройства IoT, но впоследствии был модифицирован под облачные системы и корпоративные сети. Таким образом, очень важно разработать единую стратегию защиты, так как организации работают в гибридных средах, где сочетаются физическая инфраструктура и облачные системы.

В данном исследовании авторы ставят своей целью восполнить эти пробелы и предложить комплексный обзор новейших публикаций на тему выявления вредоносного ПО с помощью методов машинного обучения на разных типах платформ.

2. Вредоносное программное обеспечение: основы

В данном разделе представлена основная информация о ВПО, включая определение ВПО, его виды и негативное воздействие на системы и данные. Также отмечаются имевшее место в последнее время крупные атаки с использованием ВПО, описываются стандартные методы анализа, рассматривается наиболее важный функционал, который позволяет выявлять и устранять данные угрозы за счёт использования технологии машинного обучения.

2.1. Определение ВПО

Вредоносное программное обеспечение предназначено для нарушения работы систем или получения несанкционированного доступа к ним. Несмотря на развитие сферы кибербезопасности, незаконное вмешательство в работу компьютерных систем посредством кражи данных, повреждения файлов или вывода из строя сервисов по-прежнему представляет серьёзную угрозу. Основные виды ВПО включают вирусы, черви, троянские программы, программы-вымогатели, шпионские программы, рекламные программы, ботнеты и руткиты. Каждый вид ВПО имеет свои особенности и цели использования. Например, вирусы изменяют или удаляют файлы, черви самовоспроизводятся в сетях, руткиты позволяют контролировать устройство удалённо, а троянские программы маскируются под безобидные приложения для осуществления скрытых операций. Программы для показа рекламы демонстрируют нежелательную рекламу, шпионские программы отслеживают действия пользователя, ботнеты перегружают систему за счет эксплуатации ресурсов, а бэкдоры обходят средства безопасности для получения несанкционированного доступа к ресурсам. Данная классификация показывает разнообразие сфер применения ВПО, а также постоянное расширение спектра создаваемых им угроз.

2.2. Основные угрозы ВПО в киберпространстве сегодня

Среди киберугроз в настоящий момент преобладают технически сложные ВПО, целью которых является нарушение работы разных типов платформ. ВПО используют трудные для обнаружения, полиморфные и адаптивные тактики для обхода традиционных мер безопасности, что затрудняет их обнаружение. Киберпреступники также создают ВПО с использованием искусственного интеллекта (ИИ), что ещё больше усложняет противодействие таким угрозам. В данном разделе представлен обзор наиболее распространённых угроз, подчёркивается необходимость в отслеживании актуальных тенденций профессионалами в сфере кибербезопасности, а также важность превентивных действий в свете постоянного возникновения новых рисков.
Программы-вымогатели: данный вид ВПО остаётся одним из самых распространённых и разрушительных. В период пандемии коронавируса количество атак с использованием программ-вымогателей значительно выросло и продолжило расти в 2023 году. Злоумышленники сместили фокус с крупных корпораций на малые предприятия, используя модель RaaS («программы-вымогатели как услуга»). В этом тренде лидировал шифровальщик LockBit. Несмотря на конфискацию серверов LockBit в феврале 2024 года, связанная с ним хакерская группа вскоре восстановила работу в формате LockBit 3.0. Программы-вымогатели способны нарушать работу разных устройств, включая стационарные компьютеры, мобильные устройства, устройства IoT и облачные среды, с помощью фишинга и инструментов эксплуатации уязвимости для создания целевой нагрузки (шифрования или блокировки). Имевшие место в последнее время атаки со стороны Conti, REvil, Darkside и LockBit 3.0 оказали существенное негативное воздействие на функционирование глобальной инфраструктуры, организаций здравоохранения и компаний. Атака Conti на инфраструктуру правительства Коста-Рики привела к введению чрезвычайного положения в стране, а операция REvil против компании Kaseya содержала требование о выкупе на сумму 70 миллионов долларов. Атака группы DarkSide на компанию Colonial Pipeline повлекла убытки в размере 5 миллионов долларов. Хакеры LockBit 3.0 требовали от Accenture выкуп в размере 50 миллионов долларов.

Продвинутая постоянная угроза (АРТ) — это технически сложные целевые атаки с целью осуществления шпионажа и диверсий. По прогнозам, к 2025 году данный вид угроз будет приносить злоумышленникам 12,5 миллиарда долларов. В данном виде ВПО задействованы такие сложные тактики, как обфускация (запутывание кода), препятствование обнаружению, а также используется ИИ для ухода от обнаружения и эксплуатации уязвимостей нулевого дня. Такие атаки носят многоступенчатый характер и включают сбор информации, первичный доступ (например, адресный фишинг), повышение уровня доступа, горизонтальное перемещение и эксфильтрацию данных — всё в режиме невидимости. Среди заметных примеров — червь Stuxnet, который вывел из строя центрифуги ядерного завода в Натанзе, используя уязвимости нулевого дня и подменные сигнатуры ПО. Кибератака на системы компании SolarWinds — ещё один пример АРТ: ВПО использовалось для поражения цепочки поставок через платформу Orion. Данные инциденты указывают на растущую сложность и актуальность АРТ.

Криптоджекинг — это скрытая кибератака, в процессе которой ВПО посредством зловредных ссылок внедряется в сеть устройств и без ведома пользователя использует ресурсы компьютера для генерации (майнинга) криптовалюты. В 2023 году количество инцидентов криптоджекинга выросло многократно, превысив общее число атак за предыдущий год уже к началу апреля, с общим ущербом в 1,06 миллиарда долларов к концу года (рост на 659%). В отличие от программ-вымогателей, криптоджекеры не требуют денег у своих жертв напрямую и запутывают код, чтобы предотвратить обнаружение. Данный процесс пошагово проиллюстрирован на рисунке 2.

Рис. 2. Пошаговый процесс криптоджекинга.

Метод криптоджекинга применяется для атак на настольные компьютеры, серверы, мобильные устройства и облачные платформы, используя различные виды ВПО и скриптов для несанкционированного майнинга криптовалюты. Браузерные версии криптоджекинга эксплуатируют устройства с помощью вредоносного JavaScript. Данный метод не требует установки какого-либо ПО, но может повысить использование мощности процессора, замедлить работу устройства или привести к его перегреванию. Методы с использованием хоста подразумевают прямую установку скриптов для эксплуатации ресурсов центрального и графического процессоров, а облачный криптоджекинг эксплуатирует уязвимости сервера, чем наносит финансовые убытки и вредит производительности. Среди серьёзных инцидентов криптоджекинга можно упомянуть атаку на Европейский сервис водоснабжения, на облако компании Tesla и на сайт газеты Los Angeles Times в 2018 году. Министерство обороны США обнаружило у себя в системе вредоносное ПО по типу криптоджекинга в 2020 году, а сотрудник российского ядерного предприятия был оштрафован на 7 тысяч долларов за незаконный майнинг биткоинов в 2019 году.

Шпионское ПО (например, Pegasus) внедряется в сети, чтобы похитить конфиденциальные данные (логины и пароли, скриншоты и историю переписок). Использование данного вида ВПО обусловлено появлением практики BYOD (дословно «Принеси свое собственное устройство»), при которой сотрудникам разрешается использовать личные устройства при работе с корпоративными ресурсами. Такое ВПО получает доступ к мобильным устройствам, взломанным электронным ящикам, SMS-сообщениям, данным приложений и файлам мультимедиа. Pegasus способен обходить многофакторную аутентификацию, извлекая одноразовые пароли.

Вайпер (стиратель) — это вредоносная программа, которая уничтожает данные пользователя и атакует компьютерные сети. Злоумышленники используют вайперы для сокрытия вторжения и предотвращения срабатывания средств защиты. Хакеры, пользующиеся поддержкой правительств, используют данный тип ВПО для нарушения работы цепочек поставок и военных операций, а «хактивисты» используют их для нарушения деятельности компаний из соображений протеста против действий, не соответствующих их представлениям о справедливости. Пример такого рода атаки — применённый против Украины в январе 2022 года вайпер WhisperGate и HermeticWiper, который также использовался для атаки против организаций Украины в феврале 2022 года.

RAT-трояны — это особый вид троянских программ, популярный среди киберпреступников, используется для установления удалённого контроля над оконечными устройствами. Злоумышленники обманом заставляют запустить вредоносный код, замаскированный под обычное приложение. Троян для удалённого доступа («призрак») контролирует заражённые оконечные устройства. В отличие от обычного ВПО, троян-призрак запускается вручную, то есть предполагается, что компьютер жертвы уже заражён другим ВПО. Понимать специфику данных угроз необходимо, чтобы эффективно совершенствовать средства выявления и противодействия.

2.3. Анализ ВПО

В данном подразделе авторы рассматривают ключевые методы анализа ВПО в системах обнаружения (статический анализ; динамический анализ; анализ памяти; гибридный анализ), перечисляют характеристики подозрительных файлов и их назначение.

Статический анализ позволяет извлечь статические сигнатуры, функции или паттерны из бинарных файлов без запуска. Это быстрый, безопасный и эффективный метод обнаружения известных образцов ВПО, который не требует привилегий ядра или использования виртуальной машины. Тем не менее, статический анализ имеет значительные ограничения: он не способен исследовать модификации ВПО, использующие обфускацию, и неэффективен против ВПО, использующего программы-упаковщики для сжатия и шифрования целевой нагрузки.

Динамический анализ, напротив, осуществляется посредством запуска вредоносного кода в контролируемой среде для наблюдения за его активностью. Это позволяет больше узнать о возможностях ВПО, идентифицировать уже известное ВПО или ВПО нулевого дня. Однако этот подход зачастую занимает больше времени. Динамический анализ также имеет ограничения в части отслеживания высокотехнологичного ВПО (например, бесфайловое ВПО, работающее непосредственно в оперативной памяти).

Соответственно, анализ памяти — это альтернативный метод выявления вредоносной активности бесфайлового ВПО путем изучения «снимков» оперативной памяти в процессе исполнения. Подозрительные файлы могут быть скрыты посредством шифрования или упаковки, однако все процессы отображаются в памяти при запуске ВПО. ВПО выдаёт важную информацию (например, логи, код и сегменты данных) о своём функционале, что делает возможным его обнаружение. Анализ памяти выявляет ВПО путём изучения его присутствия в оперативной памяти системы и идентификации бесфайлового ВПО, которое не оставляет следов на жёстком диске.

Гибридный анализ совмещает в себе несколько методов, что обеспечивает более высокую эффективность, чем каждый метод в отдельности.

3. Вредоносное ПО на разных типах платформ

Распространение цифровых технологий способствует росту количества угроз на разных типах платформ — ПК, мобильных устройствах, устройствах IoT и в облачных системах. Знание специфики подвергающихся атакам операционных систем или устройств имеет первостепенную важность для понимания поведения ВПО, так как оно часто эксплуатирует уязвимости, присущие конкретной системе. В данном исследовании понятия «платформа» и «операционная система» используются как синонимы, а подверженные атакам платформы делятся на четыре основные категории: компьютеры, мобильные устройства, устройства Интернета вещей и облачные системы. Каждая платформа имеет специфичные для неё уязвимости, векторы атаки и проблемы безопасности, что требует применения отдельных стратегий выявления и устранения угрозы. В данном разделе описывается общая ситуация с ВПО на указанных платформах, схематически представленная на рисунке 3.
Рис. 3. Классификация ВПО по типам платформ, подвергающихся атакам.

3.1. Компьютеры

Компьютеры являются основной целью ВПО, при этом различные типы ВПО эксплуатируют конкретные уязвимости в средах Windows, macOS и Linux. В исследовании рассматриваются ВПО, атакующие каждую из указанных операционных систем, подчёркиваются общие для всех угрозы, типичные векторы атаки и способы устранения угроз.

3.1.1. Windows

Системы на Windows остаются основной целью злоумышленников в силу широкой распространённости для личного и корпоративного использования. Их атакуют вирусы, черви, трояны, программы-вымогатели, шпионские программы, программы, показывающие рекламу, и руткиты, которые угрожают целостности системы и безопасности данных. Киберпреступники используют фишинговые письма, вредоносные сайты, уязвимости в ПО и заражение съёмных носителей. Более сложные методы (полиморфизм, обфускация и шифрование) позволяют избежать выявления обычными методами, поэтому для обнаружения таких угроз требуются адаптивные механизмы. Обширная экосистема ПО имеет большое число возможных точек входа для атаки. Хотя компания Microsoft использует свои инструменты безопасности, такие как Windows Defender и регулярные обновления, эффективность защиты зависит от бдительности пользователя и обновления систем. ВПО может нарушить работу Windows, украсть данные, вызвать сбой системы, нанести финансовый ущерб, то есть приводить к существенным негативным последствиям.

3.1.2. Linux

Linux вышел на первое место среди операционных систем в мультиоблачных средах, данная ОС обслуживает 78% сайтов во всем мире. Широта использования положительно повлияла на масштаб и сложность систем на базе Linux. ОС Linux поддерживает различные дистрибуции для разных видов аппаратного обеспечения, служит неотъемлемым элементом многих настольных устройств, подключённых к Интернету, и является частой мишенью хакеров. Рост числа атак на системы Linux связан с тем, что устройства IoT работают на фирменном ПО на базе Linux («умный дом», камеры видеонаблюдения и системы производственного контроля). Этим устройствам часто не хватает продуманной системы безопасности, что делает их уязвимыми для атак. Всё больше компаний переходит на серверы и сети на базе Linux, и хакеры всё чаще атакуют именно эти системы, рассчитывая увеличить свой доход. Исследование компании Trend Micro показывает, что 90% процессов в открытых облачных системах работают на Linux, что стимулирует хакеров на создание ВПО для Linux. В последнее время системы на базе Linux всё чаще подвергаются атакам. Согласно отчету об угрозах VMware, устройства сталкиваются с криптоджекингом, RAT-троянами, брутфорс-атаками SSH, веб-шеллами и программами-вымогателями. В отчёте об угрозах для Linux компании Trend Micro говорится, что количество атак на системы Linux с требованием выкупа выросло на 62% с 2022 по 2023 год. В частности, программа-вымогатель KillDisk атаковала финансовые организации, использовала фишинг и эксплуатировала устаревшие системы и ядра Linux. В отчёте также указано, что наиболее часто Linux атакуют эксплойты типа веб-шелл (49,6%) и троянские программы (29,4%), а бэкдоры и криптоджекеры встречаются реже. Для заражения веб-ресурсов злоумышленники, как правило, пользуются веб-уязвимостями и внедряют SQL-код, используют межсайтовое выполнение сценариев (XSS) и подделку запросов на стороне сервера (SSRF). Они также атаковали клонированные сайты, неправильно сконфигурированные файерволы и эксплуатировали уязвимости в протоколе SSH для поражения систем Linux.

3.1.3. macOS

Развитие угроз для системы macOS требует повышенной бдительности от пользователей и разработчиков. Несмотря на репутацию системы с высокой безопасностью, в 2022 году macOS по-прежнему была уязвима перед лицом кибератак. Уровень выявления ВПО на macOS вырос на 165%, что составляет 6,2% от общего роста всех угроз за прошлый год. В системе macOS используются такие средства безопасности, как XProtect и Gatekeeper, но они имеют свои ограничения. Сигнатурный метод обнаружения XProtect неэффективен против неизвестного или модифицированного ВПО, в нём также не хватает функции динамического сканирования. Gatekeeper блокирует неподписанные или вредоносные интернет-приложения, проверяет идентификатор разработчика и мониторит изменения после подписания. Тем не менее, хакеры могут обойти эти средства защиты, используя украденный идентификатор разработчика, а также используя безопасные приложения для запуска вредоносных кодов. Работа приложений в изолированной среде позволяет ограничить доступ к важным ресурсам системы, тем не менее, хакеры придумали способы обходить такие ограничения для получения несанкционированного доступа. Чаще всего macOS атакуют программы, показывающие рекламу, потенциально нежелательные программы, шпионские бэкдоры, RAT-трояны, похитители данных, вымогатели и ряд новых видов ВПО. Появляются и новые угрозы — например, AppleJeus, который в 2018 переключился с Windows на macOS, и впервые выявленный в 2019 году NukeSped, который работает как вымогатель, шпион и похититель данных. В 2022 году появился SquirtDanger — ВПО, атакующее устройства на macOS и обладающее усовершенствованными способностями избегать обнаружения. Распространённые векторы атак включают вредоносную рекламу, фишинговые письма, вредоносные ссылки и неисправленные уязвимости с уязвимостями в macOS, которые долго остаются незакрытыми.

3.2. Мобильные устройства

Распространение мобильных устройств, особенно смартфонов, сделало их главной мишенью злоумышленников. Разработчики вредоносного ПО чаще всего атакуют устройства на системах Android и iOS, которые лидируют на рынке мобильных операционных систем.

3.2.1. Android

Широкое распространение операционной системы Android на смартфонах, планшетах и устройствах IoT повысило её уязвимость перед лицом кибератак. Гибкость, экономичность и мощность устройств Android способствовали росту их популярности. На них работают интуитивно понятные сторонние приложения, которые доступны по всему миру через Интернет. Популярность Android сделала его частой мишенью кибератак. Согласно недавнему отчёту, в третьем квартале 2023 года было обнаружено более 438 тысяч установок пакетов вредоносного ПО на мобильные устройства, что на 19% выше, чем во втором квартале. Согласно другому отчёту, во втором квартале 2024 года устройства Android лидировали на мировом рынке мобильных устройств (71,65%), при этом доля устройств на iOS составляла 27,62%. Android подвергается таким типам атак, как кража учётных данных, нарушение конфиденциальности, банковское мошенничество, вымогательство, показ нежелательной рекламы и мошенничество по SMS. Разработка методов автоматического обнаружения ВПО на Android крайне важна для защиты системы и обеспечения конфиденциальности пользователей.

Android — это мобильная операционная система на базе Linux с открытым кодом, то есть её код доступен любому пользователю. Её архитектура состоит из слоёв: ядро, слой аппаратных абстракций, среда выполнения Android-приложений Android Runtime, библиотеки, инфраструктура приложений и приложения. Эти компоненты оптимизируют эффективность системы и производительность приложений. В системе Android есть такие механизмы защиты, как режим изолированной среды (песочница), разрешения и шифрование для защиты данных и обеспечения целостности приложений. Приложения Android работают в изолированных средах, при этом от пользователя зависят разрешения на использование таких ресурсов, как камера и Wi-Fi. Пользователям следует быть аккуратными с разрешениями, так как вредоносные приложения могут получить доступ к конфиденциальным ресурсам.

Безопасности мобильных устройств в значительной степени угрожают разные виды ВПО, такие как SMS-трояны, программы-вымогатели, программы, показывающие рекламу, бэкдоры, руткиты, шпионские программы, ботнеты и установщики. ВПО распространяется на мобильных устройствах через вредоносные ссылки в письмах или SMS-сообщениях, через заражённые приложения из Google Play Store, сторонние источники или заражённые сети Wi-Fi. Серьёзную уязвимость в ОС Android представляют сбор информации, выполнение кода, DoS-атаки, перегрузка, внедрение SQL-кода и повышение уровня доступа.

3.2.2. iOS

Операционная система iOS появилась в 2007 году на базе Unix. Она работает на устройствах компании Apple — например, iPhone и iPad — и занимает второе место в мире по распространённости среди мобильных ОС. Архитектура iOS включает четыре слоя: ядро ОС обрабатывает взаимодействие с аппаратными средствами, есть также основные службы, обеспечивающие защиту данных и их хранение, уровень медиа, обрабатывающий мультимедиа-файлы, и Cocoa Touch, который позволяет разрабатывать приложения и управлять пользовательским интерфейсом.

iOS имеет более сильную систему безопасности по сравнению с Android благодаря закрытому исходному коду и защите на уровне устройства (например, PIN-коды, возможность удалённой очистки), системным функциям (например, выделенная защищённая подсистема Secure Enclave и проверка загружаемых компонентов операционной системы) и обязательному шифрованию данных. Apple контролирует как аппаратное, так и программное обеспечение, усложняя взлом и получение несанкционированного доступа. Приложения изолированы для защиты от несанкционированного доступа, а шифрование защищает файлы с помощью аппаратных и программных ключей. iOS даёт большинство разрешений автоматически, сокращая участие в этом пользователя. Функция автоматического удаления данных после нескольких неудачных попыток введения кода доступа обеспечивает более высокий уровень безопасности, чем ОС Android. Согласно отчёту компании McAfee, к 2020 году количество ВПО, атакующих iOS, взлетело на 70%. Наиболее часто встречаются программы-вымогатели, шпионские программы, вирусы, трояны и программы, показывающие рекламу. Среди заметных инцидентов — атаки Pegasus, который эксплуатирует уязвимости нулевого дня с целью слежки, и внедрение шпионского LightSpy через заражённые новостные сайты. Серьёзный риск для пользователей iOS представляют такие уязвимости, как перегрузка памяти, удалённый запуск кода и утечка данных. Всё это подчёркивает необходимость улучшения защиты устройств.

3.3. Интернет вещей

Термин «Интернет вещей» (IoT) придумал Кевин Эштон (Kevin Ashton) в 1999 году для обозначения сети взаимосвязанных устройств, которые собирают данные и обмениваются ими через Интернет или другие сети. Интернет вещей включает устройства, датчики, сети, вычислительные ресурсы и программные устройства. Устройства IoT делятся на две категории: потребительские устройства IoT (персональные и носимые умные устройства) и промышленные устройства IoT, в том числе промышленное оборудование и устройства энергоснабжения.

Количество устройств IoT с каждым годом растет. По данным Statista, количество IoT-устройств по всему миру почти удвоится: с 15,9 миллиарда в 2023 до 32,1 миллиарда в 2030 году. К 2033 году Китай будет страной с наибольшим количеством устройств IoT, а это около восьми миллиардов потребительских устройств. Тем не менее, быстрый рост сферы Интернета вещей в сочетании с недостаточными мерами безопасности делают эти устройства основной мишенью злоумышленников. Отчеты Zscaler и ThreatLabz говорят о росте на 400% количества атак на устройства IoT. Если говорить о резонансных инцидентах (например, атака ботнетом Mirai в 2016 году), ВПО эксплуатирует слабые пароли и неисправленные уязвимости посредством DDoS-атак и эксфильтрации данных. ВПО, атакующее IoT, также пользуется другими уязвимостями, включая отсутствие обновлений ПО и средств безопасности, незащищённые сети, недостаток знаний пользователей о безопасности, уязвимости TCP/IP-стека и отсутствие шифрования. Современное ВПО, атакующее IoT, в том числе Okane, VPNFilter и Necurs, всё чаще использует для взлома устройств методы брутфорс, шпионские тактики и обнаружение виртуальных машин.

3.4. Облачные среды

Облачные вычисления позволяют получать удалённый доступ к вычислительным ресурсам — хранение, приложения, сети и серверы — через интернет-соединение. Соответственно, облачное вредоносное ПО — это кибератака на облачные платформы с помощью вредоносного кода или сервисов.
В облачных вычислениях доступно три типа сервисов: платформа как услуга (PaaS), ПО как услуга (SaaS) и инфраструктура как услуга (IaaS). PaaS предоставляет среду для программистов, где они могут разрабатывать, запускать и тестировать приложения. Примеры — Azure и Google App Engine. SaaS обеспечивает работу всех приложений в облачной среде — например, электронной почты и офисных программ. IaaS предоставляет аппаратные ресурсы, вычислительные мощности, функции хранения, серверы, сетевые устройства и виртуальные машины. Типичные виды атак на облачные среды — это DDoS-атаки, DoS-атаки на гипервизоры, гипервызовы (атака на гипервизор с целью получить контроль над облаком), гиперджекинг (когда злоумышленник получает контроль над виртуальной машиной), эксплуатация динамической миграции (перемещение виртуальной машины или приложения без отключения клиента из одного физического местоположения в другое), вымогатели, шпионские программы, бэкдоры, троянские программы и др.

4. Алгоритмы машинного обучения для обнаружения вредоносного ПО

В данном разделе представлен обзор различных алгоритмов машинного обучения, которые используются для обнаружения вредоносного ПО на различных платформах, включая традиционный подход, ансамблевое и глубокое обучение (см. таблицу 1).

Традиционные алгоритмы (SVM, KNN, DT) — это простой и эффективный способ классификации вредоносных и безопасных семплов. Ансамблевые методы (например, RF и градиентный бустинг) повышают точность и устойчивость защиты, совмещая в себе несколько моделей. Алгоритмы глубокого обучения, включая CNN и трансформеры, отлично обрабатывают сложные, высокоразмерные и последовательные данные о ВПО. GAN, трансферное обучение (TL) и подобные методы справляются с такими задачами, как ограниченный набор данных и извлечение признаков. Более того, развитие в последнее время технологий федеративного обучения (FL) и больших языковых моделей (LLM) может также способствовать повышению эффективности обнаружения вредоносного ПО.

Методы машинного обучения	Алгоритмы
Традиционные алгоритмы машинного обучения
Метод опорных векторов (SVM): данный метод использует гиперплоскость для максимального увеличения зазора между вредоносными и безопасными семплами, эффективен для высокоразмерных данных.	SVM
Метод k ближайших соседей (KNN): данный алгоритм классифицирует семплы по наиболее распространённому классу ближайших соседей, используя сходство признаков в качестве основного критерия.	KNN
Логистическая регрессия (LG): данный подход классифицирует ВПО, моделируя соотношение между признаками и бинарными событиями (вредоносными или безопасными) с помощью сигмоиды. Функция сигмоида преобразует входные значения в диапазон от 0 до 1, что идеально для толкования результатов как вероятностей. Метод используется для бинарной классификации, особенно в логистической регрессии и нейронных сетях.	LR
Наивный байесовский классификатор (NB): вероятностный подход с предположениями о независимости, эффективен для обнаружения текстового вредоносного ПО.	NB
Обучение дерева решений (DT): это метод обучения под наблюдением, который классифицирует данные путём построения древовидной модели. Процесс идентифицирует наиболее важные признаки и делит данные на подмножества на основе этих признаков для формирования узлов. Метод рекурсивно классифицирует каждый узел, пока не будет принято окончательное решение о его безопасности или вредоносности.	DT
Ансамблевые алгоритмы обучения
Метод случайного леса (RF): данный подход строит множество древовидных моделей принятия решений и собирает их результаты путем голосования большинства или усреднения, что повышает устойчивость и точность.	RF
Градиентный бустинг (напр., XGBoost, LightGBM): данный подход последовательно строит слабые модели, в частности, деревья решений, для минимизации ошибок, что повышает точность анализа структурированных данных о вредоносном ПО.	градиентный бустинг
	XGBoost
AdaBoost: данный метод основан на вызове семплов путем изменения весов в процессе обучения, при этом из комбинации слабых классификаторов создаётся более сильный.	AdaBoost
Бэггинг: данный метод случайным образом делит наборы данных на множество подмножеств (бутстрэпы) на основе семплов, каждый с уникальными семплами, а затем собирает результаты из моделей, обученных на этих подмножествах, для улучшения генерализации.
Алгоритмы глубокого обучения
Свёрточная нейронная сеть (CNN): данный метод эффективен для обнаружения вредоносного ПО в изображениях, благодаря использованию автоматического извлечения пространственных признаков из преобразованных вредоносных бинарных файлов.	CNN
Рекуррентная нейронная сеть (RNN): данный метод позволяет анализировать последовательные данные, включая цепочки API-запросов и паттерны опкода, для идентификации ВПО по типу активности.	RNN
Долгая краткосрочная память (LSTM): разновидность RNN, которая эффективно улавливает долгосрочные зависимости, особенно подходит для анализа временных рядов динамичных признаков ВПО.	LSTM
Управляемый рекуррентный блок (GRU): разновидность рекуррентной нейронной сети (RNN), созданная для обработки последовательных данных (например, временные ряды или текст). Данная модель более эффективна с точки зрения вычислений, чем LSTM, благодаря меньшему количеству параметров и отсутствию отдельного выходного гейта.	GRU
Генеративно-состязательная сеть (GAN): данный процесс генерирует синтетические семплы ВПО для аугментации данных, повышая эффективность систем обнаружения с ограниченными наборами данных.	GAN
Автокодировщик: это нейронные сети с обучением без учителя, которые используются для уменьшения размерности, извлечения признаков и выявления аномалий. Они изучают сжатую репрезентацию входных данных (шифрование) и затем восстанавливают их (расшифровка) как можно точнее.	VAE, Sparse, автокодировщик и т.д.
Трансформер (напр., BERT): это продвинутая архитектура глубоких нейронных сетей, основанная на механизмах внимания, создана для эффективной обработки последовательных или контекстуальных данных.	BERT
Трансферное обучение (TL): метод глубокого обучения, при котором модель, предварительно обученная на одной задаче или наборе данных, используется и настраивается для смежных, но отличных задач. Метод особенно эффективен для маленьких или однообразных целевых наборов данных.	предварительно обученные CNN — Inception, VGG, ResNet50 и др.
Многослойный перцептрон (MLP): вид искусственной нейронной сети, состоящий из множества слоёв узлов, обычно используется в задачах обучения под наблюдением — например, классификации и регрессии.	MLP
Федеративное обучение (FL) — это относительно новая AI-модель, в которой модели машинного обучения обучаются локально на оконечных устройствах (смартфоны, устройства Интернета вещей), без обмена сырыми данными. Вместо этого параметры и градиенты модели передаются глобальной модели, с целью сохранения конфиденциальности пользователя и повышения безопасности. Тем не менее, эффективность зависит от возможностей устройства и потерь пропускной способности.	—
Большие языковые модели (LLM): способность больших языковых моделей учитывать контекст позволяет выявлять трудно различимые закономерности, указывающие на вредоносную активность. Большие языковые модели помогают автоматизировать анализ угроз, повысить точность обнаружения и классифицировать ВПО.	GPT, BERT, ChatGPT-4, Claude

Таблица 1. Обзор алгоритмов машинного обучения, применяемых в различных исследованиях на различных платформах для обнаружения вредоносного ПО

В таблице 1 подчёркивается разнообразие методов машинного обучения для обнаружения вредоносного ПО. Результаты анализа таблицы отражены на рисунке 4, где подчёркиваются ключевые тенденции в развитии методов машинного обучения применительно к обнаружению ВПО.

Рис. 4. Виды алгоритмов и их доля в обнаружении вредоносного ПО.

Общие тенденции исследований алгоритмов машинного обучения для обнаружения вредоносного ПО на различных платформах
Таблица 1 и диаграмма показывают, что глубокое обучение лидирует среди методов обнаружения ВПО на разных платформах, при этом CNN и LSTM превосходно справляются с анализом данных на основе изображений и последовательным анализом. Традиционные методы машинного обучения (SVM, KNN) по-прежнему подходят для высокоразмерных задач на основе функций. Ансамблевые методы (например, метод случайного леса или градиентный бустинг) демонстрируют довольно высокую точность и генерализацию посредством агрегации моделей. Данные тенденции подчёркивают растущую популярность глубокого обучения, при этом признаётся комплементарность традиционных и ансамблевых моделей.

5. Выводы

В настоящем исследовании представлен комплексный обзор методов обнаружения вредоносного ПО на основе машинного обучения на разных видах платформ, с описанием специфики каждой платформы, тенденций изучения и конкретных проблем безопасности в силу свойственных каждой платформе уязвимостей, операционных ограничений и лимита ресурсов. Исследование показало, что, несмотря на значительные успехи в сфере выявления вредоносного ПО с помощью моделей машинного обучения, существующие решения всё ещё предназначены для конкретных платформ, что ограничивает их эффективность в противодействии кроссплатформенным угрозам. Более того, недостаток данных, способность злоумышленников избегать обнаружения, а также необходимость в интерпретируемых AI-моделях представляет сложности для применения в реальных условиях. Анализ опубликованных с 2017 года исследований показал высокую важность развития ападтивных механизмов кроссплатформенного обнаружения ВПО для борьбы с постоянно меняющимися угрозами. Также подчёркивается необходимость применения более продвинутых методов машинного обучения, таких как, например, нейронные сети (CNN и RNN), федеративное обучение при сохранении конфиденциальности, большие языковые модели и объяснимый AI, для повышения точности и интерпретируемости обнаружения. Облегчённые модели, настроенные под Интернет вещей с ограниченными ресурсами, и оконечные устройства также являются важным элементом эффективного применения во взаимосвязанных экосистемах. Киберпреступники всё чаще эксплуатируют уязвимости во взаимосвязанных системах, и данное исследование служит крайне важным ресурсом для улучшения сильных, интерпретируемых и кроссплатформенных систем обнаружения ВПО, чтобы успешно справляться с постоянным появлением новых и разнообразных киберугроз.

Об авторах:

Джаннатул Фердус, Рафикул Ислам, Араш Махбуби и Мохаммед Захидул Ислам

Факультет информационных технологий, математики и проектирования, Университет Чарльза Стерта, Олбери, Новый Южный Уэльс 2640, Австралия

Скачать статью: Методы машинного обучения в обнаружении вредоносного ПО