Борьба со спамом и машинное обучение

Как явление нежелательная массовая рассылка (спам) возникло ещё до появления электронной почты, но именно благодаря интернету оно приняло глобальные масштабы. Современные методы борьбы со спамом в корне отличаются от примитивных почтовых фильтров. В них используются технологии машинного обучения и методы глубокого анализа миллиардов писем, позволяющих изучать работу почтовых серверов как единый процесс. Ведущую роль в этом играют новые подходы к обработке «больших данных», реализованные в виде набора технологий, специфичных для каждого программного продукта.

Причины и масштабы спама

В отличие от бумажной корреспонденции, плата за каждое сообщение в сети отсутствует. Для спамера нет принципиальной разницы между тем, отправить сто писем или сто тысяч – была бы актуальная база адресов электронной почты. Её можно купить или собрать роботом по веб-форумам, а дальше рассылка не будет стоить ровным счётом ничего. Многие письма не дойдут до получателя, а большую часть из полученных – проигнорируют. Однако при разовых затратах на БД, минимальных рисках и колоссальных объёмах, прибыль приносит даже то малое количество людей, которое всё же отреагирует на рассылку.

Спам существовал всегда, но действительно массовыми рассылки стали только за счёт интернета.

Получается, что спам выгоден тем, кто его рассылает и тем, кому временное увеличение продаж важнее репутации. Например, если товар нельзя эффективно реализовать традиционным способом из-за его низкого качества или незаконного характера оборота. Больше всего от спама страдают даже не рядовые пользователи и частные предприниматели, а провайдеры и крупные организации.

Ежедневно в мире через почтовые серверы проходит свыше ста миллиардов писем. Более двух третей из них составляют нежелательные рассылки. Сходную оценку приводит Symantec и другие ведущие компании в сфере ИБ. На долю США приходится 13,4% всех спам-рассылок в мире, а Россия занимает «второе почётное место» с результатом 6%.

Эволюция методов борьбы со спамом

Поначалу бороться со спамом пытались с помощью составления простых фильтров – «чёрных» и «белых» списков ключевых слов. В первый попадали слова, характеризующие недобросовестного отправителя, тему массовой рассылки или текст рекламного сообщения. Во второй – адреса друзей и знакомых, чтобы их письма случайно не попали в категорию «спам». Эффективность таких фильтров была очень низкой, поскольку спамеры постоянно меняли темы сообщений, подставляли ложные адреса отправителя, использовали замену отдельных букв или просто делали вложение с картинкой вместо текста.

Простой отсев по ключевым словам был первой технологией фильтрации.

Поэтому на смену грубым методам отсева пришли вероятностные модели. В них уже не столько искались определённые слова, сколько оценивался шанс принадлежности письма к нежелательной рассылке сразу по многим признакам. Первые работы о фильтрации спама с использованием вероятностного классификатора, основанного на положениях Теоремы Байеса, появились в девяностых годах прошлого века. Такие алгоритмы помогали точнее определить риск принадлежности письма к нежелательной корреспонденции, сопоставляя его текст и метаданные с другими сообщениями.

Современные технологии фильтрации спама

Байесовская фильтрация спама стала предвестником целого ряда технологий обработки «больших данных», в которых повышение качества вероятностного анализа достигается за счёт использования накопленных статистических данных и другой взаимосвязанной информации. Спамеры адаптируют методики рассылки к новым способам её отсева, поэтому в чистом виде ни один алгоритм фильтрации долго не работает. Вместо этого провайдеры и фирмы, специализирующиеся на защите данных, развивают методы машинного обучения.

Именно технологии анализа "больших данных" позволили снизить долю спама в последнее время. — Именно технологии анализа «больших данных» позволили снизить долю спама в последнее время.

Высокую оценку роли технологий Big Data в развитии современных методов борьбы со спамом дали Виктор Майер-Шенбергер и Кеннет Кукьер – авторы книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим».

По сути, большие данные предназначены для прогнозирования. Обычно их описывают как часть компьютерной науки под названием «искусственный интеллект» (точнее, её раздел «машинное обучение»). Такая характеристика вводит в заблуждение, поскольку речь идет не о попытке «научить» компьютер «думать», как люди. Вместо этого рассматривается применение математических приемов к большому количеству данных для прогноза вероятностей, например, что электронное письмо является спамом.

Эти системы работают эффективно благодаря поступлению большого количества данных, на основе которых они могут строить свои прогнозы. Более того, системы спроектированы таким образом, чтобы со временем улучшаться за счет отслеживания самых полезных сигналов и моделей по мере поступления новых данных. Спам-фильтры разрабатываются с учетом автоматической адаптации к изменению типов нежелательных электронных писем, ведь программное обеспечение нельзя эффективно запрограммировать таким образом, чтобы блокировать слово «виагра» или бесконечное количество его вариантов.

Текущие методы интеллектуальной фильтрации используют одновременно два разных подхода. В первом из них повышение эффективности вероятностной оценки писем достигается за счёт добавления в базы данных большой выборки предварительно отсортированных вручную сообщений, относящихся к спаму, и обычной корреспонденции. Во втором случае ключевую роль играет расширенный статистический анализ с целью выявление закономерностей в самих рассылках.

Оба метода применяются в технологиях обработки «больших данных», но второй считается более перспективным. Он повышает точность распознавания, снижает количество ручных манипуляций и позволяет быстрее реагировать на новые методы навязчивой рекламы.

Визуальное представление почтового трафика в виде графа отражает характер переписки людей и наглядно показывает массовую рассылку.

Во всех современных решениях для борьбы со спамом применяется многоуровневая фильтрация, состоящая, как минимум, их этих двух этапов. Для обновления списков используется статистика, собранная по всему миру. Поэтому отсеивание писем по репутации на основе «чёрных» и «белых» списков IP-адресов – один из самых эффективных способов блокирования рассылки нежелательной корреспонденции. Он обеспечивает быструю реакцию и низкую нагрузку на систему антиспама. Ей не приходится принимать и обрабатывать каждое письмо – многие отсеиваются ещё на этапе соединения.

Противостояние спамеров и систем фильтрации сообщений относится к извечной проблеме щита и меча: они эволюционируют параллельно под влиянием друг друга. Однако с появлением технологий быстрого выявления рассылок по статистическому анализу больших выборок писем в этой борьбе наметился переломный этап. Доля спама в почтовом трафике стала снижаться и продолжает падать по мере внедрения провайдерами решений, основанных на методах Big Data.

За прошедший год количество спама в деловой корреспонденции впервые снизилось на три процента, или на целый миллиард рекламных писем в абсолютных значениях. Предварительные итоги этого года подтверждают дальнейшее очищение почтового трафика. Чем больше операторов связи и ИТ-отделов компаний будут использовать продвинутые методы фильтрации спама, тем сложнее станет его распространять. Окончательная победа произойдёт в тот момент, когда рассылку рекламы перестанут заказывать из-за резко упавшей результативности.