Распределенные системы обнаружения спама Существующие решения и перспективы Алексей Тутубалин ЗАО «Ашманов и Партнеры» Определения Спам (спам-рассылка) – массовая анонимная незапрошенная рассылка электронной почты Легальная рассылка - рассылка электронной почты, произведенная по запросу ее получателей Обычная (легальная) электронная почта - обмен не массовыми сообщениями между пользователями и/или автоматическими системами Обнаружение спама – синоним для «борьбы со спамом» Популярные способы обнаружения спама Черные списки IP-адресов (RBL и ведущиеся вручную) Анализ технической информации сообщения Анализ тела сообщения (контентный анализ) методами лингвистики, либо статистики Системы с квитированием Отказ (частичный отказ) от E-mail Большинство методов рассматривают сообщение отдельно от общего контекста. Накопление данных если и ведется, то локально - в рамках одного списка либо почтовой системы Свойства спам-рассылок Распределенность - рассылки производятся со многих IP-адресов «Персонализация» - каждое отдельное сообщение уникально Мимикрия – техническая информация максимально похожа на легальную Свойства спам-рассылок (2) Сообщения содержат рекламу от заказчика рассылки и не могут содержать слишком много другого текста Сообщения должны быть читаемы получателем без напряжения Уникальность сообщений обеспечивается машинным путем, сообщения в одной рассылке похожи друг на друга Распределенные антиспам-системы Сбор информации о происходящих сейчас рассылках из максимально-возможного количества точек в сети Быстрая централизованная или распределенная обработка Максимально быстрая доступность информации об идущих рассылках Имеющиеся на сегодня системы принципиально отличаются методами сбора данных, остальные их свойства похожи. Методы сбора данных Ловушки (honeypots) – E-mail адреса, предназначенные только для приема спама Голосование пользователей Анализ всей проходящей почты Каждый из методов используют 1-2 лидера в данной области. Системы небольшого размера неэффективны и не выживают (исключение – антиспам-системы на крупных почтовых сервисах, таких как Яndex.Почта, Mail.RU и т.д) Системы с ловушками почты Сбор спама в заранее созданные и «засвеченные» (известные спамерам) почтовые ящики. Обработка – составление сигнатур, образцов спама и т.п. Передача результатов обработки пользователям для использования при анализе почты. Два лидера: BrightMail и MessageLabs; сети с похожими характеристиками (около 1 млн. адресов для сбора, похожие методы обработки сообщений). Голосование пользователей Почтовая система рассчитывает сигнатуру принятого письма, передает ее на сервер системы, получает ответ – спам это или нет. Пользователь, получивший спам, может проголосовать «против» него (передав сигнатуру сообщения на сервер). Сигнатура, получившая много голосов, считается спамом, все сообщения с такой сигнатурой – тоже спам. Лидер: Razor/SpamNet (Cloudmark). Альтернативная система Pyzor – не развивается и не имеет большого охвата Razor/SpamNet Бесплатное ПО для UNIX и бесплатное право на его использование Платная подписка для Windows-клиентов (серверное и клиентское ПО) ~600000 голосующих пользователей ~100 млн. обрабатываемых сообщений в сутки Рейтинги доверия к голосующим клиентам Уровень обнаружения российского спама невысок – порядка 10%, что объясняется малой распространенностью метода в Рунете, соответственно малым числом голосов. Анализ всей транзитной почты Подсчет сигнатур для всех сообщений Передача сигнатур на сервер системы, получение в ответ данных о частотности Частотные сообщения считаются массовой рассылкой Невозможно отличить легальные рассылки от спама – необходимы белые списки принимаемых легальных рассылок Система DCC Распределенная система сбора статистики по почте Обрабатывается вся транзитная почта Бесплатное ПО в открытых кодах ~40 млн. «уникальных» сообщений в сутки (с учетом повторяемости – порядка 100 млн.) Дополнительный механизм голосований, похожий на Razor/SpamNet Уровень обнаружения российского спама – около 25% при отсутствии ложных срабатываний (по тестам автора доклада). Возможности компрометации Ухудшение качества работы. Может быть результатом «персонализации» спама Может быть результатом не попадания спама в систему сбора. Увеличение доли ложных срабатываний Может быть результатом попадания в систему сбора сообщений, которые не являются спамом. Потенциально возможно для всех распределенных систем. Проблемы распределенных систем «Персонализация» спама – добавление мусора, HTML-трюки и т.п. Пути решения – использование аппарата поиска схожих текстов, возможно с выделением частотных, либо словарных слов. Ложные срабатывания Пути решения – создание белых списков легальных массовых рассылок, возможно – массовое внедрение авторизации при проведении легальных рассылок Пути развития распределенных систем Распределенные системы анализа спама накапливают огромный объем данных, которые могут быть использованы для: Автоматического построения черных списков IP-адресов Анализ активности отдельных машин, рассылающих спам. Построение spam-patterns Анализ вариаций текста внутри одной рассылки Оборотная сторона – потенциальная возможность использования накапливаемых данных во вред. Чтобы этого избежать, данные о персональной не-массовой почте накапливаться не должны. Спасибо за внимание Пожалуйста задавайте вопросы