Повышение качества результатов анонимного интернет

advertisement
Повышение качества результатов
анонимного интернет-голосования на
основе анализа сетевых объектов
Студеникин Роман
Науч.рук. Гамаюнов Денис
Введение
Отношение количества голосов от
уникальных пользователей к общему
количеству голосов.
Чем этот показатель выше, тем лучше.


Повышение качества результата интернетголосования – исключение повторных
голосов от одного и того же пользователя.
Существующие методы

Исключить голоса программных роботов
–
–
–


Скорость передвижения по страницам
Отсутствие движений мыши
Тесты «на человечность»
Статистический анализ голосов по IPадресам.
Использование Cookies.
Анализ по IP-адресам

Достоинства
–

Не зависит от используемых пользователем
веб-браузеров и их настроек.
Недостатки
–
–
Неустойчив против пользователей с
динамическим IP.
Не отличает пользователей различных
устройств, видимых под одним IP.
Использование Cookies

Достоинства
–

Устойчив против пользователей с
динамическим IP.
Недостатки
–
–
Зависит от используемых пользователем веббраузеров и их настроек.
Cookies легко уничтожить, подделать, или
украсть.
Предлагаемый метод

Определения
–
–
Сетевой объект – набор(пользователь,
аппаратные средства, операционная система,
прикладные программы пользователя).
Профиль объекта – область в пространстве
значений параметров, характеризующих
объект.
Предлагаемый метод


Гипотеза: Сетевой объект – идеальная
единица для анализа.
Использовать для анализа только те
параметры, которые характеризуют
сетевой объект.
Постановка задачи

Необходимо:
–
–
–
–
Исследовать, какие параметры можно
получить удаленно.
Реализовать систему сбора профилей.
Получить тестовую выборку.
Провести эксперимент и выявить достоинства
и недостатки метода.
HTTP-сессия и модель TCP/IP:

Физический
–
Time skew

Канальный уровень

Сетевой уровень
–

Транспортный уровень
–

IP-адресация.
Установление TCP-соединения.
Прикладной уровень
–
–
–
GET(POST)-запрос
HTTP ответ.
Отображение страницы
Доступные параметры

Сетевой уровень
–

Транспортный уровень
–

IP-адрес
Различия в реализации протокола TCP*
Прикладной уровень
–
UserAgent*, Cookies, JavaScript*
* параметры, помеченные звездочкой характеризуют сетевой объект.
Система сбора профилей



Система реализована на языке Ruby On
Rails и установлена на сервере aquarius
лаборатории ЛВК.
Профили хранятся в БД mysql.
Система легко расширяется новыми
параметрами.
Архитектура системы
Time,
TCP-fingerprint
connect
p0f
LOG
Web-Server
TCP-fingerprint
Query,
UserAgent,
JS params
Web-Application
Profile vector
mysql
Тестовая выборка


Собраны профили 164 пользователей.
Планируется каждому из параметров
сопоставить некоторый вес.
–
–

Вес меньше, если параметр часто изменяется.
Вес меньше, если такое значение параметра
встречается у многих пользователей.
Учитывая найденные веса определить
функцию близости двух профилей.
Проведение эксперимента


При помощи значений параметров из
профилей, все пользователи будут разделены
на группы.
Планируется получить следующие значения:
–
–
–
Точность определения группы пользователя,
Количество групп,
Распределение пользователей по группам.
Перспективы использования

Метод разделения всех пользователей на
группы может быть использован для:
–

статистического анализа результатов
голосования.
Возможно, этот же метод применим к
системам контекстной рекламы для
определения склика на стороне
рекламодателя.
Download