ПОСТРОЕНИЕ СЕТЕВОЙ МОДЕЛИ НОВОСТНОГО ВЕБ-КОНТЕНТА С ИСПОЛЬЗОВАНИЕМ МЕТОДА ДЛЯ ОПРЕДЕЛЕНИЯ ПЛАГИАТА Вечур Александр Владимирович, Ляпота Виталий Николаевич, Суяргулова Евгения Басировна Харьковский национальный университет радиоэлектроники Харьков, Украина [email protected] Исследования данной работы посвящены структурированию новостного веб-контента. Для решения поставленной задачи используются методы TextMining и кластеризации. При современных объемах новостного контента разделения новостных сообщений в соответствии с освещаемыми ими событиями оказывается не достаточно для удобной навигации пользователя по новостному контенту. В связи с этим актуальность приобрели разработки связанные с более совершенной обработкой новостного веб-контента. В их число входят фильтры, очищающие контент от не несущих дополнительной информации сообщений [1]. Так же к ним относятся и системы формирования новостных выпусков, выполняющие ранжирование как новостных сообщений посвященных одному и тому же событию, так и различных событий, таким образом, чтоб пользователь мог сразу увидеть наиболее интересные сообщения о наиболее важных и актуальных событиях [2]. Целью данной работы является предложить метод автоматической обработки текстов новостных сообщений, расширяющий возможности создания систем гибкого и удобного для пользователя просмотра новостного веб-контента. Задача данной статьи: оценить пригодность предлагаемой сетевой модели новостного контента для решения классической задачи кластеризации новостей. В данной работе предлагается использовать методику поиска плагиата (описанную в [3]) для построения сетевой структуры новостного web-контента. Так же проводится сравнительный анализ применения этой методики и кластеризации новостного webконтента с помощью одной из модификаций алгоритма CMU (описанной в [4]). Подходы сравниваются по результатам обработки новостных сообщений из коллекции ROMIP. Оба метода обработки новостного web-контента используют стеминг текстов новостных сообщений, а для сравнения текстов к результатам стеминга применяется метрика TF*IDF, что дает основания для сравнения этих методов. Для сравнения подходов к сетевой структуре, полученной в результате применения метода поиска плагиата, применяется метод кластеризации аналогичный методу применяемому в [4]. Проведенный эксперимент показал некоторое преимущество применения методики поиска плагиата описанной в [3] перед алгоритмом описанным в [4]. Кроме того, что предлагаемая в работе методика построения сети новостных сообщений может быть применена в качестве предварительного этапа для классической кластеризации новостных сообщений, она может служить предобработкой для множества других способов структурирования новостного web-контента, основанных на анализе представляющей его сети. В работе предлагается представление новостного веб-контента в виде сети узлами, которой являются сообщения, а связями тематическая схожесть их частей. Сеть построена по методологии поиска плагиата. Проводится сравнение возможной кластеризации новостей представленных в виде узлов полученной сети с кластеризацией тех же новостей полученной с помощью одной из модификаций алгоритма CMU. Предлагаемая сеть призвана обеспечить гибкую навигацию по новостному веб-контенту, и является альтернативным способом его структурирования. Литература 1. Ландэ Д.В. Подход к выявлению дублирования сообщений в новостных информационных потоках. Труды Восьмой Всероссийской научной конференции (RDCL’2006). - С. 115-119 2. Зевайкин А.Н., Формирование выпуска новостей на основе автоматического анализа новостных сообщений. Сборник работ научных стипендиатов Яндекс ИнтернетМатематика 2005, Ярославль, 2005 3. Antonio Si, Hong Va Leong, Rynson W. H. Lan. CHECK: A Document Plagiarism Detection System [Электронный ресурс: http://www.cs.cityu.edu.hk/~rynson/papers/sac97.pdf] Заглавие с экрана, доступ свободный. 4. Вечур А.В., Суяргулова Е.Б. Модернизация расчета центроидов в алгоритме CMU. Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2007-2008. Санкт-Петербург: НУ ЦСИ, 2008, 258с.