Определение категорий

advertisement
Разработка и реализация быстрых алгоритмов классификации текстов
опубликованных online.
Задача классификации текстов - одна из задач информационного
поиска, заключающаяся в отнесении документа к одной из нескольких
категорий на основании содержания документа.
Задача классификации документов является подзадачей задачи Data
Mining. Data Mining (добыча данных, интеллектуальный анализ данных) —
собирательное название, используемое для обозначения совокупности
методов
обнаружения
в данных ранее
неизвестных,
нетривиальных,
практически полезных и доступных интерпретации знаний, необходимых для
принятия решений в различных сферах человеческой деятельности. Термин
введён Григорием Пятецким-Шапиро в 1989 году.
Определения классификации:
Классификация - системное распределение изучаемых предметов,
явлений, процессов по родам, видам, типам, по каким-либо существенным
признакам для удобства их исследования; группировка исходных понятий и
расположение их в определенном порядке, отражающем степень этого
сходства.
Классификация - упорядоченное по некоторому принципу множество
объектов, которые имеют сходные классификационные признаки (одно или
несколько свойств), выбранных для определения сходства или различия
между этими объектами.
Существующие алгоритмы классификации текстов, которые чаще всего
используются:
 Ранжирование и четкая классификация;
 Метод Роше (Rocchio method);
 Деревья решений (Decision Tree);
 Метод опорных векторов (Support Vector Machine, SVM);
 Метод k-ближайших соседей (k-Nearest Neighbors, k-NN);
 Метод «случайный лес» (Random Forest);
 Метод Байеса (Naive Bayes).
Для решения задачи классификации текстов был выбран метод
частотного анализа. Частотный анализ основывается на предположении о
существовании нетривиального статистического распределения отдельных
слов и их последовательностей в тексте. Частотный анализ предполагает, что
частота появления заданного слова алфавита в достаточно длинных текстах
одна и та же для разных текстов одного языка.
Постановка задачи.
• Существует множество категорий;
• Существует множества текстов по каждой категории;
• Имеется текстовый файл;
• Необходимо определить категорию текстового файла.
Определение категорий
Анализ входящего текста
Сравнение и отнесение текста к
категории
Определение категорий
В
качестве
категорий
выступают
16
основных
деятельности Правительства Российской Федерации:
• Здравоохранение;
• Культура ;
• Природные ресурсы и экология;
• Внутренние дела (МВД);
• Иностранные дела (МИД);
• Образование и наука;
• Промышленность и торговля;
направлений
• Спорт;
• Связь и массовые коммуникации;
• Энергетика;
• Финансы;
• Транспорт;
• Труд и социальная защита;
• Сельское хозяйство;
• Оборона;
• Экономическое развитие.
В
качестве
текстов,
нормативно-правовые
акты
определяющих
Российской
категории,
Федерации,
используются
регулирующие
отношения в соответствующем направлении деятельности.
Таким образом, построение категорий
происходит на основании
нормативно-правовых актов Российской Федерации.
Нормативно-правовой акт.
• официальный документ установленной формы, принятый в пределах
компетенции
уполномоченного
государственного
соблюдением
установленной
законодательством
органа
с
процедуры,
содержащий общеобязательные правила поведения, рассчитанные на
неопределённый круг лиц и неоднократное применение;
• имеют определённый вид и облекаются в документальную форму;
• составляются по правилам юридической техники;
• нормативные правовые акты, действующие в стране, образуют единую
систему.
Определение категорий происходит в соответствии с выборкой
нормативно-правовых актов, относящихся к соответствующим категориям.
Постано
вления
Законы
Прика
зы
ФОИВ
ов
Определенная категория
Анализ входящего текста
 Исключение частиц, предлогов, местоимений и слов длинной менее
трех символов
 Нормализация слов
 Определение частоты появления каждого слова в тексте
Исключение
«лишних» слов
Нормализация
Определение
частоты
Сравнение
• Используется метод частотного анализа;
• Каждая категория – список слов с соответствующими частотами
вхождения;
• Определяется вес каждого слова во входящем текстовом файле;
• Сравнение происходит при совпадении более пяти слов.
Алгоритм сравнения
• X – функция соответствия
• a – отношение числа вхождения слова к общему количеству слов
• b - инверсия частоты, с которой слово встречается в документах
категорий
• D - количество документов в категории
• n – количество документов, в которых встречается слово
Используемые средства
• В качестве программных средств для решения задачи были выбраны
язык Java и средства разработки Eclipse;
• Для хранения и обработки текстовой информации необходимы база
данных и СУБД. База данных MySQL имеет хорошие показатели
быстродействия, но ограничена в создании очень больших БД.
Поскольку потенциально объём словарей лингвистической БД может
быть очень большим, была выбрана СУБД MS SQL Server.
Список литературы
• Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An
Introduction to Information Retrieval Draft
• Chisholm E., Kolda T. G. New term weighting formulas for the vector space
method in information retrieval. Technical Report Number ORNL-TM13756, Oak Ridge National Laboratory, Oak Ridge, TN, March 1999
• Lan M. (2007) A New Term Weighting Method for Text Categorization. PhD
Theses
• F. Sebastiani. Machine Learning in Automated Text Categorization
• Дюк В., Самойленко А. Data Mining
• Lancaster, F. W. (2003). Indexing and abstracting in theory and practice.
Library Association, London
•
Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques
• Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools
and Techniques with Java Implementations
• Large Scale Hierarchical Text classification (LSHTC) Pascal Challenge
http://lshtc.iit.demokritos.gr/
• Xiao-Lin Wang, Bao-Liang Lu. Improved Hierarchical SVMs for Largescale Hierarchical Text Classification Challenge
• Masand B., Linoff G., Waltz D. Classifying news stories using memorybased reasoning. Proceedings of SIGIR-92, 15th ACM International
Conference on Research and Development in Information Retrieval,
Copenhagen, Denmark, 1992, pp. 59–65
• Salton G., Buckley C. (1988), Term-weighting approaches in automatic text
retrieval, Information Processing & Management, Vol. 24, no. 5, pp. 513–
523
• Дунаев Е. В. Автоматическая рубрикация web-страниц в интернеткаталоге с иерархической структурой / Е. В. Дунаев, А. А. Шелестов //
Интернет-математика 2005. Автоматическая обработка веб-данных. М., 2005. - С. 382-398
• Dumais S., Platt J,, Heckerman D., Sahami M. Inductive learning algorithms
and representations for text categorization. // In Proc. Int. Conf. on Inform.
and Knowledge Manage., 1998
Download