ОТЗЫВ официального оппонента, к.т.н., доцента кафедры АСУ ТП МЭИ Волгина В.В. на диссертационную работу Некрасова Ивана Валериевича “Разработка и исследование метода классификации библиографической текстовой информации”, представленной на соискание ученой степени кандидата технических наук по специальности 05.13.01 – системный анализ, управление и обработка информации (энергетика, приборостроение, информатика, производственные процессы). 1. Актуальность темы диссертации Сеть Internet становится в настоящее время одним из основных источников информации. Однако, быстрый рост количества электронных документов приводит к тому, что поиск необходимых сведений превращается в трудоемкий и малоэффективный процесс. Это в полной мере относится и к публикациям на Internet-сайтах научнотехнических журналов и материалов конференций – важных компонент научнотехнического прогресса. Для разрешения указанной проблемы необходима разработка новых эффективных технологий классификации больших массивов документальной информации и соответствующих программных комплексов. Тема предлагаемой к защите диссертации, в которой разработан и исследован оригинальный метод классификации библиографической научно-технической информации, обеспечивающий малое время классификации при допустимой ошибке классификации, безусловно актуальна. 2. Научная новизна 2.1. На основе сравнительного анализа показано, что ни один из существующих методов классификации текстовой информации не способен обеспечивать одновременно малое время и малую ошибку классификации в сочетании с простотой и высокой скоростью обучения. 2.2. Разработан модифицированный метод ближайшего соседа (ММБС), являющийся модификацией метода ближайшего соседа (МБС) и использующий опорные точки для сокращения количества операций определения расстояния от нового документа до документов обучающей выборки. 2.3. Получена оценка количества вычислительных операций, необходимых для классификации текстовых документов с помощью разработанного метода и показано, что он требует значительно меньшего количества вычислительных операций (а, следовательно, и меньшего времени классификации) по сравнению с прототипом (методом ближайшего соседа). При этом ошибка классификации и время обучения увеличиваются несущественно. 3. Достоверность результатов работы Достоверность научных результатов обеспечивается применением теории вероятностей, математической статистики численных методов, векторного анализа. 4. Практическая ценность и реализация результатов работы 4.1. Разработан программный комплекс “СКАТ”, реализующий не только предложенный в работе модифицированный метод ближайшего соседа, но и ряд других, часто использующихся на практике методов метод k-ближайших соседей, наивный байесовский метод и метод центроидов, что позволяет сравнивать эти алгоритмы по времени и ошибке классификации, а также по времени обучения и дообучения. Модуль обновления базы данных статей позволяет использовать программный комплекс для автоматизации процесса отслеживания публикаций на Internet-сайтах научно-технических журналов по заданным пользователем предметным областям. 4.2. Разработанный комплекс внедрен в эксплуатацию в ФГУ НИИ РИНКЦЭ и используется для автоматического получения и классификации англоязычных публикаций по профильным научно-техническим тематикам с Internet-сайтов электронных издательств. 4.3. На основе ПК “СКАТ” разработан и внедрен в учебный процесс лабораторный практикум из трех лабораторных работ, предназначенный для обеспечения лекционного курса “Интеллектуальные информационные системы”, читаемого кафедрой Управления и Информатики МЭИ. 5. Апробация диссертации и публикации Материалы работы докладывались на трех международных конференциях “Информационные средства и технологии” и на четырех научных сессиях МИФИ. Основные результаты диссертации опубликованы в 11 печатных работах. 6. Замечания по диссертации 6.1. Используемые в работе вероятностные характеристики (вероятности событий, математические ожидания ошибок и др.) есть экспериментальные оценки неизвестных истинных характеристик и нуждаются в определении их точности и надежности. Эти вопросы в диссертации не рассматриваются. Так, например, на стр. 69 говорится, что “разработанный метод дает существенное сокращение времени классификации (в среднем в 91 раз)”. Разумеется, этой констатации недостаточно. О важности указанной проблемы свидетельствует и немонотонность графиков ошибки классификации от длины обучающей выборки на рис. 3.3. 6.2. Требует пояснения тезис на странице 17: “Задача классификации библиографических научно-технических документов является статистической, так как документ может одновременно принадлежать к нескольким предметным областям”. 6.3. В обзорах литературы автор иногда ограничивается только перечислением, не раскрывая сути упомянутых методов (факторный и компонентный анализ на стр. 30-31, редуцированные методы на стр. 56). Необходимости в таких ссылках нет. 6.4. Упомянутая на стр. 48 классификация документов на документы по техническим, прикладным и технологическим вопросам неудачна. 6.5. В изложении методов исследования более точным было бы указание на термин “векторный анализ”, а не на термин “линейная алгебра”. Новообразованный термин “вычислительная геометрия” следовало бы заменить классическим термином “аналитическая геометрия”. 6.6. Направление диссертационной работы очень актуально для науки в целом. В этом контексте был бы полезен хотя бы маленький пример по классификации текстовой информации нетехнической (например, биологической) природы. 7. Общая оценка диссертационной работы Диссертационная работа представляет собой решение новой актуальной научнотехнической задачи – автоматизации поиска и обработки научно-технической информации в Internet. Работа шире своего названия, ибо в ней проведены исследования и разработано программное обеспечение не только метода, предложенного диссертантом, но и других известных методов. Работа в целом и, в частности, - библиография свидетельствуют о глубокой эрудиции автора по теме диссертации и о его хорошей ориентации в этом новом направлении обработки информации. Научная и практическая ценность диссертации не вызывает сомнений. Автореферат и опубликованные работы адекватно отражают основные результаты диссертации. Диссертация соответствует специальности 05.13.01. В целом диссертационная работа удовлетворяет всем требованиям, предъявляемым к кандидатским диссертациям, а ее автор – Некрасов И.В. заслуживает присуждения ученой степени кандидата технических наук. Официальный оппонент, к.т.н., доцент Подпись Волгина В.В. удостоверяю: /Волгин В.В./