УДК 004 (06) Информационные технологии Е.В. КАПИТОНОВА Научный руководитель – М.Г. ЮШКЕТОВ, к.т.н., доцент Московский инженерно-физический институт (государственный университет) ИСПОЛЬЗОВАНИЕ АЛГОРИТМОВ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ДЛЯ СТАТИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ Рассматриваются вопросы проектирования и реализации программного комплекса для статистического анализа текстов с использованием СУБД MS Access и приложения на C#/C++/Visual Basic .NET с использованием технологий DAO, XML/XSLT. Задача статистического анализа текстовых данных рассматривается в контексте ее решения для автоматизации перевода текстов на другие языки. Задача включает в себя следующие подзадачи: 1. Разбиение текста на сегменты (абзацы, предложения, словосочетания, отдельные слова) для перевода[5] 2. Определение количества точных совпадений сегментов в тексте с сохраненными данными предыдущих переводов. 3. Распределение текстовых сегментов по диапазонам в соответствии с процентным совпадением с базой переводов 4. Поиск повторяющихся сегментов в переводимом тексте (как полных дубликатов, так и различающихся лишь суффиксами и префиксами) 5. Определение количества сегментов, совпадающих с базой переводов с учетом контекста (последовательные совпадения 3-х и более сегментов) Алгоритм распределения сегментов по категориям представлен на следующей схеме Текстовые сегменты могут поступать в программу с уже предопределенными статусами, на основе которых определяется принадлежность сегмента к категории. В противном случае (когда статус не установлен) для его определения используется алгоритм Левенштейна[5] (определение различия двух строк текста на основе количества элементарных текстовых операций необходимых для преобразования одной строки в другую). В результате работы алгоритма распределения формируется единый отчет, включающий все категории текстовых сегментов, а также содержащий абсолютные и относительные данные по распределению текста. Программное обеспечение для реализации описанных алгоритмов разрабатывалось с применением следующих технологий 1. C++[4] – для отрисовки сложного пользовательского интерфейса, связанного с отображением сегментов и их статусов 2. C# – для загрузки результатов работы в онлайновое хранилище 3. MS Access[1] – для хранения текстовых сегментов, связанной с ними метаинформации и базы переводов 4. Visual Basic .NET[2, 3] – для разработки алгоритмов расчета и отрисовки базового пользовательского интерфейса 5. XML/XSLT[2] – для преобразования полученных данных в удобную отчетную форму Список литературы _______________________________________________________________________ ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 16 1 УДК 004 (06) Информационные технологии 1. 2. 3. 4. 5. Моисеенко С.И., Соболь Б.В., Разработка приложений в MS Access. М.: Вильямс, 2006. Symmonds N. Internationalization and Localization Using Microsoft .NET. Apress, 2002. Крейг Атли. Visual Basic .NET для программистов. М.: ДМК пресс, 2002. Солтер Н. C++ для профессионалов. М.: Диалектика, Вильямс, 2006. Lunde K. CJKV Information Processing. O’Reilly, 1999. _______________________________________________________________________ ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 16 2