Использование алгоритмов автоматической обработки для

реклама
УДК 004 (06) Информационные технологии
Е.В. КАПИТОНОВА
Научный руководитель – М.Г. ЮШКЕТОВ, к.т.н., доцент
Московский инженерно-физический институт (государственный университет)
ИСПОЛЬЗОВАНИЕ АЛГОРИТМОВ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ДЛЯ
СТАТИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ
Рассматриваются вопросы проектирования и реализации программного комплекса для статистического анализа
текстов с использованием СУБД MS Access и приложения на C#/C++/Visual Basic .NET с использованием технологий
DAO, XML/XSLT.
Задача статистического анализа текстовых данных рассматривается в контексте ее решения для
автоматизации перевода текстов на другие языки. Задача включает в себя следующие подзадачи:
1. Разбиение текста на сегменты (абзацы, предложения, словосочетания, отдельные слова) для
перевода[5]
2. Определение количества точных совпадений сегментов в тексте с сохраненными данными
предыдущих переводов.
3. Распределение текстовых сегментов по диапазонам в соответствии с процентным совпадением с базой
переводов
4. Поиск повторяющихся сегментов в переводимом тексте (как полных дубликатов, так и
различающихся лишь суффиксами и префиксами)
5. Определение количества сегментов, совпадающих с базой переводов с учетом контекста
(последовательные совпадения 3-х и более сегментов)
Алгоритм распределения сегментов по категориям представлен на следующей схеме
Текстовые сегменты могут поступать в программу с уже предопределенными статусами, на основе
которых определяется принадлежность сегмента к категории. В противном случае (когда статус не
установлен) для его определения используется алгоритм Левенштейна[5] (определение различия двух строк
текста на основе количества элементарных текстовых операций необходимых для преобразования одной
строки в другую).
В результате работы алгоритма распределения формируется единый отчет, включающий все категории
текстовых сегментов, а также содержащий абсолютные и относительные данные по распределению текста.
Программное обеспечение для реализации описанных алгоритмов разрабатывалось с применением
следующих технологий
1. C++[4] – для отрисовки сложного пользовательского интерфейса, связанного с отображением сегментов
и их статусов
2. C# – для загрузки результатов работы в онлайновое хранилище
3. MS Access[1] – для хранения текстовых сегментов, связанной с ними метаинформации и базы переводов
4. Visual Basic .NET[2, 3] – для разработки алгоритмов расчета и отрисовки базового пользовательского
интерфейса
5. XML/XSLT[2] – для преобразования полученных данных в удобную отчетную форму
Список литературы
_______________________________________________________________________
ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 16
1
УДК 004 (06) Информационные технологии
1.
2.
3.
4.
5.
Моисеенко С.И., Соболь Б.В., Разработка приложений в MS Access. М.: Вильямс, 2006.
Symmonds N. Internationalization and Localization Using Microsoft .NET. Apress, 2002.
Крейг Атли. Visual Basic .NET для программистов. М.: ДМК пресс, 2002.
Солтер Н. C++ для профессионалов. М.: Диалектика, Вильямс, 2006.
Lunde K. CJKV Information Processing. O’Reilly, 1999.
_______________________________________________________________________
ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 16
2
Скачать