Технологии автоматической обработки текстов Примером

advertisement
Технологии автоматической обработки текстов
Примером успешно реализованного проекта коммерциализации является ТОО «Uniline
Group». Это динамично развивающаяся, перспективная компания работающая в сфере
информационных технологий. «Uniline Group» стремится к максимальной реализации тех
возможностей, которые открывают информационные технологии.
Сфера деятельности компании: Основным направлением деятельности компании является
объединение интеллектуальных, финансовых и иных ресурсов для проведения
фундаментальных, прикладных, стратегических научных исследований, разработки
технологических инноваций и подготовки высококвалифицированных специалистов в
области инфокоммуникационных технологий и методов управления сложными
системами.
Важным направлением, над которым ведётся работа в компании, является
«Автоматическая обработка текстов на казахском языке». В рамках данного направления
осуществлена разработка лексического и морфологического анализаторов казахских
текстов. Также осуществлено формирование и классификация лексической базы данных
казахского языка, которая на данный момент насчитывает порядка 150 тысяч лексических
единиц литературного казахского текста. Сформирован полный словарь казахских
аффиксов и осуществлена формализация правил словообразования на основе
аффиксальных
соединений.
Данный
процесс
алгоритмизирован
в
рамках
морфологического анализатора. В последствии на основе разработанных лексического и
морфологического анализаторов реализована система автоматической проверки
орфографии для казахских текстов, которая может быть встроена в текстовые офисные
пакеты.
В настоящее время ведётся интенсивная работа по созданию синтаксического и
семантического анализаторов. Данные анализаторы будут использованы при создании
систем интеллектуального поиска текстовой информации на казахском языке по её
смысловому содержанию. Также на их основе будет осуществлена реализация системы
автоматической проверки грамматических и синтаксических ошибок в казахских текстах.
Основные области применения технологий автоматической обработки текстов:

Системы извлечения знаний из текстов

Автоматическое реферирование текстов

Автоматическая классификация текстов

Машинный перевод (Каз-Англ. ; Каз-Рус);

Интеллектуально-поисковая система
В целях реализации поручения Президента РК о переводе казахской письменности нами
осуществлена реализация системы автоматического перевода казахских текстов с
кириллицы на латиницу.
Данные разработки будут способствовать расширению сферы применения казахского
языка на основе современных информационных технологий. Они могут использоваться в
делопроизводстве, web и мобильных приложениях, а также в облачных технологиях, что
будет способствовать повышению престижа государственного языка и повышению его
востребованности.
Download