ОПРЕДЕЛЕНИЕ ЧАСТЕЙ РЕЧИ ПРИ ПОМОЩИ НЕЙРОННОЙ СЕТИ 2014 Ерёмин Н. С.

advertisement
ОПРЕДЕЛЕНИЕ ЧАСТЕЙ РЕЧИ ПРИ
ПОМОЩИ НЕЙРОННОЙ СЕТИ
Ерёмин Н. С.
2014
ПОСТАНОВКА ЗАДАЧИ
• Изучение и реализация алгоритмов машинного
морфологического анализа.
• Обучение нейронной сети реализованному
алгоритму морфологического анализа.
*
ОПРЕДЕЛЕНИЕ ЧАСТИ РЕЧИ
• Как это делает человек:



Знает это слово.
Проводит аналогию с известными ему словами.
Опираясь на предыдущее слово в предложении.
*
ОПРЕДЕЛЕНИЕ ЧАСТИ РЕЧИ
• Как это может делать машина:
 Опираясь на словарь основ сформированный и
обновляемый вручную.
ИЛИ
 Опираясь на обучающую выборку сформировать
алгоритм определения частей речи.
*
НЕЙРОННАЯ СЕТЬ
*
МЕТОД ОБУЧЕНИЯ SVM
 Это наиболее быстрый метод нахождения
решающих функций.
 Находит разделяющую полосу максимальной
ширины, что позволяет в дальнейшем осуществлять
более уверенную классификацию.
ЗАДЕЙСТВОВАННЫЙ
ИНСТРУМЕНТАРИЙ
• Библиотека LIBLINEAR.
• Национальный корпус русского языка.
*
РАЗРАБОТКА АНАЛИЗАТОРА
1. Формирование выборки из ресурсов Национального
корпуса русского языка.
Размеченное предложение:
<se>
<w><ana lex="вот" gr="PART"></ana>Вот</w>
<w><ana lex="так" gr="ADV-PRO"></ana>так</w>,
<w><ana lex="за" gr="PR"></ana>з`а</w>
<w><ana lex="пять" gr="NUM=acc"></ana>пять</w>
<w><ana lex="минута" gr="S,f,inan=pl,gen"></ana>мин`ут</w>
<w><ana lex="до" gr="PR"></ana>до</w>
<w><ana lex="съемка" gr="S,f,inan=pl,gen"></ana>съёмок</w>
<w><ana lex="родиться" gr="V,pf,intr,med=m,sg,praet,indic"></ana>род`илс`я</w>
<w><ana lex="новый" gr="A=m,sg,nom,plen"></ana>н`овый</w>
<w><ana lex="персонаж" gr="S,m,anim=sg,nom"></ana>персон`аж</w>
</se>
*
РАЗРАБОТКА АНАЛИЗАТОРА
2. Создание нейронной сети.
3. Обучение сети средствами LIBLINEAR.
ФУНКЦИОНИРОВАНИЕ АНАЛИЗАТОРА
*
РАЗВИТИЕ ИДЕИ
• Расширение возможностей анализатора.
• Использование анализатора в составе более
сложных приложений.
*
ЗАКЛЮЧЕНИЕ
• Изучены методы морфологического анализа
• Реализован алгоритм частеречной разметки
*
Download