Автоматизированный анализ судебных документов

advertisement
Задача поиска неточностей в
электронной коллекции
судебных актов
Рогов А.А., Сидоров Ю.В., Бурлак И.Л.
Петрозаводский государственный университит
Структура Арбитражных судов РФ

Арбитражные суды субъектов федерации

Арбитражные апелляционные суды

Федеральные арбитражные суды округов

Высший арбитражный суд Российской
Федерации
Виды судебных документов
 Судебные
определения
 Судебные
решения
 Судебные
постановления
Сайты



Арбитражный суд РК
Высший арбитражный суд
Российской Федерации
Петрозаводский городской суд
Судебное решение
Структура судебного решения
Решение состоит из:

Вводная часть - набор атрибутов дела (номер
дела, судья)

Описательная и мотивировочная части - набор
фактов в текстовом виде (начинается со слов
«установил: …»)

Резолютивная часть или судебное решение
(начинается со слов «Решил: …»)
Особенности

Наличие определенной структуры
построения всего текста и отдельных
предложений

Ограниченность языка и возможность
использования словаря судебных
терминов

2 основных субъекта отношений

Возможен анализ текста при помощи базы
статей кодекса (КоАП, АПК)
Цель работы: Разработать алгоритм(ы) проверки
корректности отнесения того или иного судебного
акта к определенной категории спора (классу) и
проверки однозначности решений похожих дел.
Категории судебных споров:
 Агентирование
 Административная ответственность
 Аренда
 Банкротство
 Залог
 Заем
 …
Для решения поставленной задачи требуется
реализовать прототип программного продукта,
который будет обладать следующим функционалом:
o Поиск в банках судебных решений
(http://ras.arbitr.ru)
o Предварительная обработка
o Извлечение информации
o Применения алгоритмов анализа текста
o Интерпретация полученных результатов
Предварительная обработка

Определение частей документа

Удаление стоп-слов

Стэмминг

Приведение к НФ

Выделение ключевых слов на основе
судебного словаря

Выделение номеров статей кодекса
Задача классификации





Множество категорий: C  {c1 ,..., c|C|}
Множество документов: D  {d1 ,..., d|D|}
Неизвестная целевая функция  : C  D  {0,1}
Некоторая начальная коллекция R  C  D
размеченных документов
разделена на обучающую и проверочную
выборки
Необходимо построить классификатор Ф’,
максимально близкий к Ф
Классификация на основе словаря.
Уменьшение размерности.




Отбрасываются служебные слова
Вместо отдельных слов брать группы слов
и словосочетания
Отбрасываются «непоказательные» слова
Использовать только судебный словарь
Индексация документов


Каждый текст представляется как вектор термов: Ti =
{w1, w2, …, wn}
wi – частота (или количество) встречаемости или вес
слова (TF * IDF)
категория / слово
Слово 1
Слово 2
Слово 3
Агентирование
0.2
0.5
0.1
Административная 0
ответственность
0.3
0.1
Аренда
0.2
0.15
…
0.1
…
Байесовский классификатор
Категория 1 Категория 2
Категория 3
Категория 4 Категория 5
Процент
правильного
определения
(%)
80
60
80
60
40
Классификация на основе статей
Частотная матрица
категория / статья
Статья 1
Статья 2
Статья 3
Агентирование
0.2
0.5
0.1
Административная 0
ответственность
0.3
0.1
Аренда
0.2
0.15
…
0.1
…
Смешанная классификация
Классификация и на основе словаря и на
основе статей (задавая весовые
коэффициенты между обоими вариантами
классификации).
Варианты формализации похожих
судебных решений
Фактологическая
часть
судебного
решения
Факт 1
Факт 2
Факт 3
….
Факт N
Подходы
Fi , j определяется
g ( Fi , j ) - мера вины
Ni
Тогда
g ( Di )   g ( Fi , j )
j 1
g(Di) – общая мера вины по делу Di
Спасибо за внимание
Download