Автоматизированный анализ судебных документов

Задача поиска неточностей в электронной коллекции судебных актов Рогов А.А., Сидоров Ю.В., Бурлак И.Л. Петрозаводский государственный университит Структура Арбитражных судов РФ  Арбитражные суды субъектов федерации  Арбитражные апелляционные суды  Федеральные арбитражные суды округов  Высший арбитражный суд Российской Федерации Виды судебных документов  Судебные определения  Судебные решения  Судебные постановления Сайты    Арбитражный суд РК Высший арбитражный суд Российской Федерации Петрозаводский городской суд Судебное решение Структура судебного решения Решение состоит из:  Вводная часть - набор атрибутов дела (номер дела, судья)  Описательная и мотивировочная части - набор фактов в текстовом виде (начинается со слов «установил: …»)  Резолютивная часть или судебное решение (начинается со слов «Решил: …») Особенности  Наличие определенной структуры построения всего текста и отдельных предложений  Ограниченность языка и возможность использования словаря судебных терминов  2 основных субъекта отношений  Возможен анализ текста при помощи базы статей кодекса (КоАП, АПК) Цель работы: Разработать алгоритм(ы) проверки корректности отнесения того или иного судебного акта к определенной категории спора (классу) и проверки однозначности решений похожих дел. Категории судебных споров:  Агентирование  Административная ответственность  Аренда  Банкротство  Залог  Заем  … Для решения поставленной задачи требуется реализовать прототип программного продукта, который будет обладать следующим функционалом: o Поиск в банках судебных решений (http://ras.arbitr.ru) o Предварительная обработка o Извлечение информации o Применения алгоритмов анализа текста o Интерпретация полученных результатов Предварительная обработка  Определение частей документа  Удаление стоп-слов  Стэмминг  Приведение к НФ  Выделение ключевых слов на основе судебного словаря  Выделение номеров статей кодекса Задача классификации      Множество категорий: C  {c1 ,..., c|C|} Множество документов: D  {d1 ,..., d|D|} Неизвестная целевая функция  : C  D  {0,1} Некоторая начальная коллекция R  C  D размеченных документов разделена на обучающую и проверочную выборки Необходимо построить классификатор Ф’, максимально близкий к Ф Классификация на основе словаря. Уменьшение размерности.     Отбрасываются служебные слова Вместо отдельных слов брать группы слов и словосочетания Отбрасываются «непоказательные» слова Использовать только судебный словарь Индексация документов   Каждый текст представляется как вектор термов: Ti = {w1, w2, …, wn} wi – частота (или количество) встречаемости или вес слова (TF * IDF) категория / слово Слово 1 Слово 2 Слово 3 Агентирование 0.2 0.5 0.1 Административная 0 ответственность 0.3 0.1 Аренда 0.2 0.15 … 0.1 … Байесовский классификатор Категория 1 Категория 2 Категория 3 Категория 4 Категория 5 Процент правильного определения (%) 80 60 80 60 40 Классификация на основе статей Частотная матрица категория / статья Статья 1 Статья 2 Статья 3 Агентирование 0.2 0.5 0.1 Административная 0 ответственность 0.3 0.1 Аренда 0.2 0.15 … 0.1 … Смешанная классификация Классификация и на основе словаря и на основе статей (задавая весовые коэффициенты между обоими вариантами классификации). Варианты формализации похожих судебных решений Фактологическая часть судебного решения Факт 1 Факт 2 Факт 3 …. Факт N Подходы Fi , j определяется g ( Fi , j ) - мера вины Ni Тогда g ( Di )   g ( Fi , j ) j 1 g(Di) – общая мера вины по делу Di Спасибо за внимание

Автоматизированный анализ судебных документов

Похожие документы

Разделы

Поддержка

Автоматизированный анализ судебных документов

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib