Карасева(для СФУ)-2_0

advertisement
УДК 519.87
ДИАГНОСТИКА КАРДИАЛГИИ МЕТОДАМИ ИНТЕЛЛЕКТУАЛЬНОГО
АНАЛИЗА ДАННЫХ
Карасева Т. С.,
научный руководитель д-р техн. наук Семенкин Е.С.
Сибирский государственный аэрокосмический университет
имени академика М. Ф. Решетнева
Большинство людей хотя бы раз в жизни испытывало боль или другие неприятные
ощущения за грудиной или слева от нее в грудной клетке, именно там, где расположено
сердце. Причинами этих болей могут стать такие болезни сердца, как стенокардия,
инфаркт миокарда, воспаление сердца и его оболочек, ревматические поражения.
Однако зачастую источник боли находится вне сердца.
Так по данным разных исследователей, боль в грудной клетке по типу кардиалгии
испытывают от 22 до 31 % пациентов, обратившихся за медицинской помощью к врачу
общей практики, а в 42 % случаев боль связана с заболеваниями желудочно-кишечного
тракта[1].
Именно с жалобами на боли в области сердца врач чаще всего встречается в
практической деятельности. Во-первых, желательно своевременно распознать
угрожающие симптомы, а во-вторых, болевые ощущения не следует приписывать
серьезному заболеванию, так как они могут основываться на каком-нибудь гораздо
менее серьезном нарушении, чем болезнь сердца.
При данных жалобах, прежде всего, следует решить вопрос, имеют ли боли
действительно отношение к сердцу или к большим сосудам, или же больному не
следует сосредоточивать свое внимание на эти органы.
С этой целью следует проводить классификацию болей по их принадлежности к
классу сердечных болей или болей, не связанных с заболеванием сердца.
Классификация - один из разделов машинного обучения, посвященный решению
следующей задачи. Имеется множество объектов (ситуаций), разделённых некоторым
образом на классы. Задано конечное подмножество объектов, для которых известно, к
каким классам они относятся. Это подмножество называется обучающей выборкой.
Классовая принадлежность остальных объектов не известна. Требуется построить
алгоритм, способный классифицировать произвольный объект из исходного множества
Классификация применяется для решения большого числа прикладных задач, в том
числе и задач медицинской диагностики. Ценность такого рода систем в том, что они
способны моментально анализировать и обобщать огромное количество прецедентов
— возможность, недоступная специалисту-врачу.
Для решения нашей задачи были выбраны исходные данные, представленные в виде
базы данных, касающихся диагностики патологии сердца. Используемые данные были
получены в Кливлендской клинике, Венгерском Институте кардиологии (г. Будапешт),
Медицинском центре Лонг-Бич Мемориал и в Университетском госпитале (Цюрих)[2].
Задача состоит в определении наличия болезни сердца у пациента.
Анализ данных осуществлялся с помощью системы RapidMiner [3]. Получена модель
относительно целевого атрибута: отсутствие (1) или присутствие (2) болезни сердца.
Был создан процесс, содержащий методы классификации: наивный байесовский
классификатор; метод k ближайших соседей; дерево решений; индукция правил;
логистическая регрессия; машина опорных векторов[4]; нейронная сеть[5].
В результате проведения численных экспериментов были получены следующие
статистические результаты векторов производительности:
1.
2.
3.
4.
5.
6.
7.
Нейронная сеть(NB):
Метод k ближайших соседей(k-NN):
Дерево решений(DT):
Машина опорных векторов(SVM):
Наивный байесовский классификатор(NB):
Логистическая регрессия(LR):
Индукция правил(IR):
0.781 +/- 0.051
0.663 +/- 0.101
0.741 +/- 0.072
0.819 +/- 0.075
0.844 +/- 0.052
0.826 +/- 0.066
0.781 +/- 0.077
С помощью оператора T-Test проведено сравнение используемых методов, чтобы
увидеть, имеется ли между ними статистически значимое различие. Данный оператор
используется для сравнения производительности векторов, выполняя t-тест Стюдента
для определения вероятности нулевой гипотезы, то есть «актуальные значения
одинаковы». Результат работы данного оператора приведен в таблице 1.
Таблица 1. Эффективность различных методов в диагностике кардиалгии
ANN
0.781 +/- 0.051
ANN
k-NN
DT
SVM
NB
LR
k-NN
0.663 +/- 0.101
0.004
DT
0.741 +/- 0.072
SVM
0.819 +/- 0.075
NB
0.844 +/- 0.052
0.206
0.074
0.283
0.001
0.033
0.015
0.000
0.002
0.387
LR
0.826 +/- 0.066
0.134
0.000
0.014
0.820
0.502
IR
0.781 +/0.077
1.000
0.009
0.323
0.412
0.052
0.237
Значения, обозначенные полужирным шрифтом, меньше, чем α=0.050, что
указывает, на значимую разницу между полученными значениями.
Из приведенной таблицы следует, наименьшую точность обеспечивают методы:
 Метод k ближайших соседей;
 Дерево решений.
Но возможно ли полагать, что точность классификации, равная 84% будет
достаточной? Будет ли эффективным использование совокупности методов
классификации с целью увеличения точности? Создавая процессы с различными
ансамблями методов, был получен процесс, использующий оператор Vote, в основе
которого лежит метод голосования.
Оператор Vote использует большинство голосов (для классификации) нескольких
методов, объединенных в ансамбль. В ансамбль были включены методы: нейронная
сеть, машина опорных векторов, наивный байесовский классификатор, логистическая
регрессия, индукция правил и не включены метод k ближайших соседей и дерево
решений, показавшие наименьшую точность в описанном выше процессе.
Полученный результат вектора производительности равен 91,19%.
Проанализировав данные результаты, был сделан вывод, что ансамбль методов
может решать задачу эффективнее, нежели отдельные технологии.
Применение методов классификации необходимо для построения экспертных
систем, которые могут частично заменить целый ряд специалистов в диагностировании
заболеваний сердца. Создание подобных систем особенно актуально согласно
концепции долгосрочного социально-экономического развития Российской Федерации
на период до 2020 года, утвержденного распоряжением Правительства РФ от
17.11.2008 № 1662-р, предусматривающей существенное снижение смертности
иинвалидизации, в первую очередь от болезней системы кровообращения и других
хронических неинфекционных заболеваний.
Список литературы
1. Ярошевский А. А., О. Г. Морозова Скелетно- мышечные боли в области грудной
клетки как междисциплинарная проблема // Новости медицины и фармации, 2012,
№405: Неврология. С.34-40.
2. Machine
Learning
Repository
[Электронный ресурс].
URL:http://archive.ics.uci.edu/ml/datasets.html (дата обращения: 4.12.2014).
3. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения:
18.12.2014).
4. Профессиональный
информационно-аналитический
ресурс,
посвященный
машинномуобучению, распознаваниюобразов интеллектуальномуанализуданных
[Электронный ресурс]. URL: http://www.machinelearning.ru/ (дата обращения:
10.1.2015).
5. Нейроинформатика / А.Н.Горбань, В.Л.Дунин-Барковский, А.Н.Кирдин и др. Новосибирск: Наука. Сибирское предприятие РАН, 1998. - 296с. [Электронный
ресурс]URL: http://ict.edu.ru/ft/003873/neiro.pdf (дата обращения: 1.2.2015).
Download