Uploaded by Саша Колибєлкін

Абсолютні методи визначення ключових слів у текстах

advertisement
Міністерство освіти і науки України
Львівський національний університет імені Івана Франка
Факультет
електроніки та
комп’ютерних технологій
кафедра системного проектування
Звіт
Про виконання лабораторної роботи №7
«Абсолютні методи визначення ключових слів у текстах»
Виконав студент групи Фес-42
КрохмальнийА.І.
Перевірив: доц. Мостова М. Р.
м.Львів
Завдання:
Використовуючи програму NG.metrics (папка +NG.metrics6Kyr), для обраного тексту
знайти 3-5 ключові слова (слова з найбільшими значеннями параметра асиметрії R>>1),
виписати їхні статистичні параметри (ранг, абсолютна частота, відносна частота, R),
навести рисунок позицій розміщення в тексті. Для знайдених ключових слів обчислити
параметр асиметрії також за методом TF-IDF.
Хід виконання:
1. Використовуючи, наприклад, програму NG.metrics (папка +NG.metrics6Kyr), для
обраного тексту вибираєте 3-5 (залежно від розміру тексту) ключові слова (це
слова з найбільшими значеннями параметра асиметрії R>>1), виписуєте їхні
статистичні параметри (ранг, абсолютна частота, відносна частота, R). У звіті
також наведіть рисунок з позиціями розміщення кожного слова в тексті.
Текст “She Is The Darkness”
Посортуємо по R і виберемо 5 ключових слів, де спостерігається кластеризація:
 trang
Ранг – 671;
Fi – 27;
fi – 0.00016961;
R – 4.14972832850829;
Кластеризація спостерігається;
 rudy
Ранг – 531;
Fi – 36
fi – 0.00022615;
R – 3.40493796463763;
Кластеризація спостерігається;
 crystal
Ранг – 773;
Fi – 23;
fi – 0.00014449;
R – 2.95510631662668;
Кластеризація спостерігається;
 scaffolding
Ранг – 569;
Fi – 33;
fi – 0.00020731;
R – 2.88372283013461;
Кластеризація спостерігається;
 isi
Ранг – 569;
Fi – 33;
fi – 0.00020731;
R – 2.88372283013461;
Кластеризація спостерігається;
2. Для кожного зі знайдених ключових слів, провести обрахунок значень R, T, Z, TFZ, ZIDF, TF-IDF-Z за формулами зі статті [3]. Для того, щоб отримати необхідні
показники розглядаєте корпус текстів (не менше 30).
 trang
R = 25.767565802222222;
T = 0.0006030225847092195;
Z = 2.7656118001559134e-08;
TF-Z = 4.690754174244444e-12;
Z-IDF = 9.832712552516574e-08;
TF-IDF-Z = 1.667726376032336e-11;
Для інших слів:
Слово crystal часто зустрічається в інших текстах, воно не є ключемив.
R
trang
rudy
scaffol
ding
isi
TF-Z
Z-IDF
TF-IDF-Z
25.767565802
222222
25.767946
0.000603022584 2.76561180015
7092195
59134e-08
0.000804
4.916997e-08
T
Z
4.6907541742
44444e-12
1.111979e-11
9.8327125525
16574e-08
1.748163e-07
1.6677263760
32336e-11
3.953472e-11
22.085834
0.000216
5.425497e-09
4.089739e-13
1.552886e-08
1.170566e-12
25.768671
0.000737
4.131686e-08
8.565398e-12
1.468958e-07
3.045297e-11
Висновок:
В ході даної лабораторної роботи я навчився шукати ключові слова в тексткі а також їх
аналізувати. Значення коефіціента асиметрії є найпростішим методом пошуку
ключового слова(в ключових слів параметр R найбільший). Проте кращими методами
визначення ключового слова можна назвати Z-IDF та TF-IDF-Z, вони враховують більше
значень, що дає точніще значення.
Download