Міністерство освіти і науки України Львівський національний університет імені Івана Франка Факультет електроніки та комп’ютерних технологій кафедра системного проектування Звіт Про виконання лабораторної роботи №7 «Абсолютні методи визначення ключових слів у текстах» Виконав студент групи Фес-42 КрохмальнийА.І. Перевірив: доц. Мостова М. Р. м.Львів Завдання: Використовуючи програму NG.metrics (папка +NG.metrics6Kyr), для обраного тексту знайти 3-5 ключові слова (слова з найбільшими значеннями параметра асиметрії R>>1), виписати їхні статистичні параметри (ранг, абсолютна частота, відносна частота, R), навести рисунок позицій розміщення в тексті. Для знайдених ключових слів обчислити параметр асиметрії також за методом TF-IDF. Хід виконання: 1. Використовуючи, наприклад, програму NG.metrics (папка +NG.metrics6Kyr), для обраного тексту вибираєте 3-5 (залежно від розміру тексту) ключові слова (це слова з найбільшими значеннями параметра асиметрії R>>1), виписуєте їхні статистичні параметри (ранг, абсолютна частота, відносна частота, R). У звіті також наведіть рисунок з позиціями розміщення кожного слова в тексті. Текст “She Is The Darkness” Посортуємо по R і виберемо 5 ключових слів, де спостерігається кластеризація: trang Ранг – 671; Fi – 27; fi – 0.00016961; R – 4.14972832850829; Кластеризація спостерігається; rudy Ранг – 531; Fi – 36 fi – 0.00022615; R – 3.40493796463763; Кластеризація спостерігається; crystal Ранг – 773; Fi – 23; fi – 0.00014449; R – 2.95510631662668; Кластеризація спостерігається; scaffolding Ранг – 569; Fi – 33; fi – 0.00020731; R – 2.88372283013461; Кластеризація спостерігається; isi Ранг – 569; Fi – 33; fi – 0.00020731; R – 2.88372283013461; Кластеризація спостерігається; 2. Для кожного зі знайдених ключових слів, провести обрахунок значень R, T, Z, TFZ, ZIDF, TF-IDF-Z за формулами зі статті [3]. Для того, щоб отримати необхідні показники розглядаєте корпус текстів (не менше 30). trang R = 25.767565802222222; T = 0.0006030225847092195; Z = 2.7656118001559134e-08; TF-Z = 4.690754174244444e-12; Z-IDF = 9.832712552516574e-08; TF-IDF-Z = 1.667726376032336e-11; Для інших слів: Слово crystal часто зустрічається в інших текстах, воно не є ключемив. R trang rudy scaffol ding isi TF-Z Z-IDF TF-IDF-Z 25.767565802 222222 25.767946 0.000603022584 2.76561180015 7092195 59134e-08 0.000804 4.916997e-08 T Z 4.6907541742 44444e-12 1.111979e-11 9.8327125525 16574e-08 1.748163e-07 1.6677263760 32336e-11 3.953472e-11 22.085834 0.000216 5.425497e-09 4.089739e-13 1.552886e-08 1.170566e-12 25.768671 0.000737 4.131686e-08 8.565398e-12 1.468958e-07 3.045297e-11 Висновок: В ході даної лабораторної роботи я навчився шукати ключові слова в тексткі а також їх аналізувати. Значення коефіціента асиметрії є найпростішим методом пошуку ключового слова(в ключових слів параметр R найбільший). Проте кращими методами визначення ключового слова можна назвати Z-IDF та TF-IDF-Z, вони враховують більше значень, що дає точніще значення.