Uploaded by Андрей Аксьонов

1 Team2 515st2 (1)

advertisement
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
Національний аерокосмічний університет ім. М.Є. Жуковського
«Харківський авіаційний інститут»
Факультет радіоелектроніки, комп’ютерних систем та інфокомунікацій
Кафедра комп’ютерних систем, мереж і кібербезпеки (503)
Практична робота № 1
Оцінка кількості інформації та ентропії дискретного
джерела повідомлень
з дисципліни
(назва лабораторної роботи)
Теорія інформації та кодування
(шифр)
ХАІ.503.515ст2.03О.123-Комп'ютерна інженерія
Виконали студенти
групи 515ст2
Д.І. Кушнирь
Е.Ю. Ніколайчук
Б.О. Шемигон
А.В. Аксьонов
М.О. Левун
(П.І.Б.)
Перевірив
(підпис, дата)
Харків – 2022
канд. техн. наук, доцент
М. О. Колісник
(П.І.Б.)
Завдання 1
Математична постановка задачі
Визначити кількість інформації дискретного джерела.
Формула
Pk = n/N
I = K * log2N
Назва
Частота появи k-того
символу в тексті.
Опис
n – це кількість k-того
символу у повідомленні,
а N – кількість усіх символів
у повідомленні.
Формула Хартлі
Використовується для
визначення кількості
інформації у повідомленні,
коли шанс появи символів
алфавіту однаковий.
I – кількість інформації в
бітах,
K – кількість символів у
повідомленні,
а N – потужність алфавіту.
Формула Шеннона
Використовується для
визначення кількості
інформації у повідомленні,
коли шанс появи символів
алфавіту різний.
I – кількість інформації в
бітах,
N – потужність алфавіту,
а pi – імовірність появи
символу.
Табл. 1 – Використані формули
Дослідження кількості інформації в різних фрагментах тексту
Для порівняння кількості інформації в текстах було використано випадкові
набори символів, які містять літери різних алфавітів, числа та спец.
символи(див. рис.1 та рис.2), але з однаковою довжиною:
Рис. 1 – Текст №1
Рис. 2 – Текст №1
Після порівняння цих двох текстів, ми отримали певний результат, який ви
можете побачити нижче.
- Перший текст має такі властивості(див. рис.3):
1) Довжина тексту складає 100 символів;
2) Потужність алфавіту складає 99;
3) Кількість інформації(по Шеннону) складає 6.624.
- Властивості другого тексту(див. рис. 4):
1) Довжина тексту складає 100 символів;
2) Потужність алфавіту складає 98;
3) Кількість інформації(по Шеннону) складає 6.596.
Рис. 3 – Кількість інформації та частина таблиці першого тексту
Рис. 4 – Кількість інформації та частина таблиці другого тексту
Також на рисунках (див. рис. 1 рис. 2) ви можете побачити не тільки загальну
інформацію про текст, а й таблицю з символами, які появлялися у тексті разом
з їх властивостями, а саме: назва символу, його кількість в тексті, вірогідність
появлення символу(у відсотках) та вірогідність появлення (числом).
Графіки залежності кількості інформації для одного і того ж зв'язаного
тексту різними мовами.
Зв'язаний український текст
Сумно і непривітно тепер в нашій Тухольщині! Правда, і Стрий, і Опір
однаково миють її рінисті, зелені узберіжжя, луги її однаково покриваються
весною травами та цвітами і в її лазуровім, чистім повітрі однаково плавле та
колесує орел-беркут, як і перед давніми віками. Але все інше як же змінилося!
І ліси, і села, і люди! Що давно ліси густі, непрохідні закривали майже весь її
простір, окрім високих полонин, сходили вдолину аж над самі ріки,— тепер
вони, мов сніг на сонці, стопилися, зрідли, змаліли, декуди пощезали,
лишаючи по собі лисі облази; інде знов із них остоялися лише пообсмалювані
пеньки, а з-між них де-де несміло виростає нужденна смеречина або ще
нужденніший яловець. Що давно тихо тут було, не чути ніякого голосу, крім
вівчарської трембіти десь на далекій полонині або рику дикого тура чи оленя
в гущавинах,— тепер на полонині гейкають воларі, а в ярах і дебрях
галюкають рубачі, трачі й гонтарі, ненастанно, мов невмирущий черв,
підгризаючи та підтинаючи красу тухольських гір — столітні ялиці та смереки,
і або спускаючи їх, потятих на великі ботюки, долі потоками до нових парових
тартаків, або таки на місці ріжучи на дошки та на гонти.
Але найбільше змінилися люди. Зверха глянувши, то немовби змоглася між
ними "культура", але на ділі виходить, що змоглося тільки їх число. Сіл і
присілків більше, хат по селах більше, але зате по хатах убожество більше і
нужда більша. Народ нужденний, прибитий, понурий, супроти чужих
несмілий і недотепний.
Довжина (n)
1470
Потужність алфавіту
(m)
40
Кількість інформації
(I)
4.5867454430498285
Табл. 2 – Інформація про український текст
Рис. 5 – Кількість кожного символу
Рис. 6 – Частота появи кожного символу
Зв'язаний англійський текст
It is sad and unfriendly now in our Tukhol region! True, both Stryi and Opir equally
wash its furrowed, green shores, its meadows are equally covered in spring with
grasses and flowers, and in its azure, clean air, the golden eagle floats and circles in
the same way, as it did in ancient times. But everything else has changed! And
forests, and villages, and people! For a long time, dense, impassable forests covered
almost all of its space, except for high ravines, they descended into the valleys even
above the rivers themselves, now they have melted, thinned, shrunk, like snow in
the sun, in some places they have disappeared, leaving behind bald patches; in other
places, only burnt stumps remained of them, and from among them a needy spruce
or an even needier juniper timidly grows. It was quiet here for a long time, no sound
could be heard, except for the shepherd’s bleating somewhere in the distant field or
the roar of a wild turkey or a deer in the thickets, now volars are hooting in the field,
and woodpeckers, woodpeckers and woodpeckers are hooting in the ravines and
forests, incessantly, like an immortal June, gnawing and cutting the beauty of the
Tukhol Mountains - hundred-year-old firs and spruces, and either bringing them
down, sweated on big boots, down streams to the new steam sawmills, or cutting
them into boards and shingles on the spot.
But people have changed the most. Looking from above, it seems as if "culture" has
succeeded between them, but in reality it turns out that only their number has
succeeded. There are more villages and hamlets, more houses in the villages, but
there is more poverty and more poverty in the houses. The people are needy,
downtrodden, gloomy, timid and witless in front of strangers.
Довжина (n)
1752
Потужність алфавіту
(m)
35
Кількість інформації
(I)
4.2313619148629416
Табл. 3 – Інформація про англійський текст
Рис. 7 – Кількість кожного символу
Рис. 8 – Частота появи кожного символу
Зв'язаний німецький текст
Es ist jetzt traurig und unfreundlich in unserer Tukhol-Region! Es stimmt, sowohl
Stryi als auch Opir waschen gleichermaßen seine zerfurchten, grünen Ufer, seine
Wiesen sind im Frühling gleichermaßen mit Gräsern und Blumen bedeckt, und in
seiner azurblauen, sauberen Luft schwebt und kreist der Steinadler auf die gleiche
Weise wie in der Antike mal. Aber alles andere hat sich geändert! Und Wälder und
Dörfer und Menschen! Lange Zeit bedeckten dichte, unpassierbare Wälder fast den
gesamten Raum, bis auf hohe Schluchten, sie stiegen sogar über den Flüssen in die
Täler hinab, jetzt sind sie an einigen Stellen geschmolzen, verdünnt, geschrumpft
wie Schnee in der Sonne sie sind verschwunden und haben kahle Stellen
hinterlassen; an anderen Stellen sind nur noch verbrannte Baumstümpfe übrig
geblieben, und darunter wächst zaghaft eine bedürftige Fichte oder ein noch
bedürftigerer Wacholder. Lange Zeit war es still hier, kein Laut war zu hören, außer
dem Meckern des Hirten irgendwo auf dem fernen Feld oder dem Brüllen eines
wilden Truthahns oder eines Rehs im Dickicht, jetzt heulen Wühlmäuse auf dem
Feld, und Spechte, Spechte und Spechte schreien unaufhörlich wie ein unsterblicher
Juni in den Schluchten und Wäldern, nagen und schneiden die Schönheit der TukholBerge - hundertjährige Tannen und Fichten, und bringen sie entweder geschwitzt
auf großen Stiefeln flussabwärts zu den neuen Dampfsägewerken liefern oder vor
Ort zu Brettern und Schindeln schneiden.
Aber am meisten haben sich die Menschen verändert. Von oben betrachtet scheint
es, als ob zwischen ihnen „Kultur“ gesiegt hätte, aber in Wirklichkeit stellt sich
heraus, dass nur ihre Zahl gesiegt hat. Es gibt mehr Dörfer und Weiler, mehr Häuser
in den Dörfern, aber es gibt mehr Armut und mehr Armut in den Häusern. Die
Menschen sind bedürftig, unterdrückt, düster, schüchtern und geistlos vor Fremden.
Довжина (n)
1872
Потужність алфавіту
(m)
37
Кількість інформації
(I)
4.233887620136721
Табл. 4 – Інформація про німецький текст
Рис. 9 – Кількість кожного символу
Рис. 10 – Частота появи кожного символу
німецький
англійскьий
український
0
10
Потужність алфавіту (m)
20
30
Кількість інформації (I)
40
Рис. 11 – Порівняння кількості інформації пов'язаного тексту
Графіки залежності кількості інформації для одного і того ж зв'язаного
тексту різними мовами.
Для порівняння кількості інформації в текстах було використано випадкові
набори символів, які містять літери різних алфавітів, числа та спец. символи,
але з однаковою довжиною:
Незв'язний англійський текст
HBDFGDFASDf\sdfsdlfg,adfmglmk4orti234op[rui23904ri923rikpsda,fk';c
kxz'klvgsdffg macfop[ksd;a
kfjioajrtioejweruii39045i9234raekl;sfjklJ^&*()@(#$$@#$Irujejkhkjerhngbgnmfbc
vjkhhgjel;gioeruteriogdfgdfdfgsrgy454yuhjgdf$y45y7u567u567rhfghdfgdh567y46
463q23254252345653453456srtghxb5454645645645435345aawFDGDHHJDRTH
JDRTYyrtyfghjfghjghjkhkjghjfgjsd5322sda
Довжина (n)
Потужність алфавіту (m)
Кількість інформації (I)
347
48
5,0003924246397125
Табл. 5 – Інформація про англійський текст
Рис. 12 – Кількість кожного символу
Рис. 13 – Частота появи кожного символу
Незв'язний українській текст
івВАІВАРІШАРЦУГШАРЦУШАРШЩроваровламрчсрмфкроащзшцугкацущ
гкцущокдлюячвчоюмшяоашщугока90гцгк023гкгівагоівжаощжфівшоашщфів
рРоафіаг34гк2903гкО89К23ГК90Г02КУАОФІЛДАІРДЛМИТСЧТЯМЮГШФ
ТАГШПЩІВРОАЖІВЛДОАФІВЗЖ39ГК903ГК3ГК902ГК0К2ЦГК9023КГ90
ГШІВАЛДЗІВАПВАПІУКПІУКВАІПІВАПВАІПІВАПвеапвапу4ке43541341
2Ййцки 8- 09ї-х9з7864%№;%:57я68ч9щ1Й3 56236643е43%:?;%у:;;"1
Довжина (n)
Потужність алфавіту (m)
347
46
Кількість інформації
(I)
5,014577309391968
Табл. 6 – Інформація про український текст
Рис. 14 – Кількість кожного символу
Рис. 15 – Частота появи кожного символу
Незв’язний німецький текст
3rrh923rzhpqe IOE+ie 23rjw3 lörLaDLpeio0o4ri2 90345uiR=)»§UR
IerIO§=Ü)RI=)RUIEJNMyfJÄqwidfPħIR=ÜWURTÜEKkdrkGKFGlöHKF*HE
OT*WE TGKAERÄ GVKSYEMSY
IEFJÖaseNMFGIOPAEGJ)$U»§)=$R%I(=!»§$)=(iuoiujg90eut034u9034590ß23u
i4r5023j42oö3904r23ur9r82r52ui0ru2ß304r5823IER?=QI)ER=?809druur23890u4
02304129034891trhfhfghjgdfhjdhdsdrgaesfawef,k.jdhIOJFÖLJSDKFGJNLSDK
Довжина (n)
347
Потужність алфавіту (m)
46
Кількість інформації (I)
5,137119913292314
Табл. 7 – Інформація про німецький текст
Рис. 16 – Кількість кожного символу
Рис. 17 – Частота появи кожного символу
англійскьий
українській
німецькій
0
10
20
Потужність алфавіту (m)
30
40
50
Кількість інформації (I)
60
Рис. 18 – Порівняння кількості інформації незв'язного тексту
англійскьий (незв'язний )
українській (незв'язний )
німецькій (незв'язний )
німецький (пов'язаного)
англійскьий (пов'язаного)
український (пов'язаного)
0
10
Потужність алфавіту (m)
20
30
40
Кількість інформації (I)
50
60
Рис. 19 – Порівняння кількості інформації незв'язного тексту
Завдання 2
Розробити проект для підрахунку кількості інформації на довільному
сайті з використанням обраної методології розробки ПЗ.
У якості довільного сайту використовувався: https://khai.edu/ua/
Рис. 20 – Діаграма IDEF0
Рис. 21 – Декомпозиція діаграми idef0
Довжина (n)
59684
Потужність алфавіту
(m)
96
Кількість інформації
(I)
5.604192835230115
Табл. 8 – Інформація про сайт
Рис. 22 - Кількість символів
Рис. 23 - Частота появи символів
Висновок: У ході виконання лабораторної роботи №1 було проведено
дослідження властивостей інформації. Кількість інформації залежить від
набору символів, яким вона кодується і довжини повідомлення. Проводилося
дослідження текстів написаних різними мовами (пов’язаного і незв’язаного).
По результатам дослідження були побудовані графіки, які відображають
властивості інформації. У другій частині лабораторної роботи проводився
підрахунок інформації на сайті. По результатам підрахунку були побудовані
таблиці і графіки, які відображають властивості інформації.
За період роботи був створен проект для дослідження кількості
інформації та ентропії дискретного джерела повідомлень який:
• Визначає кількість інформації в тексті українською, англійською та
німецькою мовами, а також: - вводить текст повідомлення;
• Здійснює підрахунок частоти появи символу в тексті повідомлення;
• Упорядковує частоту за зростанням будь-яким алгоритмом
сортування;
• Виводить на екран символ тексту та частоту його появи.
• Виводить кількість інформації у тексті.
У другій частині лабораторної роботи був створений проект який визначає
кількість інформації на будь-якому сайті.
Download