Uploaded by Galina Efremova

Энграммные языковые модели

advertisement
ßçûêîâûå ìîäåëè
Ëèíãâèñòè÷åñêèå àñïåêòû
íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
Ýíãðàììíûå ÿçûêîâûå ìîäåëè.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
ÎÒÈÏË ÌÃÓ,
îñåííèé ñåìåñòð 20182019 ó÷åáíîãî ãîäà
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Âåðîÿòíîñòü òåêñòà
Ìíîãèå çàäà÷è òðåáóþò ïîðîæäàòü òåêñò (âîçìîæíî, ïðè
óñëîâèè íåêîòîðîãî äðóãîãî òåêñòà):
×àòáîòû ïîðîæäåíèå îòâåòà íà ðåïëèêó ïîëüçîâàòåëÿ.
Ìàøèííûé ïåðåâîä ïðåäëîæåíèå íà öåëåâîì ÿçûêå.
Ðàñïîçíàâàíèå çâó÷àùåé ðå÷è ïðåîáðàçîâàíèå ãðàôåì â
ôîíåìû.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Âåðîÿòíîñòü òåêñòà
Ìíîãèå çàäà÷è òðåáóþò ïîðîæäàòü òåêñò (âîçìîæíî, ïðè
óñëîâèè íåêîòîðîãî äðóãîãî òåêñòà):
×àòáîòû ïîðîæäåíèå îòâåòà íà ðåïëèêó ïîëüçîâàòåëÿ.
Ìàøèííûé ïåðåâîä ïðåäëîæåíèå íà öåëåâîì ÿçûêå.
Ðàñïîçíàâàíèå çâó÷àùåé ðå÷è ïðåîáðàçîâàíèå ãðàôåì â
ôîíåìû.
Òàêæå íóæíî îöåíèâàòü âåðîÿòíîñòü òåêñòà.
Àâòîìàòè÷åñêàÿ êëàññèôèêàöèÿ òåêñò îòíîñèòñÿ ê òîìó
êëàññó, äëÿ êîòîðîãî îí áîëåå âåðîÿòåí.
Àâòîäîïîëíåíèå ïîäñòàíîâêà íàèáîëåå âåðîÿòíîãî ñëîâà â
òåêñò.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Âåðîÿòíîñòü òåêñòà: ìàòåìàòè÷åñêàÿ ìîäåëü
Ìíîãèå çàäà÷è ñâîäÿòñÿ ê ìàêñèìèçàöèè óñëîâíîé âåðîÿòíîñòè
ïîðîæäàåìîãî òåêñòà
t
ïðè óñëîâèè òåêñòà
tb = argmax p(t|s) = argmax
s:
p(s|t)p(t)
= argmax p(s|t)p(t)
p(s)
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Âåðîÿòíîñòü òåêñòà: ìàòåìàòè÷åñêàÿ ìîäåëü
Ìíîãèå çàäà÷è ñâîäÿòñÿ ê ìàêñèìèçàöèè óñëîâíîé âåðîÿòíîñòè
ïîðîæäàåìîãî òåêñòà
t
ïðè óñëîâèè òåêñòà
tb = argmax p(t|s) = argmax
s:
p(s|t)p(t)
= argmax p(s|t)p(t)
p(s)
p(s|t) ìåðèò ñòåïåíü ñîîòâåòñòâèÿ ìåæäó s è t .
p(t) âåðîÿòíîñòü ïîðîæä¼ííîãî òåêñòà t . Êàê å¼
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ñ÷èòàòü?
ßçûêîâûå ìîäåëè
Âåðîÿòíîñòü òåêñòà: ìàòåìàòè÷åñêàÿ ìîäåëü
Ìíîãèå çàäà÷è ñâîäÿòñÿ ê ìàêñèìèçàöèè óñëîâíîé âåðîÿòíîñòè
ïîðîæäàåìîãî òåêñòà
t
ïðè óñëîâèè òåêñòà
tb = argmax p(t|s) = argmax
s:
p(s|t)p(t)
= argmax p(s|t)p(t)
p(s)
p(s|t) ìåðèò ñòåïåíü ñîîòâåòñòâèÿ ìåæäó s è t .
p(t) âåðîÿòíîñòü ïîðîæä¼ííîãî òåêñòà t . Êàê å¼
ñ÷èòàòü?
Ôîðìóëà óñëîâíîé âåðîÿòíîñòè:
p(w1 . . . wN ) = p(w1 )p(w2 |w1 )p(w3 |w1 w2 ) . . . p(wN |w1 . . . wN−1 ).
Êàê îöåíèòü p(w1000 |p1 . . . p999 )?
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Áàçîâàÿ ýíãðàììíàÿ ìîäåëü
Ïðåäïîëîæåíèå ýíãðàììíîé ìîäåëè: êàæäîå ñëîâî çàâèñèò
òîëüêî îò
n−1
ïðåäûäóùåãî.
p(wN |w1 . . . wN−1 ) = p(wN |wN−n+1 . . . wN−1 )
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Áàçîâàÿ ýíãðàììíàÿ ìîäåëü
Ïðåäïîëîæåíèå ýíãðàììíîé ìîäåëè: êàæäîå ñëîâî çàâèñèò
òîëüêî îò
n−1
ïðåäûäóùåãî.
p(wN |w1 . . . wN−1 ) = p(wN |wN−n+1 . . . wN−1 )
×àùå âñåãî áåðóò
áèãðàììû,
n=3
n 6
3 (n
=
1 óíèãðàììû,
òðèãðàììû).
Êàê ñ÷èòàòü ýíãðàììíûå âåðîÿòíîñòè?
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
n =
2 ßçûêîâûå ìîäåëè
Áàçîâàÿ ýíãðàììíàÿ ìîäåëü
Ïðåäïîëîæåíèå ýíãðàììíîé ìîäåëè: êàæäîå ñëîâî çàâèñèò
òîëüêî îò
n−1
ïðåäûäóùåãî.
p(wN |w1 . . . wN−1 ) = p(wN |wN−n+1 . . . wN−1 )
×àùå âñåãî áåðóò
áèãðàììû,
n=3
n 6
3 (n
=
1 óíèãðàììû,
n =
2 òðèãðàììû).
Êàê ñ÷èòàòü ýíãðàììíûå âåðîÿòíîñòè?
Íàèâíûé ïîäõîä:
p(wn |w1,n−1 ) =
w1 . . . wn−1 .
= w1 . . . wn .
ïðîäîëæåíèé èñòîðèè
Çäåñü è äàëåå
w1,n
c(w1,n )
c(w1,n−1 )
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
äîëÿ
wn ñðåäè
ßçûêîâûå ìîäåëè
Áàçîâàÿ ýíãðàììíàÿ ìîäåëü
Ïðåäïîëîæåíèå ýíãðàììíîé ìîäåëè: êàæäîå ñëîâî çàâèñèò
òîëüêî îò
n−1
ïðåäûäóùåãî.
p(wN |w1 . . . wN−1 ) = p(wN |wN−n+1 . . . wN−1 )
×àùå âñåãî áåðóò
áèãðàììû,
n=3
n 6
3 (n
=
1 óíèãðàììû,
n =
2 òðèãðàììû).
Êàê ñ÷èòàòü ýíãðàììíûå âåðîÿòíîñòè?
Íàèâíûé ïîäõîä:
p(wn |w1,n−1 ) =
w1 . . . wn−1 .
= w1 . . . wn .
ïðîäîëæåíèé èñòîðèè
Çäåñü è äàëåå
w1,n
c(w1,n )
c(w1,n−1 )
Íåäîñòàòîê: íóëåâûå âåðîÿòíîñòè.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
äîëÿ
wn ñðåäè
ßçûêîâûå ìîäåëè
Ïðèìåð
ÿ ÷èòàë
1864
ÿ ÷èòàë
êíèãó
19
ÿ ÷èòàë
ãàçåòó
3
ÿ ÷èòàë
ëåêöèþ
11
ÿ ÷èòàë
äîêëàä
0
ÿ ÷èòàë
èíñòðóêöèþ
0
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
19
1864
3
1864
11
1864
0
1864
0
1864
≈
0.010
≈
0.002
≈
0.006
=
0?
=
0?
ßçûêîâûå ìîäåëè
Àääèòèâíîå ñãëàæèâàíèå
Ìîæíî ïðèìåíèòü àääèòèâíîå ñãëàæèâàíèå:
p(tn |t1 . . . tn−1 ) =
D
α>0
ãäå
c(t1 . . . tn−1 tn ) + α
,
c(t1 . . . tn−1 •) + α|D|
ñëîâàðü (ìíîæåñòâî âîçìîæíûõ óíèãðàìì),
ñãëàæèâàþùåå ñëàãàåìîå
Ïðè àääèòèâíîì ñãëàæèâàíèè ñ÷èòàåòñÿ, ÷òî êàæäîå ñëîâî
äîïîëíèòåëüíî âñòðå÷àåòñÿ
α
ðàç.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Àääèòèâíîå ñãëàæèâàíèå
Ìîæíî ïðèìåíèòü àääèòèâíîå ñãëàæèâàíèå:
p(tn |t1 . . . tn−1 ) =
D
α>0
ãäå
c(t1 . . . tn−1 tn ) + α
,
c(t1 . . . tn−1 •) + α|D|
ñëîâàðü (ìíîæåñòâî âîçìîæíûõ óíèãðàìì),
ñãëàæèâàþùåå ñëàãàåìîå
Ïðè àääèòèâíîì ñãëàæèâàíèè ñ÷èòàåòñÿ, ÷òî êàæäîå ñëîâî
äîïîëíèòåëüíî âñòðå÷àåòñÿ
α
ðàç.
Òåïåðü óæå íåò íóëåâûõ âåðîÿòíîñòåé.
Íî êàê âûáèðàòü
α?
Ìàëåíüêàÿ α ðèñê ïåðåïîäãîíêè ïîä îáó÷àþùóþ âûáîðêó.
Áîëüøàÿ α íå ó÷èòûâàåì íàáëþäàåìûå âåðîÿòíîñòè.
çíà÷åíèå
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ:
íåïîíÿòíî, êàê ïîäáèðàòü
α
(çàâèñèò îò ðàçìåðà êîðïóñà,
ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.)
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ:
íåïîíÿòíî, êàê ïîäáèðàòü
α
(çàâèñèò îò ðàçìåðà êîðïóñà,
ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.)
ìåòîä íåãèáêèé, íå ó÷èòûâàåò èñòîðèþ t1
. . . tn−1 (åñëè èñòîðèÿ
âñòðå÷àëàñü ÷àñòî, òî ñãëàæèâàíèå äîëæíî áûòü áîëåå ñëàáûì).
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ:
íåïîíÿòíî, êàê ïîäáèðàòü
α
(çàâèñèò îò ðàçìåðà êîðïóñà,
ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.)
ìåòîä íåãèáêèé, íå ó÷èòûâàåò èñòîðèþ t1
. . . tn−1 (åñëè èñòîðèÿ
âñòðå÷àëàñü ÷àñòî, òî ñãëàæèâàíèå äîëæíî áûòü áîëåå ñëàáûì).
p(tn |t2 . . . tn−1 ) äëÿ âûc(tn |t1 . . . tn−1 ) = 0.
Îñíîâíàÿ èäåÿ: áóäåì èñïîëüçîâàòü
÷èñëåíèÿ
p(tn |t1 . . . tn−1 ),
åñëè
Åñëè ñëîâî íå âñòðå÷àëîñü ïîñëå òåêóùåé èñòîðèè, ïåðåéä¼ì
ê áîëåå êîðîòêîé.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ:
íåïîíÿòíî, êàê ïîäáèðàòü
α
(çàâèñèò îò ðàçìåðà êîðïóñà,
ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.)
ìåòîä íåãèáêèé, íå ó÷èòûâàåò èñòîðèþ t1
. . . tn−1 (åñëè èñòîðèÿ
âñòðå÷àëàñü ÷àñòî, òî ñãëàæèâàíèå äîëæíî áûòü áîëåå ñëàáûì).
p(tn |t2 . . . tn−1 ) äëÿ âûc(tn |t1 . . . tn−1 ) = 0.
Îñíîâíàÿ èäåÿ: áóäåì èñïîëüçîâàòü
÷èñëåíèÿ
p(tn |t1 . . . tn−1 ),
åñëè
Åñëè ñëîâî íå âñòðå÷àëîñü ïîñëå òåêóùåé èñòîðèè, ïåðåéä¼ì
ê áîëåå êîðîòêîé.
Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà:
pI (tn |t1 . . . tn−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Íåäîñòàòêè àääèòèâíîãî ñãëàæèâàíèÿ:
íåïîíÿòíî, êàê ïîäáèðàòü
α
(çàâèñèò îò ðàçìåðà êîðïóñà,
ðàçìåðà ñëîâàðÿ, ïîðÿäêà ýíãðàìì è ò. ä.)
ìåòîä íåãèáêèé, íå ó÷èòûâàåò èñòîðèþ t1
. . . tn−1 (åñëè èñòîðèÿ
âñòðå÷àëàñü ÷àñòî, òî ñãëàæèâàíèå äîëæíî áûòü áîëåå ñëàáûì).
p(tn |t2 . . . tn−1 ) äëÿ âûc(tn |t1 . . . tn−1 ) = 0.
Îñíîâíàÿ èäåÿ: áóäåì èñïîëüçîâàòü
÷èñëåíèÿ
p(tn |t1 . . . tn−1 ),
åñëè
Åñëè ñëîâî íå âñòðå÷àëîñü ïîñëå òåêóùåé èñòîðèè, ïåðåéä¼ì
ê áîëåå êîðîòêîé.
Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà:
pI (tn |t1 . . . tn−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
pC (tn |t1 . . . tn−1 ) =
λ
c(t1 . . . tn−1 tn )
c(t1 . . . tn−1 •)
êîðïóñíàÿ âåðîÿòíîñòü,
êîýôôèöèåíò, âîîáùå ãîâîðÿ, çàâèñÿùèé îò
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
t1 . . . tn−1 .
ßçûêîâûå ìîäåëè
Ïðèìåð
w1 w2
w3
ÿ ÷èòàë
c(w1 w2 w3 ) p(w3 |w1 w2 ) w2
1832
w3
÷èòàë
c(w2 w3 ) p(w3 |w2 )
18149
ÿ ÷èòàë ãàçåòó
3
0.0016
÷èòàë ãàçåòó
149
0.0082
ÿ ÷èòàë êíèãó
19
0.0103
÷èòàë êíèãó
138
0.0076
ÿ ÷èòàë ëåêöèþ
11
0.0060
÷èòàë ëåêöèþ
81
0.0045
ÿ ÷èòàë äîêëàä
0
0
÷èòàë äîêëàä
22
0.0012
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ïðèìåð
w1 w2
c(w1 w2 w3 ) p(w3 |w1 w2 ) w2
w3
ÿ ÷èòàë
1832
w3
÷èòàë
c(w2 w3 ) p(w3 |w2 )
18149
ÿ ÷èòàë ãàçåòó
3
0.0016
÷èòàë ãàçåòó
149
0.0082
ÿ ÷èòàë êíèãó
19
0.0103
÷èòàë êíèãó
138
0.0076
ÿ ÷èòàë ëåêöèþ
11
0.0060
÷èòàë ëåêöèþ
81
0.0045
ÿ ÷èòàë äîêëàä
0
0
÷èòàë äîêëàä
22
0.0012
Ïðè
λ = 0.5
ïîëó÷àåì
p(ãàçåòó|ÿ ÷èòàë) = 0.5 ∗ 0.0016 + 0.5 ∗ 0.0082 = 0.0049
p(äîêëàä|ÿ ÷èòàë) = 0.5 ∗ 0.0000 + 0.5 ∗ 0.0012 = 0.0006
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Îáîçíà÷èì
ti,j
= ti . . . tj .
Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà:
pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Îáîçíà÷èì
ti,j
= ti . . . tj .
Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà:
pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
Ôîðìóëà îòêàòà (backo ):
(
α(t1,n−1 )pC (tn |t1,n−1 ), c(t1,n−1 tn ) > 0,
pI (tn |t1 . . . tn−1 ) =
β(t1,n−1 )pI (tn |t2,n−1 ), c(t1,n−1 tn ) = 0
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Îáîçíà÷èì
ti,j
= ti . . . tj .
Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà:
pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
Ôîðìóëà îòêàòà (backo ):
(
α(t1,n−1 )pC (tn |t1,n−1 ), c(t1,n−1 tn ) > 0,
pI (tn |t1 . . . tn−1 ) =
β(t1,n−1 )pI (tn |t2,n−1 ), c(t1,n−1 tn ) = 0
×åì áîëüøå
λ (α â ôîðìóëå îòêàòà), òåì áîëüøå ìû äîâåðÿ-
åì èñòîðèè
t1,n−1 .
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Îáîçíà÷èì
ti,j
= ti . . . tj .
Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà:
pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
Ôîðìóëà îòêàòà (backo ):
(
α(t1,n−1 )pC (tn |t1,n−1 ), c(t1,n−1 tn ) > 0,
pI (tn |t1 . . . tn−1 ) =
β(t1,n−1 )pI (tn |t2,n−1 ), c(t1,n−1 tn ) = 0
×åì áîëüøå
λ (α â ôîðìóëå îòêàòà), òåì áîëüøå ìû äîâåðÿ-
åì èñòîðèè
t1,n−1 .
Ìíîãî ñëó÷àéíûõ ïðîäîëæåíèé ó
t1,n−1 Ïðîäîëæåíèé ìàëî è îíè ÷àñòîòíûå Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
λ ìàëî.
λ≈1
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ è îòêàò
Îáîçíà÷èì
ti,j
= ti . . . tj .
Îáùàÿ èíòåðïîëÿöèîííàÿ ôîðìóëà:
pI (tn |t1,n−1 ) = λpC (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
Ôîðìóëà îòêàòà (backo ):
(
α(t1,n−1 )pC (tn |t1,n−1 ), c(t1,n−1 tn ) > 0,
pI (tn |t1 . . . tn−1 ) =
β(t1,n−1 )pI (tn |t2,n−1 ), c(t1,n−1 tn ) = 0
×åì áîëüøå
λ (α â ôîðìóëå îòêàòà), òåì áîëüøå ìû äîâåðÿ-
åì èñòîðèè
t1,n−1 .
Ìíîãî ñëó÷àéíûõ ïðîäîëæåíèé ó
t1,n−1 Ïðîäîëæåíèé ìàëî è îíè ÷àñòîòíûå β
λ ìàëî.
λ≈1
ïîäáèðàþò, ÷òîáû ñóììà âåðîÿòíîñòåé ïîëó÷èëàñü 1.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ìåòîä Óèòòåíà-Áåëëà
Ìåòîä Óèòòåíà-Áåëëà:
pI (tn |t1,n−1 )
=
λ
=
N1+ (t1 . . . tn−1 )
N1+ (t1 . . . tn−1 )
=
λpc (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
c(t1 . . . tn−1 )
c(t1 . . . tn−1 ) + N1+ (t1 . . . tn−1 )
|{t|c(t1 . . . tn−1 t) > 0}
÷èñëî ïðîäîëæåíèé
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ìåòîä Óèòòåíà-Áåëëà
Ìåòîä Óèòòåíà-Áåëëà:
pI (tn |t1,n−1 )
=
λ
=
N1+ (t1 . . . tn−1 )
N1+ (t1 . . . tn−1 )
=
λpc (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
c(t1 . . . tn−1 )
c(t1 . . . tn−1 ) + N1+ (t1 . . . tn−1 )
|{t|c(t1 . . . tn−1 t) > 0}
÷èñëî ïðîäîëæåíèé
Ïðèìåð (áðèòàíñêèé íàöèîíàëüíûé êîðïóñ):
w1
c(w1 ) N1+ (w1 ) N3+ (w1 ) λ(w1 )
spite
2899
59
15
stupid
2898
602
117
2899
2899
+ 59
1
= 0.980
2898
2898
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
+ 602
= 0.828
− λ(w1 )
0.02
0.172
ßçûêîâûå ìîäåëè
Ìåòîä Óèòòåíà-Áåëëà
Ìåòîä Óèòòåíà-Áåëëà:
pI (tn |t1,n−1 )
=
λ
=
N1+ (t1 . . . tn−1 )
N1+ (t1 . . . tn−1 )
=
λpc (tn |t1,n−1 ) + (1 − λ)pI (tn |t2,n−1 )
c(t1 . . . tn−1 )
c(t1 . . . tn−1 ) + N1+ (t1 . . . tn−1 )
|{t|c(t1 . . . tn−1 t) > 0}
÷èñëî ïðîäîëæåíèé
Ïðèìåð (áðèòàíñêèé íàöèîíàëüíûé êîðïóñ):
w1
c(w1 ) N1+ (w1 ) N3+ (w1 ) λ(w1 )
spite
2899
59
15
stupid
2898
602
117
Óíèãðàììíàÿ ìîäåëü äëÿ
spite.
stupid
2899
2899
+ 59
1
= 0.980
2898
2898
+ 602
= 0.828
− λ(w1 )
0.02
0.172
â 8 ðàç áîëåå çíà÷èìà, ÷åì äëÿ
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
Ìåòîä Óèòòåíà-Áåëëà ó÷èòûâàåò êîëè÷åñòâî âîçìîæíûõ ïðàâûõ
ïðîäîëæåíèé.
Ìîæíî ó÷èòûâàòü è ëåâûå:
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
Ìåòîä Óèòòåíà-Áåëëà ó÷èòûâàåò êîëè÷åñòâî âîçìîæíûõ ïðàâûõ
ïðîäîëæåíèé.
Ìîæíî ó÷èòûâàòü è ëåâûå:
ïðåäøåñòâåííèêîì ñëîâà
York
New .
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ïðàêòè÷åñêè âñåãäà áóäåò ñëîâî
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
Ìåòîä Óèòòåíà-Áåëëà ó÷èòûâàåò êîëè÷åñòâî âîçìîæíûõ ïðàâûõ
ïðîäîëæåíèé.
Ìîæíî ó÷èòûâàòü è ëåâûå:
ïðåäøåñòâåííèêîì ñëîâà
York
ïðàêòè÷åñêè âñåãäà áóäåò ñëîâî
New .
ñîîòâåòñòâåííî,
p(York|w ) ≈
0 ïðè
w 6= new
(òî åñòü
íå äîëæåí ïîÿâëÿòüñÿ ïîñëå äðóãèõ ñëîâ, êðîìå
ïðè ýòîì
pUNI (York) =
c(York)
N
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
new )
äîñòàòî÷íî âåëèêà.
York
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
Ìåòîä Óèòòåíà-Áåëëà ó÷èòûâàåò êîëè÷åñòâî âîçìîæíûõ ïðàâûõ
ïðîäîëæåíèé.
Ìîæíî ó÷èòûâàòü è ëåâûå:
ïðåäøåñòâåííèêîì ñëîâà
York
ïðàêòè÷åñêè âñåãäà áóäåò ñëîâî
New .
ñîîòâåòñòâåííî,
p(York|w ) ≈
0 ïðè
w 6= new
(òî åñòü
íå äîëæåí ïîÿâëÿòüñÿ ïîñëå äðóãèõ ñëîâ, êðîìå
ïðè ýòîì
pUNI (York) =
c(York)
N
new )
York
äîñòàòî÷íî âåëèêà.
 ìåòîäå Êíåçåðà-Íåÿ óíèãðàììíàÿ âåðîÿòíîñòü ñ÷èòàåòñÿ ïî
ôîðìóëå
pKN (w )
=
N (•w )
P 1+
N1+ (•w 0 )
w0
N1+ (•w )
= |{w1 |c(w1 w ) > 0}|
÷èñëî ëåâûõ
ïðîäîëæåíèé
Ñëîâî òåì âåðîÿòíåå, ÷åì ïîñëå áîëüøåãî ÷èñëà ñëîâ îíî ìîæåò
âñòðå÷àòüñÿ.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
Äëÿ ïåðåðàñïðåäåëåíèÿ âåðîÿòíîñòåé íà íîâûå ñëîâà èñïîëüçóåòñÿ äèñêîíòèðîâàíèå (èç âñåõ ñ÷¼ò÷èêîâ âû÷èòàåòñÿ
p0 (tn |t1,n−1 ) =
c(t1,n−1 tn ) − δ
, c(t1,n−1 tn ) > 0
c(t1,n−1 •)
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
δ ).
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
Äëÿ ïåðåðàñïðåäåëåíèÿ âåðîÿòíîñòåé íà íîâûå ñëîâà èñïîëüçóåòñÿ äèñêîíòèðîâàíèå (èç âñåõ ñ÷¼ò÷èêîâ âû÷èòàåòñÿ
p0 (tn |t1,n−1 ) =
δ ).
c(t1,n−1 tn ) − δ
, c(t1,n−1 tn ) > 0
c(t1,n−1 •)
 èíòåðïîëÿöèîííîé ôîðìóëå
pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t2,n−1 )
ïîëó÷àåì
β=
δN1+ (t1,n−1 )
c(t1,n−1 •)
(âûâåäèòå ýòó ôîðìóëó).
Äëÿ óíèãðàììíûõ âåðîÿòíîñòåé ôîðìóëà ñ ïðåäûäóùåãî
ñëàéäà.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
 èíòåðïîëÿöèîííîé ôîðìóëå
pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 )
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
 èíòåðïîëÿöèîííîé ôîðìóëå
pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 )
Îñíîâíàÿ ïðîáëåìà: ïîèñê îïòèìàëüíîé
δ.
 ñòàíäàðòíîé
ðåàëèçàöèè
N2
N1
N4
= 1 − 4Y
N3
δ1 =
δ>3
1
− 2Y
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
− 3Y
N3
N2
δ2 =
1
Y
N1
N 1 + 2 N2
=
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
 èíòåðïîëÿöèîííîé ôîðìóëå
pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 )
Îñíîâíàÿ ïðîáëåìà: ïîèñê îïòèìàëüíîé
δ.
 ñòàíäàðòíîé
ðåàëèçàöèè
N2
N1
N4
= 1 − 4Y
N3
δ1 =
δ>3
Çäåñü
δi
1
− 2Y
δ2 =
Y
äèñêîíò äëÿ ñ÷¼ò÷èêîâ,
ýíãðàìì ÷àñòîòû
i.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
1
− 3Y
N3
N2
N1
N 1 + 2 N2
ðàâíûõ i , Ni =
÷èñëî
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
 èíòåðïîëÿöèîííîé ôîðìóëå
pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 )
Îñíîâíàÿ ïðîáëåìà: ïîèñê îïòèìàëüíîé
δ.
 ñòàíäàðòíîé
ðåàëèçàöèè
N2
N1
N4
= 1 − 4Y
N3
δ1 =
δ>3
Çäåñü
δi
1
− 2Y
δ2 =
Y
äèñêîíò äëÿ ñ÷¼ò÷èêîâ,
ýíãðàìì ÷àñòîòû
1
− 3Y
N3
N2
N1
N 1 + 2 N2
ðàâíûõ i , Ni =
÷èñëî
i.
 ñëó÷àå ëåêñè÷åñêèõ ýíãðàìì ìåòîä Êíåçåðà-Íåÿ íàèáîëåå
ìîùíûé.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ìåòîä Êíåçåðà-Íåÿ
 èíòåðïîëÿöèîííîé ôîðìóëå
pKN (tn |t1,n−1 ) = p0 (tn |t1,n−1 ) + β(t1,n−1 )pKN (tn |t1,n−2 )
Îñíîâíàÿ ïðîáëåìà: ïîèñê îïòèìàëüíîé
δ.
 ñòàíäàðòíîé
ðåàëèçàöèè
N2
N1
N4
= 1 − 4Y
N3
δ1 =
δ>3
Çäåñü
δi
1
− 2Y
δ2 =
Y
äèñêîíò äëÿ ñ÷¼ò÷èêîâ,
ýíãðàìì ÷àñòîòû
1
− 3Y
N3
N2
N1
N 1 + 2 N2
ðàâíûõ i , Ni =
÷èñëî
i.
 ñëó÷àå ëåêñè÷åñêèõ ýíãðàìì ìåòîä Êíåçåðà-Íåÿ íàèáîëåå
ìîùíûé.
Íåäîñòàòîê: ðàáîòàåò òîëüêî â ñëó÷àå
N1 > N2 > N 3 . . . ,
ïîýòîìó ïëîõî ïðèìåíèì ê ñèìâîëüíûì è ìîðôîëîãè÷åñêèì
ýíãðàììàì.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå
 ìîðôîëîãè÷åñêîì àíàëèçàòîðå
TnT èñïîëüçóåòñÿ òðèãðàìì-
íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå:
p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 )
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå
 ìîðôîëîãè÷åñêîì àíàëèçàòîðå
TnT èñïîëüçóåòñÿ òðèãðàìì-
íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå:
p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 )
Ìåòîä âû÷èñëåíèÿ
µ1 , µ2 , µ3 :
Äëÿ êàæäîé òðèãðàììû t1 t2 t3 â êîðïóñå âû÷èñëèòü âåëè÷èíû
c(t1 t2 t3 ) − 1
c(t2 t3 ) − 1
c(t3 ) − 1
f3 =
, f2 =
, f1 =
.
c(t1 t2 •)
c(t2 •)
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
c(•)
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå
 ìîðôîëîãè÷åñêîì àíàëèçàòîðå
TnT èñïîëüçóåòñÿ òðèãðàìì-
íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå:
p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 )
Ìåòîä âû÷èñëåíèÿ
µ1 , µ2 , µ3 :
Äëÿ êàæäîé òðèãðàììû t1 t2 t3 â êîðïóñå âû÷èñëèòü âåëè÷èíû
c(t1 t2 t3 ) − 1
c(t2 t3 ) − 1
c(t3 ) − 1
f3 =
, f2 =
, f1 =
.
c(t1 t2 •)
c(t2 •)
µk , ãäå k = argmaxj fj .
Óâåëè÷èòü
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
c(•)
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå
 ìîðôîëîãè÷åñêîì àíàëèçàòîðå
TnT èñïîëüçóåòñÿ òðèãðàìì-
íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå:
p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 )
Ìåòîä âû÷èñëåíèÿ
µ1 , µ2 , µ3 :
Äëÿ êàæäîé òðèãðàììû t1 t2 t3 â êîðïóñå âû÷èñëèòü âåëè÷èíû
c(t1 t2 t3 ) − 1
c(t2 t3 ) − 1
c(t3 ) − 1
f3 =
, f2 =
, f1 =
.
c(t1 t2 •)
c(t2 •)
µk , ãäå k = argmaxj fj .
c(•)
Óâåëè÷èòü
Åñëè íå âû÷èòàòü 1, ìåòîä ïåðåîáó÷àåòñÿ (ñëèøêîì áîëüøîé
âåñ ó òðèãðàìì).
Ýòîò ìåòîä íå ïîçâîëÿåò ó÷èòûâàòü ìåòêè, íå âñòðå÷àâøèåñÿ
â êîðïóñå, ìîæíî äîáàâèòü ê
p(t3 |t1 t2 )
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ñëàãàåìîå
1
.
µ0 |D|
ßçûêîâûå ìîäåëè
Èíòåðïîëÿöèÿ ÷åðåç óäàëåíèå
 ìîðôîëîãè÷åñêîì àíàëèçàòîðå
TnT èñïîëüçóåòñÿ òðèãðàìì-
íàÿ ìîäåëü äëÿ ìîðôîëîãè÷åñêèõ ìåòîê, îñíîâàííàÿ íà èíòåðïîëÿöèè ÷åðåç óäàëåíèå:
p(t3 |t1 t2 ) = µ3 pC (t3 |t1 t2 ) + µ2 pC (t3 |t2 ) + µ1 p(t3 )
Ìåòîä âû÷èñëåíèÿ
µ1 , µ2 , µ3 :
Äëÿ êàæäîé òðèãðàììû t1 t2 t3 â êîðïóñå âû÷èñëèòü âåëè÷èíû
c(t1 t2 t3 ) − 1
c(t2 t3 ) − 1
c(t3 ) − 1
f3 =
, f2 =
, f1 =
.
c(t1 t2 •)
c(t2 •)
µk , ãäå k = argmaxj fj .
c(•)
Óâåëè÷èòü
Åñëè íå âû÷èòàòü 1, ìåòîä ïåðåîáó÷àåòñÿ (ñëèøêîì áîëüøîé
âåñ ó òðèãðàìì).
Ýòîò ìåòîä íå ïîçâîëÿåò ó÷èòûâàòü ìåòêè, íå âñòðå÷àâøèåñÿ
p(t3 |t1 t2 )
max fj = 0.
â êîðïóñå, ìîæíî äîáàâèòü ê
µ0
óâåëè÷èâàåì, åñëè
j
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ñëàãàåìîå
1
.
µ0 |D|
ßçûêîâûå ìîäåëè
Îöåíêà êà÷åñòâà ÿçûêîâûõ ìîäåëåé
Âåðîÿòíîñòíàÿ ìîäåëü òåì ëó÷øå, ÷åì âåðîÿòíåé îêàçûâàþòñÿ
ðåàëüíûå òåêñòû òîãî æå ïðîèñõîæäåíèÿ.
Âàæíî: ïåðïëåêñèþ îáÿçàòåëüíî ìåðÿò íå íà òîì òåêñòå, íà êîòîðîì
îíà ïîëó÷åíà.
Äëÿ ñðàâíåíèÿ ïåðïëåêñèè íà ðàçíûõ òåêñòàõ âåðîÿòíîñòü íîðìèðóþò
íà îäíî ñëîâî:
1
PPM (W ) = p(w1 . . . wN )− N
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Îöåíêà êà÷åñòâà ÿçûêîâûõ ìîäåëåé
Âåðîÿòíîñòíàÿ ìîäåëü òåì ëó÷øå, ÷åì âåðîÿòíåé îêàçûâàþòñÿ
ðåàëüíûå òåêñòû òîãî æå ïðîèñõîæäåíèÿ.
Âàæíî: ïåðïëåêñèþ îáÿçàòåëüíî ìåðÿò íå íà òîì òåêñòå, íà êîòîðîì
îíà ïîëó÷åíà.
Äëÿ ñðàâíåíèÿ ïåðïëåêñèè íà ðàçíûõ òåêñòàõ âåðîÿòíîñòü íîðìèðóþò
íà îäíî ñëîâî:
1
PPM (W ) = p(w1 . . . wN )− N
Ëîãàðèôì ïåðïëåêñèè ñðåäíåå çíà÷åíèå îòðèöàòåëüíîãî ëîãàðèôìà
âåðîÿòíîñòè ñëîâà â òåêñòå.
log2 PPM (W ) =
1
N
N
X
i=1
− log2 p(wi | . . .)
 òåðìèíàõ òåîðèè èíôîðìàöèè îòðèöàòåëüíûé ëîãàðèôì âåðîÿòíîñòè
ñîáûòèÿ ýòî ÷èñëî áèòîâ, íóæíîå íà åãî îïèñàíèå.
Òî åñòü ìîäåëü òåì ëó÷øå, ÷åì ëåã÷å îïèñàòü ðåàëüíûé òåêñò â
äàííîé ìîäåëè.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ïðèìåíåíèå ÿçûêîâûõ ìîäåëåé
Îäíî èç ïðèìåíåíèé ÿçûêîâûõ ìîäåëåé èñïðàâëåíèå îïå÷àòîê.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ïðèìåíåíèå ÿçûêîâûõ ìîäåëåé
Îäíî èç ïðèìåíåíèé ÿçûêîâûõ ìîäåëåé èñïðàâëåíèå îïå÷àòîê.
Çàäà÷à ñâîäèòñÿ ê âûáîðó íàèáîëåå âåðîÿòíîãî ñëîâà â êîíòåêñòå:
ïèòü?
×àé ñòîèò ïåòü? ðóáëåé
ïÿòü
Íóæíî íàéòè, êàêîå èç íåñêîëüêèõ âîçìîæíûõ ïðåäëîæåíèé íàèáîëåå
âåðîÿòíî.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ïðèìåíåíèå ÿçûêîâûõ ìîäåëåé
Îäíî èç ïðèìåíåíèé ÿçûêîâûõ ìîäåëåé èñïðàâëåíèå îïå÷àòîê.
Çàäà÷à ñâîäèòñÿ ê âûáîðó íàèáîëåå âåðîÿòíîãî ñëîâà â êîíòåêñòå:
ïèòü?
×àé ñòîèò ïåòü? ðóáëåé
ïÿòü
Íóæíî íàéòè, êàêîå èç íåñêîëüêèõ âîçìîæíûõ ïðåäëîæåíèé íàèáîëåå
âåðîÿòíî.
Âåðîÿòíîñòü ðàñïèñûâàåòñÿ ïî áèãðàììíîé ìîäåëè:
p(s) = p(÷àé)p(ñòîèò|÷àé)p(ïåòü |ñòîèò)p(ðóáëåé|ïåòü)p(.|ðóáëåé)
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
ßçûêîâûå ìîäåëè
Ïðèìåíåíèå ÿçûêîâûõ ìîäåëåé
Îäíî èç ïðèìåíåíèé ÿçûêîâûõ ìîäåëåé èñïðàâëåíèå îïå÷àòîê.
Çàäà÷à ñâîäèòñÿ ê âûáîðó íàèáîëåå âåðîÿòíîãî ñëîâà â êîíòåêñòå:
ïèòü?
×àé ñòîèò ïåòü? ðóáëåé
ïÿòü
Íóæíî íàéòè, êàêîå èç íåñêîëüêèõ âîçìîæíûõ ïðåäëîæåíèé íàèáîëåå
âåðîÿòíî.
Âåðîÿòíîñòü ðàñïèñûâàåòñÿ ïî áèãðàììíîé ìîäåëè:
p(s) = p(÷àé)p(ñòîèò|÷àé)p(ïåòü |ñòîèò)p(ðóáëåé|ïåòü)p(.|ðóáëåé)
Íóæíî íàéòè áèãðàììû, çàâèñÿùèå îò òåêóùåãî ñëîâà, è âû÷èñëèòü,
â êàêîì ñëó÷àå èõ âåðîÿòíîñòü íàèáîëåå âåëèêà.
Äîïîëíèòåëüíî ìîæíî ó÷åñòü, ÷òî ñëîâî, êîòîðîå íàïèñàíî â
òåêñòå, áîëåå âåðîÿòíî, ÷åì åãî èñïðàâëåíèÿ.
Àëåêñåé Àíäðååâè÷ Ñîðîêèí
Ëèíãâèñòè÷åñêèå àñïåêòû íîâûõ èíôîðìàöèîííûõ òåõíîëîãèé
Download