b - ITU

advertisement
ТЕОРИЯ ПОДОБИЯ КОНЕЧНЫХ
ПОСЛЕДОВАТЕЛЬНОСТЕЙ
В ЗАДАЧАХ ИДЕНТИФИКАЦИИ
СООБЩЕНИЙ
Н.В. Северин
n_severin@ukr.net
Пути выхода на сайты, содержащие
запрещенный, аморальный
или травмирующий психику контент
• ввод URL в строке браузера
• переход по баннеру (реклама)
• переход по результату запроса в
поисковой системе
Безопасный поисковый сервис
• http://www.google.ru/preferences - настройка
уровня фильтрации непристойного текста
• http://yandex.ua/familysearch - семейный поиск
• http://search.icensor.ru/ - интернет ЦЕНЗОР
(безопасная поисковая система)
• другие поисковые системы
Надежность безопасных поисковых систем:
СЕКС или СЕКИС ???
NO COMMENTS:
СЕКИС – мнение интернет-сообщества
порнозвезда или опрнозвезда ???
Типы ошибок, допускаемых
при «ручном» наборе
• искажения символа (нескольких
символов);
• пропуск символа(ов);
• вставка «лишнего» символа(ов);
• перестановки нескольких (часто –
рядом стоящих) символов.
Краткий обзор теории подобия конечных
последовательностей (ТПКП)
Пусть M0 – нулевой уровень представляющий множество букв
(например, естественного языка).
Тогда объекты 1-го уровня – это слова этого языка, а объекты 2го уровня – его предложения.
Два виды подобий для объектов a и b принадлежащих одному
уровню (например, 1-му):
1) подобие в широком смысле (Fw): объекты a и b подобны, если
число их подобных суб-объектов достаточно велико;
2) подобие в узком смысле (Fs): a и b подобны, если длиннейшая
подпоследовательность их подобных суб-объектов,
сохраняющая порядок следования этих суб-объектов в составе
как a, так и b, достаточно длинна.
Определение численных мер для каждого из двух
видов подобия
Если a и b – два объекта одного и того же ненулевого уровня, то
Fw(a,b) = dw(a,b)/max(|a|,|b|)
Fs(a,b) = ds(a,b)/max(|a|,|b|), где
dw(a,b)– число сходных суб-объектов у a и b;
ds(a,b) – длина длиннейшей подпоследовательности сходных субобъектов в a и b;
|a| – длина (число суб-объектов) объекта a.
Например, пусть M0 – множество букв латинского алфавита
a = analogy
b = analogia
c = naalogia
–
–
Fw(a,b) = Fs(a,b) = 6/8 = 0.75;
Fw(a,b) = 0.75;
Fs(a,b) = 5/8=0.625.
Выбор меры для определения подобия
• Узкую меру подобия Fs, разумно применять к
объектам 1-го уровня. Перемешивание символов в
слове изменяет его значение
• Широкая мера подобия Fw, более приемлема для
объектов 2-го уровня. Так как в большинстве
натуральных языков порядок слов в предложении
может изменяться без изменения его смысла.
Узкая мера подобия Fs
хорошо справляется с задачами в
которых следует учитывать:
• искажение символа (нескольких
символов);
• пропуск символа(ов);
• вставку «лишнего» символа(ов);
• сдвиг и/или перестановку нескольких
символов.
• (возможность изменения длины
слова)
Оценки близости слов,
полученные при использовании узкой меры подобия Fs(W,W*)
W*
(искаженное слово)
W
(правильная форма слова)
очепятка
очепатка
потенциаотно
опреляться
несовдимость
тестсе
констркцуии
опечатка
опечатка
потенциально
определяться
несводимость
тексте
конструкции
информационно-посиковых
информационно-поисковых
кажествся
мсенно
сосбенностей
произзюстрируем
сосовупность
екобходимы
довайти
взгялов
фундаметральной
кажется
именно
особенностей
проиллюстрируем
совокупность
необходимы
давайте
взглядов
фундаментальной
Оценка сходства W и
W* в ТПКП – Fs(W,
W*)
Распознавание MS
Word
(«+» – есть замена,
«–» – нет)
0.625
0.750
0.833
0.833
0.917
0.833
0.909
0.957
0.778
0.833
0.927
0.867
0.833
0.900
0.714
0.875
0.933
–
+
–
–
+
+ (тесте)
–
–
–
+(сменно)
–
–
–
–
–
–
–
Повышение порога оценки мер подобия
Занижение порога может приводить к неоправданной
идентификации «близких» слов
Решение - повышения порога за счет ввода «взвешенных» мер
ТПКП.
«Взвешенные» меры – ввод различных весов для суб-объектов
из объекта a
Вес любого суб-объекта - отражение его «существенности»
для объекта a сравнительно с другими суб-объектами из a.
изобретение
11111000000
При этом степени аналогичности («взвешенного» подобия)
будут иметь одно и то же значение 0.92 как для пары слов
{изобретение, изобрели},
так и для
{изобретение, изобритение}.
Оценка меры подобия предложений с учетом
(1)веса слов и (2)“сплоченности” слов в ИГ
Вопрос
Каково наиболее значительное достижение в области
математики конца XVII в.; и кто его автор?
Ответ с расставленными весами (эталон):
{Ньютон и Лейбниц} {изобрели} {математический анализ}
25
0
25
10
10
30
Именные группы (ИГ) выделены фигурными скобками.
- Оценка подобия производится с учетом веса слов в предложении
- В ожидаемых ответах не учитывается порядок слов внутри
именных групп, но чередование слов разных ИГ снижает
оценку «подобия» ответа эталону
Оценка системой контроля знаний
CONTROL
Ньютон и Лейбниц изобрели математический анализ
-- положительный ответ -Матем. наализ – это изобритение и Ляйбница, и Невтона.
Лейбниц и Ньютон – изобретатели матанализа.
Мат. анализ был создан Ньютоном и Лейбницем.
Лейбниц, а также Ньютон, открыли анализ.
Мат. анализ Ньютон открыл, и Лейбниц.
Матанализ, Лейбниц, Ньютон.
(1.00)
(1.00)
(1.00)
(0.85)
(0.80)
(0.95)
-- неудовлетворительный -Математика Ньютона открыла Лейбницев анализ.
Открыт и Ньютон анализом Лейбница.
Ньютон придумал Лейбница и создал анализ.
Ньютон открыл математику, Лейбниц – анализ и.
(0.39)
(0.65)
(0.63)
(0.46)
Серверы статистики ключевых
запросов
• wordstat.yandex.ru
• adwords.google.com/select/KeywordToolExternal
• stat.go.mail.ru
• adstat.rambler.ru
• серверы других поисковых систем
Выборочная статистика популярности
запросов (http://wordstat.yandex.ru/)
Спрос и предложения на очепятки
Узкая мера подобия для сообщения
a = сексуально
Сообщение b
ds(a,b) max(|a|,|b|) Fs(a,b)
сесуально
9
10
0,90
секуально
9
10
0,90
ексуально
9
10
0,90
сксуально
9
10
0,90
скесуально
9
10
0,90
есксуально
9
10
0,90
Причины малого веса подобия
Порноиндустрия
1. слишком много букв (индуст),
отсутствующих в слове-эталоне;
2. грамматически правильное длинное
составное слово и можно
рекомендовать включить его в список
эталонов, наряду с порнографией.
Грамматически правильное
длинное составное слово
эталон a1= порнозвезда
при распределении весов (тоже, что и для эталона порнография)
порнозвезда
212 11000000
будем иметь:
Gs(a1, порно-звезда, L) = 0.917
Gs(a1, порно-звездища, L) = 0.786
Gs(a1, порно-звездочка, L) = 0.733
Наличие ожидаемых в ответе (запросе) символов,
даже при их нулевых весах, приводит к
существенному росту подобия.
Download