"изучение * языка".

advertisement
Лекция 11. Поисковые системы
Интернет как корпусные менеджеры.
Специализированные корпусные
интерфейсы к индексам глобальных
поисковых систем.
В. П. Захаров
Проблемы создания корпусов







Отбор и подготовка текстов
Репрезентативность
Хронологические рамки
Разметка
Разные задачи  разные типы корпусов
Трудоёмкость
Специализированное программное
обеспечение (corpus managers)
Лекция 2
Корпусная лингвистика
2
Web как корпус


Интернет – огромный справочник, всемирная
библиотека, всемирный архив текстовой
информации
► Объем: более 15 млрд. страниц ?
► Удваивается каждые 10 – 12 мес.
► Любые типы текстов
► Разные языки
► Динамика
Но:
► Проблема метаинформации
► Проблема поисковых средств
Лекция 2
Корпусная лингвистика
3
Поисковые системы
как корпус-менеджеры
Лекция 2
Корпусная лингвистика
4
Поисковые системы как инструмент
лингвистического анализа

Наиболее важными с точки зрения лингвистического
анализа текстового материала представляются следующие
особенности ИПС:
работа со словоформами (лемматизация, «узнавание» точной
формы);

поиск слов с заданным или произвольным усечением, как правым,
так и левым;

индексирование полных текстов в полном объеме без
исключения;

работа со словосочетаниями – учет расстояния между элементами
словосочетаний и порядка их следования;

различение больших и малых букв.
Лекция 2
Корпусная лингвистика
5
Возможности поисковых систем для получения
лингвостатистических данных о частоте
Лекция 2
Корпусная лингвистика
6
Примеры
лингвистических "изысканий"
"броузер" или "браузер"
"Яндекс":
 статистика слов: броузер: 472847, браузер: 997666;
 запросов за месяц: броузер: 2150, браузер: 5335.
"офсайд" или "оффсайд"
"Яндекс":
 "офсайд": 27168 словоупотреблений
 "оффсайд": 9867 словоупотреблений
Лекция 2
Корпусная лингвистика
7
Еще примеры:
Частота употребления отдельных лексем
в Интернете
Лекция 2
Корпусная лингвистика
8
Яндекс
Лекция 2
Корпусная лингвистика
9
Языки запросов
Яндекс:

"изучение языка«
Результат поиска: страниц — 61986, сайтов — не менее 1601
Запросов за месяц: изучение — 44683, языка — 504379.

Всё для изучения языка программирования Турбо Паскаль
"изучение языков
Результат поиска: страниц — 179618, сайтов — не менее 1620
Запросов за месяц: изучение — 44683, языков — 505059.

Изучение языков в Интернете: лучшие методики и пособия
изучение /1 языка
Результат поиска: страниц — 373814, сайтов — не менее 1479
Запросов за месяц: изучение — 44683, языка — 504379.



Лекция 2
Изучение языков в Интернете: лучшие методики и пособия
Всё для изучения языков программирования
изучение /2 языка
Изучение английского языка …
Изучение иностранных языков в Интернете: лучшие
методики и пособия
Корпусная лингвистика
10
Языки запросов
Google
Результаты 1 - 10 из примерно 383 000 для изучение языка.
Результаты 1 - 10 из примерно 177 000 для изучение языков.
Результаты 1 - 10 из примерно 30 900 для "изучение языка".
Результаты 1 - 10 из примерно 20 400 для "изучение языков".
Результаты 1 - 10 из примерно 93 800 для "изучение * языка".
Результаты 1 - 10 из примерно 28 600 для "изучение * языков".
Лекция 2
Корпусная лингвистика
11
Дальнейшие возможности
Грамматический поиск по образцам
Ограничение области поиска определенными
формальными признаками:






Лекция 2
вид информации
страна
язык
время
домен
и др.
Корпусная лингвистика
12
Выводы:

В случае отсутствия подходящего корпуса
определенные лингвистические данные можно получить из
Интернета.

И в ряде случаев результаты будут даже более
представительны, чем на базе специализированных
корпусов.
Лекция 2
Корпусная лингвистика
13
WebCorp
Лекция 2
Корпусная лингвистика
14
WebCorp – входной интерфейс(1)
Лекция 2
Корпусная лингвистика
15
WebCorp – входной интерфейс(2)
Лекция 2
Корпусная лингвистика
16
WebCorp – входной интерфейс(3)
Лекция 2
Корпусная лингвистика
17
Google: изучение … языка
Лекция 2
Корпусная лингвистика
18
WebCorp: изучение … языка
WebCorp output for search term “изучение * языка”
Producing output...
http://lib.sportedu.ru/press/tpfk/2003n5/p57-60.htm
Document Dated: 2004/04/23 15:50:34 (server header)
Plain Text Word List 2241 tokens, 1186 types
информационного обеспечения в отрасли, углубленное изучение
иностранного языка, расширение перечня изучаемых прикладных
управленческих
http://sokhnut.narod.ru/NAALE/Naale.htm
Document Dated: 2002/08/06 15:16:51 (server header)
Plain Text Word List 219 tokens, 169 types
владеть же ивритом и продолжить изучение английского языка вам
помогут специальные молодежные программы
http://omzg.sscc.ru/www.citforum.ru/win/programming/prg96/94.shtml
Document Dated: 1997/12/30 03:03:00 (server header)
Plain Text Word List 5214 tokens, 2299 types
путей создания тестов является глубокое изучение стандарта языка С++, в
ходе которого выявляются
Statistics: Using the Google search engine WebCorp accessed 20 web pages, 3
of which returned errors.
5 concordances were generated.
Лекция 2
Корпусная лингвистика
19
WebCorp: изучение … … языка

WebCorp output for search term “изучение * * языка”
Producing output...
http://195.50.4.30/~littc/html/confer/publ/97/lang_97/part3.htm
Document Dated: 1999/12/28 11:40:15 (server header)
Plain Text Word List 2170 tokens, 1132 types








изучаемого языка, б) долгосрочная — изучение и использование языка в
общении. Язык является отражением
http://www.ukrbiz.net/eng/pr/7146/
Document Dated: 2005/05/31 13:23:58 (server header)
Plain Text Word List 527 tokens, 373 types
Кроме того, институт предлагает студентам изучение второго иностранного
языка. СТАЖИРОВКИ. Летние школы в зарубежных
Sort Options
Alphabetise concordance lines on :Position:Case Sensitive? : Sort by Date:
Statistics
Using the Google search engine WebCorp accessed 7 web pages, 2 of which returned
errors.
2 concordances were generated.
Лекция 2
Корпусная лингвистика
20
WebCorp: [run]
WebCorp output for search term “r[u|a]n[ning|s|]”
http://www.imdb.com/title/tt0130827/
Document Dated: 2005/01/01 00:00:00 (copyright)
Plain Text Word List 980 tokens, 607 types
 kann. (more) Plot Outline: Lola runs. To save her boyfriend's life
 his immediate death. Lola starts running immediately thinking of a million
 in her life and she runs and runs..... The quality of
 life and she runs and runs..... The quality of cuts and
http://www.chirunning.com/
Document Dated: 2005/01/01 00:00:00 (copyright)
Plain Text Word List 582 tokens, 331 types
 matters 'crucial to improving my running' I knew I had stumbled
 revolutionary book to hit the running community this decade. It will
 is revolutionizing the sport of running. Success Stories Hi I
 Now a 12 mile trail run is fun! Keep up the
Лекция 2
Корпусная лингвистика
21
The Linguist's Search Engine





Use the Linguist's Search Engine
Log in to the Linguist's Search Engine
You can use login: guest password: guest if you do not wish to register.
Register to use the Linguist's Search Engine
You should register for an account if you want to build your own
collections
User's Guide
Also available in PDF format.
Project Information
Information on the Linguist's Search Engine. Includes a Getting
Started Guide.
Лекция 2
Корпусная лингвистика
22
Developing Linguistic Corpora: a Guide to Good
Practice /Edited by Martin Wynne
Preface
Martin Wynne (AHDS Literature, Languages and Linguistics, University of Oxford, UK)
 Chapter 1
Corpus and Text: Basic Principles
John Sinclair (Tuscan Word Centre)
 Chapter 2
Adding Linguistic Annotation
Geoffrey Leech (Lancaster University)
 Chapter 3
Metadata for Corpus Work
Lou Burnard (University of Oxford)
 Chapter 4
Character Encoding in Corpus Construction
Anthony McEnery and Richard Xiao (Lancaster University)
 Chapter 5
Spoken Language Corpora
Paul Thompson (University of Reading)
 Chapter 6
Archiving, Distribution and Preservation
Martin Wynne (University of Oxford)
 Appendix to chapter one: How to make a corpus
John Sinclair (Tuscan Word Centre)
Корпусная лингвистика
Лекция 2
 Bibliography

23
Download