Мультимедийные корпуса

advertisement
Ольга Созинова
Мультимедийные корпуса
Семинар по идишу
06.09.14
Список корпусов
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
http://www.ruscorpora.ru/search-murco.html НКРЯ, мультимедийный корпус
http://childes.psy.cmu.edu/browser/index.php CHILDES Transcript Browser (Child Language
Data Exchange System)
http://secrets.rutgers.edu/dai/queryPages/querySelection.php National Center for Sign
Language and Gesture Resources (NCSLGR) corpus
http://research.nii.ac.jp/jsl-corpus/en/ Corpus Project in Colloquial Japanese Sign Language
http://www.slavist.de/Pushkin/ Диалектологический корпус (Архангельская обл.,
д.Михалевская)
http://www.scottishcorpus.ac.uk/ Scottish Corpus Of Texts & Speech
http://webapps.ael.uni-tuebingen.de/backbone-search/faces/search.jsp BACKBONE
Pedagogic corpora for content & language integrated learning
http://www.uni-tuebingen.de/elisa/html/elisa_index.html English Language Interview
Corpus as a Second-Language Application
http://www.splloc.soton.ac.uk/search.php Spanish Learner Language Oral Corpora
http://www.flloc.soton.ac.uk/search.php French Learner Language Oral Corpora
1. НКРЯ, мультимедийный корпус
• Написан на JavaScript
• Видео в формате *.flv, проигрыватель:
Yandex Player 13.101-123
• Есть возможность скачать видео в *.mp4
• Выдача большая: преконтекст, постконтекст
• Нет синхронизации видео с текстом
• Как и в основном корпусе НКРЯ –
морфологическая разметка, мощный поиск
1. НКРЯ, мультимедийный корпус
• Возможность задать речевые действия и
жесты:
– количество говорящих в клипе;
– социальная ситуация, отраженная в клипе;
– типы речевых действий;
– ориентация ладони;
– направление движения;
– многое другое
1. НКРЯ, мультимедийный корпус
• Запрос: ехать + речевое действие: вопрос к
самому себе
2. CHILDES Transcript Browser
http://childes.psy.cmu.edu/browser/index.php
• Записи детской речи
• Есть материалы с аудио, видео и просто текст
• Материалы с видео:
– Проигрыватель QuickTime Plug-in
– Текст с пронумерованными строчками,
синхронизация видео с текстом
• Поиск при помощи особого языка команд CLAN.
Разработано именно для этого проекта.
2. CHILDES Transcript Browser
http://childes.psy.cmu.edu/browser/index.php
• Страница примера
3. National Center for Sign Language and
Gesture Resources (NCSLGR) corpus
http://secrets.rutgers.edu/dai/queryPages/querySelection.php
• Корпус жестов
• Поиск по разным свойствам жестов, чекбоксы
• В выдаче таблица с названиями жестов и
именами людей, в пересечении – ссылка на видео
с жестом и видео с контекстом
• Поисковая страница – PHP, также использован
JavaScript
• Видео – JW Player 5.1.897 (очень классный!)
http://www.jwplayer.com
3. National Center for Sign Language and
Gesture Resources (NCSLGR) corpus
http://secrets.rutgers.edu/dai/queryPages/querySelection.php
• Страница выдачи
3. National Center for Sign Language and
Gesture Resources (NCSLGR) corpus
http://secrets.rutgers.edu/dai/queryPages/querySelection.php
• Видео в всплывающем окне
4. Corpus Project in Colloquial Japanese Sign
Language
http://research.nii.ac.jp/jsl-corpus/en/
• Безумно красивый сайт с Flash-вставками
4. Corpus Project in Colloquial Japanese Sign
Language
http://research.nii.ac.jp/jsl-corpus/en/
• Но совсем нет никакого поиска – просто 2
базы данных жестов
• Страница «What is your sign for?»
4. Corpus Project in Colloquial Japanese Sign
Language
http://research.nii.ac.jp/jsl-corpus/en/
• Видео в всплывающем окне с аннотацией
• Красиво, но написано на Flash -> долго
грузится
5. Диалектологический корпус (Архангельская обл.,
д.Михалевская)
http://www.slavist.de/Pushkin/
• Поиск с CQP-запросами
• Выдача аудио и текста (контекст + выделено
цветом искомое)
• Синхронизации с текстом нет, аудио
выдается только с контекстом
• PHP, XML
5. Диалектологический корпус (Архангельская обл.,
д.Михалевская)
http://www.slavist.de/Pushkin/
• Страница выдачи
6. Scottish Corpus Of Texts & Speech
http://www.scottishcorpus.ac.uk/
• Простой поиск (слово/фраза, автор, тип
текста – устный или письменный, и т.д.)
• PHP, JavaScript
• Аудио – всплывающее окно в QuickTime,
возможность синхронизации с текстом
• Возможность просмотреть только простой
текст и скачать его; также можно скачать
аудиофайл
6. Scottish Corpus Of Texts & Speech
http://www.scottishcorpus.ac.uk/
• Страница выдачи
6. Scottish Corpus Of Texts & Speech
http://www.scottishcorpus.ac.uk/
• Страница примера
6. Scottish Corpus Of Texts & Speech
http://www.scottishcorpus.ac.uk/
• Всплывающее окно с аудио
7. BACKBONE Pedagogic corpora for content & language
integrated learning
http://webapps.ael.uni-tuebingen.de/backbonesearch/faces/search.jsp
• Видео-интервью с носителями 6 языков
• Поиск по категориям (база данных), cooccurrence, concordance (но выдача только
текстовая)
• Аудио и видео только скачивать (несмотря
на надпись Play), формат *.wvx
• JavaScript
7. BACKBONE Pedagogic corpora for content & language
integrated learning
http://webapps.ael.uni-tuebingen.de/backbonesearch/faces/search.jsp
• Страница выдачи
7. BACKBONE Pedagogic corpora for content & language
integrated learning
http://webapps.ael.uni-tuebingen.de/backbonesearch/faces/search.jsp
• Всплывающее окно с аннотацией
8. English Language Interview Corpus as a Second-Language
Application (ELISA)
http://www.uni-tuebingen.de/elisa/html/elisa_index.html
• Интервью с носителями английского языка
• Похож на BACKBONE
• Для каждого интервью можно просмотреть
простой текст, XML, частотные списки слов
• Видео только скачивать (формат *.smil)
8. English Language Interview Corpus as a Second-Language
Application (ELISA)
http://www.uni-tuebingen.de/elisa/html/elisa_index.html
• Страница с интервью
9, 10. Spanish Learner Language Oral Corpora
French Learner Language Oral Corpora
http://www.splloc.soton.ac.uk/search.php
http://www.flloc.soton.ac.uk/search.php
• Корпуса для исследований французского и
испанского языков как L2
• Использованы технологии CHILDES (Child
Language Data Exchange System)
http://childes.psy.cmu.edu/
• Поиск простой, по параметрам (корпус, тип
задания – general chat, story recall, etc.)
• Аудио открывается в том же окне
• JavaScript
9, 10. Spanish Learner Language Oral Corpora
French Learner Language Oral Corpora
http://www.splloc.soton.ac.uk/search.php
http://www.flloc.soton.ac.uk/search.php
• Страница выдачи
Download