Ольга Созинова Мультимедийные корпуса Семинар по идишу 06.09.14 Список корпусов 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. http://www.ruscorpora.ru/search-murco.html НКРЯ, мультимедийный корпус http://childes.psy.cmu.edu/browser/index.php CHILDES Transcript Browser (Child Language Data Exchange System) http://secrets.rutgers.edu/dai/queryPages/querySelection.php National Center for Sign Language and Gesture Resources (NCSLGR) corpus http://research.nii.ac.jp/jsl-corpus/en/ Corpus Project in Colloquial Japanese Sign Language http://www.slavist.de/Pushkin/ Диалектологический корпус (Архангельская обл., д.Михалевская) http://www.scottishcorpus.ac.uk/ Scottish Corpus Of Texts & Speech http://webapps.ael.uni-tuebingen.de/backbone-search/faces/search.jsp BACKBONE Pedagogic corpora for content & language integrated learning http://www.uni-tuebingen.de/elisa/html/elisa_index.html English Language Interview Corpus as a Second-Language Application http://www.splloc.soton.ac.uk/search.php Spanish Learner Language Oral Corpora http://www.flloc.soton.ac.uk/search.php French Learner Language Oral Corpora 1. НКРЯ, мультимедийный корпус • Написан на JavaScript • Видео в формате *.flv, проигрыватель: Yandex Player 13.101-123 • Есть возможность скачать видео в *.mp4 • Выдача большая: преконтекст, постконтекст • Нет синхронизации видео с текстом • Как и в основном корпусе НКРЯ – морфологическая разметка, мощный поиск 1. НКРЯ, мультимедийный корпус • Возможность задать речевые действия и жесты: – количество говорящих в клипе; – социальная ситуация, отраженная в клипе; – типы речевых действий; – ориентация ладони; – направление движения; – многое другое 1. НКРЯ, мультимедийный корпус • Запрос: ехать + речевое действие: вопрос к самому себе 2. CHILDES Transcript Browser http://childes.psy.cmu.edu/browser/index.php • Записи детской речи • Есть материалы с аудио, видео и просто текст • Материалы с видео: – Проигрыватель QuickTime Plug-in – Текст с пронумерованными строчками, синхронизация видео с текстом • Поиск при помощи особого языка команд CLAN. Разработано именно для этого проекта. 2. CHILDES Transcript Browser http://childes.psy.cmu.edu/browser/index.php • Страница примера 3. National Center for Sign Language and Gesture Resources (NCSLGR) corpus http://secrets.rutgers.edu/dai/queryPages/querySelection.php • Корпус жестов • Поиск по разным свойствам жестов, чекбоксы • В выдаче таблица с названиями жестов и именами людей, в пересечении – ссылка на видео с жестом и видео с контекстом • Поисковая страница – PHP, также использован JavaScript • Видео – JW Player 5.1.897 (очень классный!) http://www.jwplayer.com 3. National Center for Sign Language and Gesture Resources (NCSLGR) corpus http://secrets.rutgers.edu/dai/queryPages/querySelection.php • Страница выдачи 3. National Center for Sign Language and Gesture Resources (NCSLGR) corpus http://secrets.rutgers.edu/dai/queryPages/querySelection.php • Видео в всплывающем окне 4. Corpus Project in Colloquial Japanese Sign Language http://research.nii.ac.jp/jsl-corpus/en/ • Безумно красивый сайт с Flash-вставками 4. Corpus Project in Colloquial Japanese Sign Language http://research.nii.ac.jp/jsl-corpus/en/ • Но совсем нет никакого поиска – просто 2 базы данных жестов • Страница «What is your sign for?» 4. Corpus Project in Colloquial Japanese Sign Language http://research.nii.ac.jp/jsl-corpus/en/ • Видео в всплывающем окне с аннотацией • Красиво, но написано на Flash -> долго грузится 5. Диалектологический корпус (Архангельская обл., д.Михалевская) http://www.slavist.de/Pushkin/ • Поиск с CQP-запросами • Выдача аудио и текста (контекст + выделено цветом искомое) • Синхронизации с текстом нет, аудио выдается только с контекстом • PHP, XML 5. Диалектологический корпус (Архангельская обл., д.Михалевская) http://www.slavist.de/Pushkin/ • Страница выдачи 6. Scottish Corpus Of Texts & Speech http://www.scottishcorpus.ac.uk/ • Простой поиск (слово/фраза, автор, тип текста – устный или письменный, и т.д.) • PHP, JavaScript • Аудио – всплывающее окно в QuickTime, возможность синхронизации с текстом • Возможность просмотреть только простой текст и скачать его; также можно скачать аудиофайл 6. Scottish Corpus Of Texts & Speech http://www.scottishcorpus.ac.uk/ • Страница выдачи 6. Scottish Corpus Of Texts & Speech http://www.scottishcorpus.ac.uk/ • Страница примера 6. Scottish Corpus Of Texts & Speech http://www.scottishcorpus.ac.uk/ • Всплывающее окно с аудио 7. BACKBONE Pedagogic corpora for content & language integrated learning http://webapps.ael.uni-tuebingen.de/backbonesearch/faces/search.jsp • Видео-интервью с носителями 6 языков • Поиск по категориям (база данных), cooccurrence, concordance (но выдача только текстовая) • Аудио и видео только скачивать (несмотря на надпись Play), формат *.wvx • JavaScript 7. BACKBONE Pedagogic corpora for content & language integrated learning http://webapps.ael.uni-tuebingen.de/backbonesearch/faces/search.jsp • Страница выдачи 7. BACKBONE Pedagogic corpora for content & language integrated learning http://webapps.ael.uni-tuebingen.de/backbonesearch/faces/search.jsp • Всплывающее окно с аннотацией 8. English Language Interview Corpus as a Second-Language Application (ELISA) http://www.uni-tuebingen.de/elisa/html/elisa_index.html • Интервью с носителями английского языка • Похож на BACKBONE • Для каждого интервью можно просмотреть простой текст, XML, частотные списки слов • Видео только скачивать (формат *.smil) 8. English Language Interview Corpus as a Second-Language Application (ELISA) http://www.uni-tuebingen.de/elisa/html/elisa_index.html • Страница с интервью 9, 10. Spanish Learner Language Oral Corpora French Learner Language Oral Corpora http://www.splloc.soton.ac.uk/search.php http://www.flloc.soton.ac.uk/search.php • Корпуса для исследований французского и испанского языков как L2 • Использованы технологии CHILDES (Child Language Data Exchange System) http://childes.psy.cmu.edu/ • Поиск простой, по параметрам (корпус, тип задания – general chat, story recall, etc.) • Аудио открывается в том же окне • JavaScript 9, 10. Spanish Learner Language Oral Corpora French Learner Language Oral Corpora http://www.splloc.soton.ac.uk/search.php http://www.flloc.soton.ac.uk/search.php • Страница выдачи