УДК 81.322 КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА Т.Н. Тобоева 1, Н.И. Прозорова2 Национальный исследовательский Иркутский государственный технический университет, 664074, г. Иркутск, ул. Лермонтова, 83 Современный человек живет в огромной информационной среде – телевидение, радио, газеты, Интернет и т.п. Объемы информации возрастают на порядок ежегодно. Современные информационные технологии включают растущее число автоматизированных информационных систем, средств массовой коммуникации, систем информационного поиска, систем машинного перевода. Общение с компьютером развивается в сторону использования удобного для человека языка. Компьютер – это сложная техническая система, в которой все должно быть жестко формализовано и запрограммировано, но естественный язык слишком сложная структура, поэтому работа с информацией на естественном языке в современных компьютерных средах ограничивается недостатком знаний о языке. Проблемы языковой коммуникации "человек – компьютер – человек" и моделирования языка лежат в области исследований такой молодой науки, как компьютерная лингвистика, которая образовалась на стыке информатики и лингвистики. Компьютерная лингвистика, будучи одним из направлений прикладной лингвистики, изучает лингвистические основы информатики и все аспекты связи языка и мышления, моделирования языка и мышления в компьютерной среде с помощью компьютерных программ. Ил. 4. Библиогр. 4 назв. Ключевые слова: компьютерная лингвистика; обработка естественного языка; оптическое распознание символов; автоматическое распознание речи; автоматический синтез речи; информационно-поисковые системы. COMPUTER LINGUISTICS T.Toboyeva, N.Prozorova National Research Irkutsk State Technical University, 83, Lermontov St., Irkutsk, 664074 Today humans live in a large infomedia - television, radio, newspapers, Internet, etc. The volume of information increases per annum. Modern information technologies include a growing number of automated information systems, mass media, information retrieval systems, and machine translation systems. Communication with the computer is developing toward the user-friendly language. Computer is a complex technical system, in which everything must be rigidly formalised and programmed, but natural language is too complicated structure, so work with information in a natural language is limited to the lack of knowledge about language. Problems of language communication “man - machine – man” and language modelling lie in such a new field of research as computer linguistics, formed at the intersection of computer science and linguistics. Being one of the applied linguistics areas computer linguistics studies basic principles of informatics and all aspects of language and thinking relationship, language modelling and thinking by using computer programs. Illustrations: 4 pics. Sources: 4 refs. Keywords: computational linguistics, natural language processing, optical character recognition, automatic speech recognition, automatic speech synthesis, information retrieval systems В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человече- Тобоева Татьяна Николаевна, ст. преподаватель кафедры английского языка для технических специальностей, тел.: 405203. Toboyeva Tatiana, a senior lecturer of English Department . Tel.: 405 203 2 Прозорова Наталья Ивановна, студентка Института авиамашиностроения и транспорта, гр. СМ-11-2. Prozorova Natalia, a student of Aircraft, Machine Building and Transport Institute of NR ISTU, 1 1 ского мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ. А это – задача чрезвычайной сложности. Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука – компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. Поначалу, в период своего становления, она имела различные названия: математическая лингвистика, вычислительная лингвистика, инженерная лингвистика. Но в начале восьмидесятых годов за ней закрепилось название компьютерная лингвистика. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Но были и разочарования. Например, проблема машинного перевода текстов с одних языков на другие оказалась значительно сложнее, чем это представляли себе пионеры машинного перевода и их последователи. То же самое можно сказать об автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной речи. Ученым и инженерам придется, по-видимому, еще немало потрудиться, чтобы достигнуть нужных результатов. Создание компьютера в середине прошлого века стимулировало появление многих новых наук, которые возникали на стыке уже существующих. Например, бионика возникла на стыке биологии и инженерных наук, психолингвистика – психологии и лингвистики, компьютерная лингвистика – вычислительной техники и лингвистики. Появление компьютерной лингвистики было обусловлено несколькими причинами: лингвистике не хватало математической точности, обрести которую должны были помочь точные науки совместно с компьютером, новоиспечённым пользователям ЭВМ не хватало знаний, поэтому самой простой формой общения с "умными машинами" для них был естественный язык. Сфера деятельности компьютерной лингвистики очень широкая, включающая в себя компьютерное моделирование общения, моделирование структуры сюжета, гипертекстовые технологии представления текста, машинный перевод, компьютерную лексикографию. Если кратко, то компьютерная лингвистика занимается разработкой методов, технологий и конкретных систем, которые обеспечивают общение человека с компьютером на нормальном, понятном языке. Компьютерная лингвистика является ветвью науки искусственного интеллекта. Всё началось в Соединённых Штатах Америки, в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом, особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор уступает качеству перевода, произведённого человеком. Были созданы первые системы искусственного интеллекта, такие как SHGSL. Они, правда, устарели, но пользуются популярностью у студентов и научных сотрудников Академий наук, занимающихся компьютерной лингвистикой. Компьютерная лингвистика имеет несколько направлений, таких как обработка естественного языка, оптическое распознание символов, автоматическое распознание речи, автоматический синтез речи. В свою очередь обработка естественного языка включает: корпусную лингвистику, создание и использование электронных корпусов текстов; создание электронных словарей, тезаурусов, онтологий, например, Lingvo. Словари используют, например, для автоматического перевода текстов, проверки орфографии. Среди русских переводчиков популярным является Промт. Среди бесплатных известен переводчик Google Translate – автоматическое извлечение фактов из текста (извлечение информации), автореферирование. Эта функция включена, например, в Microsoft Word – построение систем управления знаниями, создание вопросно-ответных систем. Оптическое распознавание символов заключается в механическом или электронном переводах изображений с рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе. Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или 2 для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь. Например, программа FineReader. Автоматическое распознавание речи – это процесс преобразования речевого сигнала в текстовый поток. Есть платное и бесплатное ПО (программное обеспечение). Автоматический синтез речи – это формирование речевого сигнала по печатному тексту. Пока рано говорить о каком-то перспективном будущем на ближайшие десятилетия для синтеза речи по правилам, так как звучание все еще напоминает больше всего речь роботов, а местами это еще и труднопонимаемая речь. Что точно можно безошибочно определять, так это то, что говорит ли синтезатор речи мужским или женским голосом, а тонкости, присущие человеческому голосу, мы порой все еще не различаем. Поэтому технология разработки частично отвернулась от фактического построения синтеза речевых сигналов, но все также продолжает использовать простейшую сегментацию записи голоса. Бурное развитие направления «обработки естественного языка» приходится на 1970-е годы, что было связано с неожиданным экспоненциальным ростом количества конечных пользователей ЭВМ. Поскольку обучение языкам и технологии программирования всех пользователей невозможно, возникла проблема организации взаимодействия с компьютерными программами. Решение этой проблемы коммуникации шло по двум основным путям. В первом случае предпринимались попытки адаптации языков программирования и операционных систем к конечному пользователю. В результате появились языки высокого уровня типа Visual Basic, а также удобные операционные системы, построенные в концептуальном пространстве привычных для человеку метафор – ПИСЬМЕННЫЙ СТОЛ, БИБЛИОТЕКА. Второй путь – разработка систем, которые позволяли бы взаимодействовать с ЭВМ в конкретной проблемной области на естественном языке или каком-то его ограниченном варианте. Тезаурус – это особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами. Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей. Одним из наиболее распространенных тезаурусов по глобальной сети является Викисловарь – свободно пополняемый многофункциональный многоязычный словарь и тезаурус. Также существует РуТез – тезаурус русского языка, который был создан Центром информационных исследований как инструмент для автоматического индексирования, разрабатывается с 1997 года по настоящее время. ABBYY Lingvo – семейство электронных (с 1989 г.) и печатных (с 2007 г.) словарей, создано российской компанией ABBYY (рис. 1). Многоязычная версия охватывает 15 языков: русский, украинский, английский, немецкий, французский, испанский и многие другие. Также существует Европейская версия – 130 словарей на 7 языках и англо-русско-английский электронный словарь. Рис. 1. Скриншот ABBYY Lingvo x3 Multilingual Edition 3 В ABBYY Lingvo нет функции полнотекстового перевода, но возможен пословный перевод текстов из буфера обмена. В некоторых словарях на английском, немецком и французском большинство слов озвучены профессиональными дикторами – носителями языка. В состав программы входит обучающий модуль Lingvo Tutor, помогающий запоминать новые слова. Помимо существующих 150 профессиональных словарей, результата лексикографической работы сотрудников компании ABBYY и авторитетных бумажных и электронных словарей существует обширная база бесплатных пользовательских словарей для программы. Словари предварительно проверяются и находятся в общем доступе на сайте Ассоциации лексикографов Lingvo. Автоматическим переводом текста сейчас пользуется практически каждый школьник и студент, готовясь к английскому языку или даже немецкому, или французскому и многим другим. Конечно, зачем сидеть со словарем и листать его, когда можно просто скачать словарь из интернета, но вряд ли этот перевод будет идеальным. Из крупнейших российских компаний по машинному переводу является компания PROMT – ведущий российский разработчик систем перевода для корпораций и частных пользователей с центром разработки в России. Решения PROMT обеспечивают перевод текстов с английского, русского, немецкого и многих других языков, поддерживая 47 языковых пар. Один из продуктов этой кампании можно привести в пример – это переводчик PROMT Professional (рис. 2). Он предназначен для профессионального перевода документов различных форматов, web-страниц, поисковых запросов, электронной почты, мгновенных сообщений, а также представляет ряд дополнительных возможностей, например, извлечение терминологии из текстов или пакетный файлов. Рис. 2. Скриншот переводчик PROMT Profrssional 9.0 Среди бесплатных переводчиков существует Google Translate, который расположен на сайте поисковой системы Google (рис. 3). Сервис включает в себя перевод части текста или всей вебстраницы и даже одновременный поиск информации с переводом на другой язык. Для вебдизайнеров сотрудниками компании был разработан скрипт, который позволяет организовать перевод сайта на все доступные языки. 4 Рис. 3. Скриншот Google Translate Google-переводчик, как и другие инструменты автоматического перевода, имеет свои ограничения. Этот инструмент может помочь читателю понять общий смысл содержания текста на иностранном языке, он не предоставляет точных переводов. Постоянно ведётся работа над качеством перевода, разрабатываются переводы на другие языки. При использовании любого переводчика перевод будет неконкретным и неправильным, но то, о чем говориться в тексте, понять можно. Но всё же, лучший перевод с иностранного языка – этот перевод, который выполнил человек, а не компьютер, ведь компьютер – это всего лишь запрограммированная машина. Извлечение информации – разновидность информационного поиска, при которой из неструктурированного машинно-читаемого текста (то есть электронных документов) выделяется некая структурированная информация, то есть категоризированные, семантически значимые данные по какойлибо проблеме или вопросу. Примером извлечения информации может послужить выискивание случаев деловых визитов. Главная цель такого преобразования – возможность анализа изначально «хаотичной» информации с помощью стандартных методов обработки данных. Более узкой целью может служить, например, задача выявления логических закономерностей в описанных в тексте событиях. В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает из-за стремительного увеличения количества неструктурированной информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML-разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже. Типичная задача извлечения информации – просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем), часто только на одну тему. Тексты на естественном языке могут потребовать некоего предварительного упрощения для создания текста, который будет лучше «пониматься» компьютером. Типичные подзадачи извлечения информации: распознавание именованных элементов – распознавание имён людей, названий организаций, мест, временных обозначений и некоторых типов численных выражений; ссылки – выделение словесных оборотов, ссылающихся на один и тот же объект (типичный случай таких ссылок – анафора и использование местоимений); выделение терминологии – нахождение для данного текста ключевых слов. Еще одно направление компьютерной лингвистики – это оптическое распознание символов. Оно представляет собой механический или электронный перевод изображений с рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в 5 текстовом редакторе. Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на вебстранице. Оптическое распознавание текста позволяет редактировать его, осуществлять поиск слова или фразы, хранить текст в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и компьютерного зрения. Системы оптического распознавания текста требуют калибровки для работы с конкретным шрифтом; в ранних версиях для программирования было необходимо изображение каждого символа, программа одновременно могла работать только с одним шрифтом. В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие нетекстовые компоненты. Примером распознавания символов может послужить программа FineReader, разработанная российской компанией ABBYY (рис. 4). Рис. 4. Скриншот ABBYY FineReader 8.0 Professional Edition Она позволяет извлекать текстовые данные из цифровых изображений (фотографий, результатов сканирования, PDF-файлов). Полученное в результате распознавания может быть сохранено в различных форматах файлов: Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF и других. Программа поддерживает распознавание текста на 188 языках и имеет встроенную проверку орфографии для 45 из них. Программа FineReader очень проста и удобна в использовании. С ее помощью можно легко и просто занести любую информацию, которая необходима, например, различные текстовые документы, кстати, с помощью нее можно отсканировать текст и перевести его с помощью переводчика. Также существуют распознавание речи и синтез речи, которые являются обратными друг другу. Распознавание речи – это преобразования речевого сигнала в текстовый поток, а синтез речи – это формирование речевого сигнала по печатному тексту. Распознавание речи выполняется программами, которые могут быть либо установлены на компьютере, либо «прошиты» в памяти мобильных гаджетов. С технической точки зрения любое распознавание речи осуществляется по одному и тому же принципу: микрофон воспринимает звуковые волны человеческого голоса, а система распознавания речи преобразует их в текст, который впо- 6 следствии сопоставляется с заранее заданными образцами. В подобных программах, как правило, таких образцов довольно много. Синтез речи может потребоваться во всех случаях, когда получателем информации является человек. Но о самом качестве синтезатора речи, прежде всего, судят по его сходству с человеческим голосом, а также по способности быть понятным. Самую наипростейшую синтезированную речь можно создавать путем объединения частей записанной речи, которые затем будут храниться в базе данных. Синтез речи по тексту или коду сообщения может быть использован: в информационно-справочных системах; для помощи слепым и немым; при объявлениях об отправлении поездов и т. п.; для выдачи информации о технологических процессах в военной и авиакосмической технике, в робототехнике, в акустическом диалоге человека с компьютером; звуковой эффект нередко используется в создании электронной музыки. Пока рано говорить о каком-то перспективном будущем на ближайшие десятилетия для синтеза речи по правилам, так как звучание все еще напоминает речь роботов, а местами это труднопонимаемая речь. Мы можем безошибочно определять, говорит ли синтезатор речи мужским или женским голосом, а тонкости, присущие человеческому голосу, мы все еще не различаем. Поэтому технология разработки частично отвернулась от фактического построения синтеза речевых сигналов, но все также продолжает использовать простейшую сегментацию записи голоса. Важнейшим направлением компьютерной лингвистики является разработка информационнопоисковых систем (ИПС). По типу хранимой и обрабатываемой информации, а также по особенностям поиска ИПС разделяются на две больших группы – документальные и фактографические. В документальных ИПС хранятся тексты документов или их описания (рефераты, библиографические карточки и т.д.). Фактографические ИПС имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и другие виды представления данных. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). Для обеспечения информационного поиска в ИПС создаются специальные информационно-поисковые языки, в основе которых лежат информационно-поисковые тезаурусы. Информационно-поисковый язык – это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Самыми популярными поисковыми системами являются Яндекс, Google, Yahoo!. С их помощью можно найти много полезной информации, сайты, где можно скачать фильмы, музыку, картинки, видео и т. д. За последние полвека в области компьютерной лингвистики получены значительные результаты, но еще больше здесь предстоит сделать. Естественный язык – очень сложное явление, непосредственно связанное с процессами мышления. Поэтому в лингвистике вообще и в компьютерной лингвистике, в частности, наряду с блестящими достижениями есть еще много нерешенных проблем, а среди ученых-лингвистов бытует немало заблуждений, тормозящих развитие информационных технологий. Важнейшей задачей компьютерной лингвистики на современном этапе ее развития является составление достаточно представительных словарей наименований понятий – выявление основного понятийного фонда естественных языков. Этот фонд предположительно будет состоять из сотен миллионов слов и фразеологических словосочетаний. Выполнение поставленной задачи благотворно повлияет на развитие информационных технологий, связанных с автоматической обработкой текстовой информации. Опыт полувекового развития компьютерной лингвистики продемонстрировал широкие возможности конструктивного алгоритмического подхода к решению ее задач. Вместе с тем он выявил и ограниченность этого подхода. Оказалось что в некоторых сложных ситуациях алгоритмический подход неэффективен, и в таких случаях лучше применять метод аналогии. В этой связи у специалистов по компьютерной лингвистике и перспективным информационным технологиям сформировалась точка зрения, согласно которой часть задач может решаться “по правилам”, а другая – “по аналогии с прецедентами”. Возможны и гибридные технологии, в которых целесообразно использовать оба этих подхода. Библиографический список 1. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии. – М.: Русский мир, 2004. 2. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность. // Перевод в современном мире. М.: ВЦП, 2001. 3. Электронный ресурс. – Режим доступа: http://www.krugosvet.ru/ enc/gumanitarnye_nauki/lingvistika/KOMPYUTERNAYA_LINGVISTIKA.html 4. Электронный ресурс. – Режим доступа: http://www.secreti.info/index-kl.html 7