ТЕСТЫ И ОБЗОРЫ Человек против машины Стереоскопический СЛУХ Цикл ЧЕЛОВЕК против МАШИНЫ Часть 1: Непринужденная беседа: может ли машина говорить с человеком? Часть 2: Футбольный матч: робот пасует лучше, чем профи? Часть 3: Проверка зрения: у компьютера более зоркий взгляд? Часть 4: Абсолютный слух: кто различает больше звуковых частот? Часть 5: Великолепный нюх: компьютер чувствует даже отдельные молекулы? Часть 6: Проверка пальцев: манипулятор робота точнее, чем человеческая рука? 42 Ч еловеческое ухо — чрезвычайно сложная система с невероятно точным измерительным аппаратом: при помощи более чем 15 500 волосковых клеток оно способно различать более 400 000 звуков, а люди с так называемым абсолютным слухом могут точно определять высоту звучащего тона. И все же у нашего слуха есть ограничения. Например, человек способен послушать песни китов только при ➜ www.ichip.ru CHIP | НОЯБРЬ 2011 ФОТО: КОМПАНИИ-ПРОИЗВОДИТЕЛИ; KOLOSSOS/WIKIPEDIA.ORG; MARTIN MILLER; VLADISLAV OCIACIA/ISTOCKPHOTO.COM; ИЛЛЮСТРАЦИИ: ESTHER SCHENK-PANIK Ухо — самый быстрый из органов чувств человека. Смогут ли машины превзойти нас в этой области? ТЕСТЫ И ОБЗОРЫ Человек против машины помощи специальных подводных микрофонов, так как высота этого звука составляет 280 кГц. Человеческое же ухо различает только частоты между 16 Гц и 20 кГц. Оборудование вроде подводного микрофона может распознавать гораздо более широкий диапазон, однако это не значит, что оно слышит лучше. У подобных устройств нет способностей, присущих человеку: ухо может концентрироваться на отдельных звуках и безошибочно определять их источник. Например, по звуку падающей бутылки человеку не составит труда установить ее местоположение с точностью до метра. Смотрим ушами: стереоскопическая ориентация Независимо от того, где раздаются звук — спереди, сзади или сбоку, наши уши абсолютно точно определяют его направление и даже расстояние до его источника. Для исследователей, стремящихся максимально приблизить слух машины к человеческому, ключевыми являются две особенности нашего органа: уши распозна- Человек определяет источник звука с точностью до метра ют две разности — временную (задержка во времени достижения одинаковых фаз звука) и интенсивностную (отличия в давлении одинаковых фаз звука на уши). Голова представляет собой естественное препятствие, от которого звук отражается, в результате чего уменьшается его интенсивность, — такой эффект называется тенью головы. Временная разница рассчитывается по времени, за которое звук достигает разных ушей: например, если звук идет слева, он сначала достигает левого уха и движется дальше со скоростью 340 м/с. Но даже такая скорость не составляет особых проблем для наших ушей. «Уши различают разницу во времени с точностью до десяти микросекунд», — объясняет доктор Вернер Хеммерт, специалист по обработке биоаналоговой информации Мюнхенского технического Института. «В восприятии стереозвука также задействованы мышцы уха и плечи», — сообщает доктор Манфред Хилд, глава лаборатории нейроробототехники в Берлинском университете имени Гумбольдта. Ученые используют эти качества наших органов при создании некоторых искусственных систем: уже существует несколько экспериментальных машин с «головами», по форме повторяющими человеческие, и прикрепленными к микрофонам аналогами мышц уха, что позволяет добиться максимально натурального восприятия стереозвука. Еще один достаточно распространенный подход — использование для локализации звука нескольких микрофонов. Также макеты головы применяются при записи объемного звука, ведь, чтобы добиться эффекта окружения, необязательно задействовать многоканальные акустические системы и расставлять колонки вокруг слушателя. Нужны лишь наушники и записанный особым образом двухканальный аудио- 44 трек. В тех точках, где у человека расположены уши, на макете вмонтированы либо приставлены микрофоны. Благодаря такому расположению воспринимающих устройств звук доходит до них с той же разницей во времени, что и в случае с человеческими ушами, а также сохраняется эффект тени головы. Все это позволяет при прослушивании в наушниках создать эффект объемного звука, когда слушатель может достаточно точно определить, на каком расстоянии от него и в каком направлении находится виртуальный источник шума. Звук получается настолько натуральным, что можно даже испугаться, внезапно услышав шепот прямо у себя за спиной. Вы оборачиваетесь, точно зная, что кто-то стоит за вашим левым плечом, но там никого нет — это был лишь звуковой эффект. Использование наушников — крайне важный момент: никакая другая акустика в данном случае не подойдет, ведь звук из колонок будет претерпевать все искажения, уже произведенные при записи, что повлечет за собой исчезновение эффекта объемного звучания. Когда же звук поступает в уши напрямую, эффекты временной разности, тени головы и разности интенсивности отсутствуют, поэтому мозг воспринимает искажения, полученные при записи, как реальные и все естественные механизмы работают практически без ошибок. Обманув таким образом мозг, можно достичь потрясающего эффекта присутствия. Даже многоканальные аудиосистемы пока не позволяют добиться настолько точного позиционирования. Расставив колонки вокруг слушателя, можно достичь только приблизительной локализации звука: вы сумеете определить, что источник находится слева, справа или у вас за спиной, но рассчитать расстояние до него будет крайне трудно, а угол, под которым он будет находиться, ➜ Макеты головы со встроенными микрофонами используются для записи бинаурального аудио, при прослушивании обладающего эффектом объемного звука www.ichip.ru CHIP | НОЯБРЬ 2011 ТЕСТЫ И ОБЗОРЫ Человек против машины Сильные и слабые стороны Человек + Чрезвычайно быстрое преобразование в нервные импульсы + Определяет местоположение источника звука с точностью до градуса + Отличное шумоподавление ТАК СЛЫШАТ ЛЮДИ Ушная раковина направляет звуковые волны в голову, где воздух с разным давлением проходит сквозь жидкость внутреннего уха и превращается в нервные импульсы. Ограниченный диапазон распознаваемых частот Падение эффективности с возрастом Преобразование звука Благодаря устройству мышц человек может слышать стереозвук даже одним ухом. Слуховой нерв Молоточек и наковальня Барабанная перепонка Слуховые косточки усиливают колебания давления и передают их при помощи жидкости в среднее ухо. Молоточек Наковальня Стремечко Барабанная Среднее ухо перепонка Улитка состоит из каналов, наполненных жидкостью, через которые колебания воздуха передаются волосковым клеткам. Слуховой нерв состоит из более чем 30 000 нервных волокон. Каждое из них отвечает за отдельную частоту звука, при обнаружении которой отправляется сигнал в мозг. Улитка Наружные волосковые клетки Каналы с жидкостью обусловлен исключительно углом, под которым будет повернута колонка. Обмануть мозг таким образом не удастся — получится лишь наметить расположение источников звука, а дальше слушателю придется пустить в ход свое воображение. Однако вернемся к роботам. Стереоскопическая ориентация для них работает прекрасно лишь до тех пор, пока эксперименты проводятся в специально подготовленной для этого среде. Как только машины помещаются в обычные условия, ошибок не миновать. Основное отличие машины от человека — отсутствие разума. Существует достаточно известная «проблема коктейльной вечеринки», когда в одном помещении одновременно разговаривает множество человек и звучит музыка. Человек при этом способен отфильтровывать все посторонние шумы и концентрироваться на одном диалоге. У машин же возникают серьезные проблемы: они уже не могут фильтровать необходимые частоты. Роботу необходимо знать, какой из источников звука действительно представляет интерес, чтобы сконцентрироваться на определенных интонациях. Кроме того, машина должна уметь вычленять и отбрасывать все посторонние шумы, что для человека не является проблемой. 46 Наружные волосковые клетки в улитке функционируют как усилители звука, в то время как внутренние преобразуют сигнал в нервные импульсы. Слуховой нерв Внутренние волосковые клетки Технология вместо разума: компромисс Таким образом, ученые разрабатывают различные трюки, зависящие от области применения, пытаясь научить машины лучше слышать. Дело в том, что «умные» системы являются не только полем для исследований. Производители также получают прибыль от внедрения отдельных решений, многие из которых уже присутствуют на рынке. «Это очень важная тема, так как эти тех- Ориентироваться на слух машины пока могут только в лабораториях нологии используются в мобильных телефонах и беспроводных гарнитурах, автомобилях и переговорных комнатах», — говорит нейроробототехник Хилд. Решение заключается в том, чтобы обрезать определенные частоты. Однако Хилд утверждает, что это не всегда реально: «Невозможно отфильтровать звук мотора, находясь при этом в машине, так как этот шум смешивается со всем частотным диапазоном. В данной ситуации необходим направленный анализ звука». www.ichip.ru CHIP | НОЯБРЬ 2011 Сильные и слабые стороны + Распознает большой частотный диапазон Робот Определяет точное расположение источника звука только в лабораторных условиях КАК СЛЫШАТ РОБОТЫ Не способен к стереоскопической ориентации в повседневных условиях Машине требуется как минимум два микрофона, чтобы иметь возможность ориентироваться в пространстве при помощи слуха и определять изменения звука. Медленная обработка сигнала Низкий уровень фильтрации шумов Стереоскопический ввод Звук поступает на левый микрофон беспрепятственно. На правый сигнал приходит позже и оказывается тише из-за эффекта тени головы. Левый Правый микрофон микрофон Так работает конденсаторный микрофон Мембрана вибрирует под действием звуковых колебаний, при этом расстояние до считывающего электрода изменяется, что сказывается на напряжении в конденсаторе и порождает сигнал. Высокоомный резистор Сигнал Звуковые волны Мембрана Источник питания Считывающий электрод Используемый в подобных случаях процесс называется слепым разделением сигнала: производители задействуют несколько распределенных в пространстве микрофонов, которые применяются исключительно для распознавания и фильтрации посторонних шумов, и в итоге должен оставаться только голос водителя. Разработчики смартфонов придерживаются того же принципа, встраивая микрофон в заднюю крышку. Данные с этого воспринимающего устройства сравниваются с данными, получаемыми от основного микрофона, что позволяет определить и отфильтровать окружающие шумы из основного сигнала. Это достаточно примитивная технология, и она не застрахована от ошибок, ведь если шумы регистрируются обоими микрофонами в равной степени, то отфильтрованы они не будут. По словам Хеммерта, никаких прорывов в этой области пока не ожидается: «Исследования зашли в тупик. Никто не знает, почему человек может слышать настолько лучше». Все дело в том, что машины никак не могут приспособиться к окружающему шуму. Если в комнате, где нет эхо, машина способна без труда определить источник звука, то в крупном помещении, где звук отражается от стен, при выполнении той же задачи без дополнительной оптимизации она столкнется с огромной проблемой. CHIP | НОЯБРЬ 2011 www.ichip.ru Звуковая карта преобразует аналоговый сигнал в цифровой и определяет точность временных интервалов: частота дикретизации большинства таких устройств составляет 44,1 кГц (CD-качество), что означает точность до 22,67 мс. Взаимокорреляционная функция устанавливает местоположение источника звука. Алгоритм считывает частоты с обоих каналов с целью определения временных различий, после чего система рассчитывает угол, под которым источник располагается относительно нее. Уровень левого канала Уровень правого канала Перед системами распознавания речи такая задача не стоит, ведь в этом случае чаще всего микрофон располагается непосредственно напротив рта говорящего. «Система распознает то, что звучит громче всего», — объясняет Хеммерт. Однако у таких программ есть свои проблемы, связанные со слухом: им нужно понимать, что именно произносится, и интерпретировать полученную информацию надлежащим образом. Особенно трудно дается внедрение этой технологии там, где нет привязки к голосу единственного пользователя, — например, в навигационных системах. Вывод. Роботам потребуется некоторое время, чтобы научиться ориентироваться в повседневной обстановке при помощи слуха. Вот что говорит о перспективах развития данной технологии Манфред Хилд: «Человеку нужно отойти на шаг в сторону и позволить этим системам обучаться». Он ожидает прорыва в тот момент, когда роботы смогут обрабатывать тактильную, звуковую и визуальную информацию одновременно. Ведь даже человек при восприятии звука не опирается на одни только уши — он определяет местоположение своего собеседника с помощью глаз и направляет свою голову в сторону источника звука, чтобы иметь возможность лучше слышать. 47