Исследовательская работа на тему: Системы распознавания речи в современном мире




Исследовательская работа

«Системы распознавания речи в современном мире»

















Содержание

13LINK \l "введение"14Введение...315
13LINK \l "принципы"14Принципы распознавания речи..315
13LINK \l "программы"14Программы распознавания речи, применяемые за рубежом...915
13LINK \l "отечественные"14Отечественные разработки систем распознавания речи....1615
13LINK \l "вывод"14Вывод..1715


























Введение
Системы распознавания речи являются неотъемлемой частью современного общества. За кажущейся несерьезностью диалога с компьютером скрывается не только очень большая работа ученых многих специальностей – лингвистов, логиков, математиков, программистов, но и значимость решаемой задачи. Ведь проблема распознавания речи чрезвычайно серьезная, играет огромную роль в общении человека с машиной: телефонный доступ к автоматическим справочным системам, управление удаленным компьютером или управление портативным устройством осуществляемое во время движения или набор текста под диктовку и т.д.
Речевое, столь привычное, естественное для человека управление объектами открыло бы широкие перспективы перед автоматизацией производства, развернуло бы границы возможностей общения с машинами, особенно пользователей персональных компьютеров, незнающих языков программирования или людей с ограниченными возможностями.
В современном мире насчитывается огромное количество программ распознавания речи: Dragon Naturally Speaking, Intelligent Voice Recognition System, Горыныч, Realize Voice, Voice Studio, Dictation и т.д. И это лишь малая доля программ искусственного интеллекта способные распознавать речь. Но все ли из этих программ способны распознавать речь? Дают ли эти программы 100% гарантии распознавания текста или команд? А каков интерфейс данных программ? Может быстрее набрать текст вручную, чем осуществлять речевой ввод текста? На эти и другие вопросы мы постараемся ответить в нашей исследовательской работе.
Принципы распознавания речи
Теоретически машинное распознавание речи, т.е. ее автоматическое представление в виде текста, является крайней степенью сжатия речевого сигнала. У каждого звука сложная волновая структура, включающая различные частоты и колебания, к тому же, естественно, одно и то же слово разные люди произносят по своему: различный тембр голоса (звуковая окраска), разные интонации, разная частота произношения. Чтобы машина произнесла, например, на венгерском языке «добрый день» нужно записать в её память 500 различных характеристик.
Исследователи затратили много сил и времени, начиняя компьютер гигантской информацией, даже для того, чтобы распознать отдельные звуки, а тем более чтобы машина научилась понимать человеческий язык, отвечать на вопросы.
Многие научные центры, в том числе и в нашей стране, брались за решение этой проблемы (фундаментальные исследования теории языка, которые велись в 1970-х гг. в СССР, легли в основу многих современных продуктов), но первый серьезный прорыв в области речевых технологий удалось сделать только в 1986 г. в Defense Advanced Research Project Agency (DARPA) Агентстве перспективных исследований Министерства обороны США.
Рассмотрим принципы распознавания речи. Системы распознавания речи обычно состоят из двух компонентов, которые могут быть выделены в блоки или в подпрограммы акустической и лингвистической. Лингвистическая часть может включать в себя фонетическую, фонологическую, морфологическую, синтаксическую и семантическую модели языка. Акустическая модель отвечает за представление речевого сигнала. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю.
Существуют два подхода к построению акустической модели: изобретательский и бионический. Оба подхода имеют свои достоинства и недостатки. Первый базируется на результатах поиска механизма функционирования акустической модели. При втором подходе разработчик пытается понять и смоделировать работу естественных систем.
Лингвистический блок подразделяется на следующие слои (уровни); фонетический, фонологический, морфологический, лексический, синтаксический, семантический. Все уровни содержат априорную информацию о структуре естественного языка, а, как известно, любая априорная информация об интересующем предмете увеличивает шансы принятия верного решения. Поскольку естественный язык несет весьма сильно структурированную информацию, для каждого естественного языка может потребоваться своя уникальная лингвистическая модель (отсюда трудности русификации сложных систем распознавания речи зарубежной разработки).
В соответствии с данной моделью на первом (фонетическом) уровне производится преобразование входного (для лингвистического блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном речевом сигнале можно обнаружить лишь аллофоны варианты фонем, зависящие от звукового окружения.
На следующем (фонологическом) уровне накладываются ограничения на комбинаторику фонем (аллофонов) не все сочетания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математический аппарат цепей Маркова.
Далее, на морфологическом уровне оперируют со слогоподобными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограничение уже на структуру слова, подчиняясь закономерностям моделируемого естественного языка.
Лексический уровень охватывает слова и словоформы того или иного естественного языка, т. е. словарь языка, также внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает соотношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При помощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения.
Российская компания «ИстраСофт» известна пакетом для обучения английскому языку с визуальным контролем произношения «Профессор Хиггинс». Развивая «Хиггинса», сотрудники «ИстраСофт» совершили технологический прорыв, значение которого трудно переоценить: они научились членить слова на элементарные сегменты, соответствующие звукам речи, независимо от диктора и от языка (Существующие системы распознавания речи не производят сегментации, наименьшей единицей для них является слово.) Демонстрация новой технологии выглядит пока не очень эффектно: это всего-навсего упаковка и распаковка звуковых файлов с записью речи правда, с высокими коэффициентами сжатия. Если файл был сжат сильно, то после распаковки в нем появляются отчетливо слышные границы между сегментами; использованию программы по прямому назначению они, конечно, мешают, но специалисту позволяют убедиться в правильности разделения.
В основе алгоритма лежит выделение фонем из потока слитной речи в режиме реального времени, их кодирование и последующее восстановление, однако у разработчиков нет единого мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой «ИстраСофт», допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз качество сигнала практически не падает.
Чтобы создать основанную на новой технологии систему распознавания, необходимо «привязать» сегментацию к конкретному языку с помощью двух словарей «звукового», сопоставляющего реальным звукам речи определенные фонемы, т. е. смыслоразличительные единицы (на слух мы, как правило, воспринимаем именно фонемы родного языка, не замечая различий между их вариантами, обусловленными, например, позицией), и «фонетико-орфографического», который будет переводить фонемную запись в письменную. Принципиально ничего сложного здесь нет: это вполне рутинная, умеренно трудоемкая техническая задача.
Интеллектуальная обработка речи на уровне фонем перспективна не только как способ сжатия, но и как шаг на пути к созданию нового поколения систем распознавания речи.
В процессе цифровой обработки речевой сигнал подвергается сначала логарифмическому, а затем обратному преобразованию Фурье, в результате чего отыскивается с десяток первых коэффициентов, несущих наиболее существенную информацию об огибающей спектральной характеристики сигнала. Собственно, современные развитые коммерческие программы распознавания речи и отличаются именно способом реализации механизма выбора из встроенной (или созданной пользователем) базы данных наиболее вероятного набора фонем (минимально значимых элементов, из которых состоит слово).
На первом этапе компьютер записывает звук речи в виде цифровой аудиопоследовательности и делит ее на фрагменты длительностью несколько миллисекунд. Программа сравнивает эти аудио фрагменты с записанными в память речевыми образцами. Качество базы данных образцов является наиболее важным условием для безошибочного распознавания речи. Она содержит фрагменты речи различных людей с разными особенностями произношения, такими, как снижение звука, диалект, выделение слогов и произношение. Эта часть системы распознавания речи называется системой, не зависящей от говорящего.
Систему, не зависящую от говорящего, дополняет система распознавания говорящего. В основе последней лежит понятие фонемы наименьшей акустической единицы языка. В процессе тренировки программное обеспечение распознает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля говорящего. Очень важно, чтобы в дальнейшем во время диктовки
пользователь по возможности точно выдерживал мелодию речи и произношение.
В системе распознавания говорящего при определении «сомнительных слов» используется тот факт, что после определенного слова могут следовать (и имеют при этом смысл) лишь немногие конкретные слова. Владельцам мобильных телефонов этот способ знаком по SMS-сообщениям, при наборе которых нужное слово предлагается автоматически.
Таким образом, системы распознавания речи можно классифицировать по нескольким параметрам:
классификация по назначению:
командные системы;
системы диктовки текста.
по потребительским качествам:
диктороориентированные (тренируемые на конкретного диктора);
дикторонезависимые;
распознающие отдельные слова;
распознающие слитную речь.
По механизмам функционирования:
простейшие (корреляционные) детекторы;
экспертные системы с различным способом формирования и обработки базы знаний;
вероятностно-сетевые модели принятия решения, в том числе нейронные сети.
Разумеется, относительно проще реализовать программу, способную распознавать только ограниченный, совсем небольшой набор управляющих команд и символов. Это, например, могут быть цифры от 0 до 9, слова «да», «нет», односложные команды типа «открыть», «закрыть», «выйти» и т. п. Такие программы появились первыми и уже давно применяются в компьютерной телефонии для голосового набора телефонного номера или выбора пункта меню. Если в словарь добавить названия букв алфавита, то, в принципе, по буквам можно продиктовать и любое слово или название например, при заказе билета таким путем можно ввести станцию назначения.
Подобные системы могут похвастаться тем, что распознавание происходит без предварительной настройки под конкретного пользователя, т. е. они независимы от диктора (speaking-independent). Применение их для получения автоматической справки и генерации запросов к базам данных позволяет компаниям высвободить большое количество сотрудников, обеспечить круглосуточный доступ к информации, причем зачастую появляется возможность дополнительно расширить сферу предоставляемых услуг.
Помимо этого, системы с распознаванием ограниченного набора слов могут применяться и для голосового управления компьютером, а через него и другой техникой. Можно предусмотреть и добавление в базу данных индивидуальных макросов пользователя. При ограниченном словаре также легче реализовать систему распознавания слитной речи, характеризующейся отсутствием специальных пауз между словами.
Точность распознавания, как правило, повышается при предварительной настройке на голос конкретного пользователя, причем этим способом можно добиться распознавания даже тогда, когда говорящий имеет дефект речи или акцент. Все бы хорошо, но длительное только в том случае, если предполагается индивидуальное применение ПО одним пользователем, в крайнем случае небольшой группой пользователей, для каждого из которых создается свой индивидуальный «профиль».
Программы для диктовки текстов (еще одно очевидное применение функции распознавания речи) первоначально могли понимать только так называемую «раздельную» речь, в которой после каждого произнесенного слова требовалось сделать небольшую паузу. Такая манера говорить неестественна в процессе обычного человеческого разговора интенсивность звука практически никогда не падает до нуля (в этом можно убедиться, разглядывая спектрограммы).
Распознавать диктовку текстов общей тематики, выполняемую в манере слитной речи, коммерческие программы научились только в 1997 г. Разумеется, что словарь подобных пакетов обслуживает так называемую общую тематику и охватывает лишь небольшую часть всей лексики. Значительная часть пользователей этим словарем не ограничиваются, и подключает еще специализированные (технические, медицинские, юридические и другие) словари.
Впрочем, на качество распознавания влияет даже манера ведения разговора непринужденную беседу с относительно небольшим количеством используемых лексических единиц запротоколировать гораздо сложнее, чем размеренный диктант. Проблема заключается, в основном, в вариативности и наличии большого количества различных смысловых оттенков у самых простых конструкций. Тяжелее всего распознаются короткие слова, в результате по сравнению с многосложными частота ошибок при их обработке несравненно больше.
Серьезнейшая проблема одно-двухбуквенные слова. Заставить компьютер различать английские «a» и «an» можно, только обращаясь к контексту всей фразы. Расшифровка диктофонных записей, компьютерное стенографирование конференций и обсуждений задача, к решению которой создатели ПО для распознавания речи только приблизились. По заявлениям разработчиков компаний DragonSystem, IBM и Lernout&Hauspie, компьютер (при непрерывной диктовке) способен правильно распознавать до 95 % текста, а меж тем известно, что для комфортной работы точность распознавания требуется довести до 99 %.
Работа в зашумленных помещениях также, разумеется, оказывает самое негативное влияние на качество распознавания. Каждый микрофон имеет свой особый «профиль», поэтому программу требуется «обучить» не только работе с конкретным пользователем, но и с конкретным оборудованием. Подключенному к компьютеру диктофону тоже потребуется свой «профиль». Специальные микротелефонные гарнитуры поставляются вместе с известными программами распознавания речи ViaVoiceGold корпорации IBMResearch, NaturallySpeakingPreferred фирмы DragonSystems и VoiceXpress (Lernout&HauspieSpeechProducts).
На работу с диктовочными программами накладываются и дополнительные ограничения. В большинстве случаев трудно обойтись без гарнитуры с микрофоном. Правда, радиомикрофоны допускают больший радиус действия, однако для контроля результатов пользователь должен видеть экран ПК.

Программы распознавания речи, применяемые за рубежом
Функцию распознавания речи IBM не только встроила в свою операционную систему OS/2 Warp 4, известную под кодовым названием Merlin (конец 1996 г.), но и выпускает в качестве отдельного продукта. Пакет IBM для распознавания слитной речи ViaVoice отличается своей способностью с самого начала, без обучения, распознавать до 80 % слов. При обучении вероятность правильного распознавания повышается до 95 %, причем параллельно с настройкой программы на конкретного пользователя происходит освоение будущим оператором навыков работы с системой. Небезынтересно, что, рекламируя этот пакет, IBM утверждает, будто средняя машинистка набивает примерно 80 слов в минуту, а ViaVoice достигает скорости 150 слов в минуту.
Dragon Dictate Naturally Speaking (Ньютон, шт.Массачусетс) первый коммерческий продукт для распознавания слитной речи, вышедший в начале 1997 г. Позволяет непосредственно диктовать в программы Word, WordPerfect, NetscapeNavigator, InternetExplorer и приложения, причем ему доступен богатый набор управляющих команд. Пользуясь только голосом, можно исправлять и переставлять слова, выделять текст и даже менять размер шрифта и позиционировать курсор с абсолютной точностью. Первоначальная настройка на конкретный голос пользователя является обязательной, но программа способна обучаться и в процессе дальнейшего диктанта; рабочее качество распознавания может быть достигнуто спустя примерно пару недель пользования системой.
L&H Speech Products (Берлингтон, шт.Массачусетс)в 1997 г. приобрела Kurz Weil Applied Intel ligence, основатель которой (Рей Курцвайль) стал в L&H главным техническим руководителем. После этого фирма получила инвестиции от Microsoft, а затем выпустила VoiceCommands программу для голосового управления с развитыми возможностями. Несколько позже эта компания создала и свою систему распознавания речи VoiceXpressPlus, которая по качеству распознавания незначительно уступает DragonDictateNaturallySpeaking, но зато при работе с офисными программами (например, с Word) реализует более «естественный» интерфейс (можно подавать команды вроде «изменить шрифт последнего предложения на Arial» или «сложить эту колонку цифр»).
Программное обеспечение для распознавания речи фирмы NuanceCommunications использует крупнейшая в Канаде дисконтная брокерская контора TorontoDominion, запустив в эксплуатацию службу GreenLineInvestors, позволяющую абонентам получать по телефону информацию о биржевых котировках. Вводятся особые пользовательские «профили», на основе которых система определяет, например, следует ли зачитывать данному абоненту краткую или подробную информацию.
Программу распознавания речи Natural Dialogue System фирмы Philips Speech Processing (Вена, Австрия) использует первая канадская система автоматических «желтых страниц» (Торонто), предоставляющая информацию о местных ресторанах и способная по желанию абонента соединить его с выбранным заведением.
Она же используется швейцарской железнодорожной компанией SwissRailways. Предусмотрена возможность самообучения системы во время эксплуатации. Из запросов, требующих сложного «восприятия речи» (вроде «Я бы хотел попасть из Женевы в Цюрих через Берн»), выделяются ключевые слова названия станций, предлоги «из», «в», «через» и на основании наиболее правдоподобного варианта строится обращение к базе данных.
Авиакомпания Lufthansa своим потенциальным пассажирам предлагает автоматическое расписание своих рейсов, а радиостанция RadioLuxembourg прогноз погоды по туристическим маршрутам всего мира.
Немецкая служба сотовой телефонной GSM-связи Dutch РТТ внедрила систему обработки речи VoiceDialing, разработанную американской компанией Glenayre, что обеспечивает не
только голосовой набор телефонного номера, но и выполнение необходимых команд и возможность программирования до 40 наиболее часто набираемых телефонных номеров. В результате стало возможным звонить прямо во время движения автомобиля, не отвлекаясь от управления.
Программы от IBM и Dragon Dictate используются в компактных компьютерах компании Xybernaut. Эти устройства весом всего 795 г используются, например, американскими таможенниками, несущими службу на границе с Мексикой. Стражи порядка проверяют номера проезжающих автомобилей, сверяясь с удаленными центральными правоохранительными базами. Правда, служащие таможни жалуются на проблемы с распознаванием, возникающие при сильном ветре.
IBM уже давно использует технологию распознавания речи для своих внутренних задач, а сейчас выпускает средства создания автоматизированных речевых агентов, способных распознавать называемые телефонными абонентами имена людей и названия организаций и соединять их с соответствующими номерами. Объем каталога имен может достигать 200 тыс. записей.
Фирма LanguageForce на основе технологии распознавания речи ViaVoice разработала автоматический переводчик UniversalTranslatorDeluxe, позволяющий устную английскую речь переводить на 33 различных языка, в число которых входят арабский, китайский, японский, корейский, испанский, немецкий и иврит.
Достижения компьютерной обработки речевых сигналов могут применяться не только для того, чтобы вести беседы по мобильному телефону, ряд парламентариев стран Западной Европы добиваются контроля над центром прослушивания Менвич-Хилл Агентства национальной безопасности (АНБ) США, расположенным в Англии, недалеко от Йоркшира. Первоначально центр, созданный при поддержке британской разведки MI 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Европарламента, осуществляет перехват всех европейских телефонных разговоров, факсов и электронной почты. Система распознавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим ее перенаправлением для проверки в американское отделение АНБ.
На текущий момент ПО для распознавания речи работает только с английским языком, качественная поддержка русского пока что не достигнута. Однако командовать компьютером можно хоть сейчас, а для того, кто имеет дело с англоязычными текстами каждый день, подобное программное обеспечение окажется полезным.
Рассмотрим характеристики некоторых образцов программных средств обработки речи.
Dragon Naturally Speaking 7.0 Preferred (разработчик ScanSoft). Программа предлагает пользователю надиктовать компьютеру ряд уже готовых текстов для более тонкой подстройки Dragon Naturally Speaking под тембр, интонацию и произношение. Не меньшее значение имеет и собственный акцент диктора - такой уровень английского, который, например, звучит на разнообразных международных научных конференциях, в принципе, не пригоден для работы. С другой стороны, всегда есть возможность самообучения: если Dragon никак не хочет распознавать какое-то слово, необходимо заглянуть в Lingvo и произнести его с учетом правильной транскрипции. Возможны и действия вроде распознавания текстового содержимого wav-файла. Кроме того, DragonNaturallySpeaking умеет запускать различные программы, переключаться между ними и даже управлять рядом их функций (например, начинать/приостанавливать воспроизведение музыки в медиа проигрывателе или напрямую работать с меню). В состав версий Preferred и Professional дополнительно входит собственный речевой драйвер Real-Speech 2, один из наиболее совершенных на сегодня. Надиктовывать текст можно не только в текст-процессоре Dragon Pad, но и в любом другом аналогичном приложении - MSWord, Outlook Express, Internet Explorer и Corel WordPerfect. С таким же успехом программа работает и с ICQ, сетевым чатом (NetworkAssistant). В более специализированных приложениях, в частности в том же Word, применяются дополнительные команды: форматирование текста, правописание, редактирование - и все исключительно за счет устной речи. Можно расширить функциональность Dragon за счет собственных настроек.
Intelligent Voice Recognition System (IVOS) 2.0.2A (разработчикComunX). IVOS позволяет: а) распознавать речь и преобразовывать ее в текст в любом Windows-совместимом текст-процессоре; б) управлять своим ПК с помощью разнообразных голосовых команд, а также создавать свои собственные; в) озвучивать электронные книги с помощью внешних голосовых движков. Извлечение текста из Wav-файлов, удобная, не отягощающая экран панель управления программой и демократичная (по сравнению с тем же Dragon) цена. После регистрации пользователю становится доступна технология VoiceTouch, позволяющая обучать ПК вашим собственным устным приказам.
Realize Voice 4.0 (Разработчик Realize Software Corporation). Realize Voice, в отличие от DragonNaturallySpeaking, не очень приспособлена к стенографированию (хотя такая функция в ее арсенале иимеется), зато справляется с голосовыми командами. Глубоких знаний в области английского не нужно - благодаря модулю эвристического анализатора программа без особых проблем найдет общий язык практически с любым диктором. Спектр функций RealizeVoice довольно широк - от запуска исполняемых файлов и ярлыков программ до работы с корреспонденцией и сложными макросами. Как и в остальных подобных программах, от пользователя требуется лишь подключенный микрофон и пара минут для того, чтобы вникнуть в курс дела. А перед тем как приступить к собственно общению с утилитой, стоит обозначить ей фронт работ. По умолчанию в эту категорию попадают ярлыки системного меню, Рабочего стола, содержимое папки Избранное и панели быстрого запуска, а также недавно открытые документы и программы. Весь процесс полностью автоматизирован и выполняется буквально мгновенно. Правда, некоторые неудобства вызывает невозможность использования в названии команд цифр. Утилита позволяет объединять под одной командой целую серию операций - начиная от ввода символов с клавиатуры и системных команд до синтеза речи.
Voice Studio 1.4.6 (Разработчик Ultimate Interactive Desktop). Одна из немногих программ, где виртуальный собеседник по ту сторону монитора обрел видимую форму. И хотя технологию MSAgent, которая используется для данных целей, пока трудно назвать прообразом искусственного интеллекта, все предпосылки для этого у нее есть. Анимированный помощник не только наделен некоторой долей самостоятельности, но и умеет отвечать на ряд стандартных фраз (вроде «Hello!», «Howdoyoufeel», «Badcomputer» и т. д.). При желании его словарный и фразеологический запас легко пополнить, а кроме того, задать его действия в зависимости от «настроения». Функциональность VoiceStudio - стенографирование, разнообразные голосовые команды (для большего удобства и быстрейшего запоминания их можно распечатать), а также приемлемый машинный синтез речи. Создание макросов для запуска сразу серии операций с помощью одного ключевого слова, даже запись и воспроизведение движений мыши. Это широко используется во многих альтернативных браузерах вроде GreenBrowser или MyIE2 для выполнения ряда действий (переход на другую страницу, открытие нового окна и т. д.). Достаточно произнести соответствующую команду, и компьютер автоматически воссоздаст записанный ранее скрипт.
Dictation 2004 v.4.5.2399 (Разработчик United J Research Labs). В первую очередь, это технология Point-and-Speak, позволяющая с легкостью создавать команды для ввода паролей, запуска ПО и диктовать практически во всех Windows-приложениях. Осуществлена интеграция с MSWord, а также интеллектуальная технология правильного определения фраз. Правда, реализована она неудобно - в виде всплывающего окна, которое появляется при каждом сказанном слове. Dictation 2004 использует SAPI 5.1, так что качество ее принципиально не отличается от другого программного обеспечения, основанного на той же технологии (Voxx, IVOS, RealizeVoice и пр.). Из дополнительных функций стоит отметить WAVRecorder для захвата информации с аудиокассет, мобильных устройств, микрофонов и последующей записи ее в wav-файлы; потом текст из них извлекается с помощью отдельного апплета Dictation - Wave-to-Text.
Voxx (4.0 РазработчикVoxx Support Team). Возможности программы напоминают IVOS (стенографирование/голосовые команды/чтение текста), за исключением того, что здесь есть полезный бонус - озвучивание каждого действия, будь то набор текста или открытие файла. Программа использует тот же MicrosoftSpeechAPI, что и IVOS, поэтому качество распознавания у нее аналогичное. Наличествует набор голосовых команд для навигации браузером, элементарных операций в текстовом редакторе (cut/copy/paste и т. д.), а также работы с окнами, имеются ярлыки вызова системных апплетов, открытие/закрытие лотка оптического привода. Что же касается синтеза речи, то он напрямую зависит от соответствующих модулей, установленных в системе
В дополнение к программам диктования DragonSystems и IBM предлагают инструменты для разработчиков, желающих усилить мощность своих программ. Dragon предлагает Dragon Dictate, дискретный механизм распознавания языка, а IBM набор инструментов ViaVoiceDeveloperTools.
Dragon предлагает ряд опций для разработчиков, желающих использовать Dragon Dictate.Во-первых, вы можете добавить к Dragon Dictate специальный словарь, используя любое приложение, включая Microsoft Excel или Word. Семейство программ, именуемое DragonPro, содержит Dragon Business, Dragon Extra (журналистика), Dragon Law (юриспруденция), Dragon Med (медицина) и Dragon Tech. Если вам нужно что-то еще более специфическое, вы можете использовать Dragon Speech Tool, чтобы разработать специальный словарь и эталоны произношения.
Вы можете использовать таблицу фонем и средства редактирования для создания, добавления, изменения слов и их произношения, а также их удаления.
DragonXTools поддерживает режимы 16-bit VBX и 32-bit OCX для добавления голосовых параметров к существующим приложениям.DragonXTools также поддерживает режим текст-речь DgnTTS, что позволит придать голос вашим программам. Руководство DragonXTools начинается с простого примера на языке VB и показывает, как создавать программы на С, С++, Delphi, Visual Basic и т. п. Руководство содержит большой объем документации по событиям, свойствам и процедурам, необходимым, чтобы разговаривать с Dragon Dictate.
Вместе с DragonXTools пользователь получает также документацию по Dragon Dictate Macro Language Guide&Reference, языку, основанному на BASIC, который разработчики могут использовать, чтобы добавлять команды к Dragon Dictate, DDE и DLL для контроля за работой мыши, звуковых эффектов и т. п.
Aculab. Точность узнавания 97%. Дикторонезависимая система. Система имеет базу данных для многих языков, чтобы учесть все вариации речи, возникающие в зависимости от возраста, голоса, пола и акцента. Собственные алгоритмы обеспечивают распознавание речи независимо от особенностей оборудования (наушников, микрофона) и характеристик канала.
Система поддерживает возможность создания дополнительных словарей, учитывающих особенности произношения и акцентов. Это особенно полезно в тех случаях, когда системой пользуются люди, произношение которых сильно отличается от общепринятого.
Система поддерживает наиболее распространенные языки, такие как британский и американский английский, французский, немецкий, итальянский, североамериканский испанский. Словарь может быть настроен на любой из этих языков, но невозможно одновременно использовать несколько языков в составе одного словаря. Продукт доступен на базе Windows NT/2000, Linux и Sun SPARC Solaris.
Babear SDK Version 3.0. Дикторонезависимая система, не требующая обучения под конкретного пользователя. Адаптация под пользователя происходит во время работы и обеспечивает наилучший результат распознавания. Автоматическая подстройка на голосовую активность позволяет распознавать речь в сильно зашумленной среде, например в салоне автомобиля. Система не определяет слова, не занесенные в словарь. Предусмотрена возможность поиска ключевых слов. Система может быть настроена на работу как с маленьким словарем (изолированное произнесение команд), так и с большим по объему словарем (речь). Система поддерживает следующие языки: британский и американский английский, испанский немецкий, французский, датский, шведский, турецкий, греческий, исландский и арабский. Система работает на базе Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X и Linux.
Loquendo ASR. Дикторонезависимая система, оптимизированная для использования в телефонии. Предусмотрена возможность распознавания отдельных слов и речи, поиска ключевых слов (словарь до 500 слов). Позволяет создавать дружественные пользователю приложения за счет большого объема словаря и гибкости системы. Поддерживает 12 языков, включая наиболее распространенные европейские языки (итальянский, испанский, британский и американский английский, французский, немецкий, греческий, шведский и др.). Система работает на базе MS Windows NT/2000, UNIX и Linux.
LumenVox. Дикторонезависимая система, не требующая обучения, но после адаптации под конкретного пользователя результаты распознавания становятся гораздо лучше: точность распознавания превышает 90%. Не имеет жестких требований к аппаратным ресурсам. Работает на базе Windows NT/2000/XP и Linux.
Nuance. Система оптимизирована для наименьшего потребления памяти и других системных ресурсов. Точность распознавания до 96%, причем остается высокой даже в зашумленном помещении.
Есть возможность самообучения системы и ее подстройки под каждого пользователя. Работает на базе Windows 2000 и Linux.
SPIRIT. Язык может быть любой (словарь составляется под конкретные требования клиента и включает те слова и на том языке, которые клиент указал в требованиях к настройкам системы. В словарь могут быть включены слова из разных языков, то есть, не меняя настроек, система может распознавать слова, например, как на китайском, так и на финском языке, если они были заранее внесены в словарь). Таким образом, эта система может работать с любым языком, тогда как другие системы лишь с определенным их набором. Это автоматическая система распознавания речи, обеспечивающая высокое качество распознавания даже в сильно зашумленной среде. Система может быть легко настроена на работу в одном из двух режимов: распознавание фраз с фиксированным числом команд (произнесение отдельных команд, режим PIN-кода) и распознавание фраз с произвольным числом команд (слитное произнесение команд, «режим связной речи»). Есть возможность поиска ключевых слов. Данное решение работает в условиях аддитивного нестационарного шума. Задержка распознавания 0,2 с.
Отечественные разработки систем распознавания речи
К сожалению, распространенные зарубежные системы распознавания речи русский язык не поддерживают. Правда, уже упоминавшиеся платы Dialogic в число используемых европейских и некоторых азиатских языков включают и русский, но их возможностей хватает только на речевой ввод телефонных номеров и построение простейших голосовых меню. Намерение включить поддержку русского языка в свои продукты неоднократно выражали многие производители, в том числе и DragonSystems, но дальше этих заявлений дело так и не пошло.
В этих условиях своеобразной сенсацией стал выход в 1997 г. на коммерческий рынок знаменитого «Горыныча» адаптации DragonDictateNaturallySpeaking, проведенной силами малоизвестной до того российской компании WhiteGroup официального дистрибьютора DragonSystems. Программа оказалась вполне работоспособной, а ее стоимость весьма умеренной.
К сожалению, основой послужила уже устаревшая вторая версия DragonDictate, не поддерживающая распознавание слитной речи. Кроме того, программа требует длительной «тренировки» и настройки на конкретного пользователя, очень капризна к оборудованию, более чем чувствительна к интонации и скорости произнесения фраз, возможности ее «обучения» весьма разные для различных голосов. Созданная для распознавания английской речи, программа не может учитывать всей специфики русского произношения.
По всей видимости, положение на отечественном рынке ПОдля распознавания речи (если вообще можно говорить о таковом) напоминает недавнюю ситуацию с оптическим распознаванием текста. Только специализированные отечественные продукты, изначально ориентированные именно на русский язык, смогут по-настоящему решить ту задачу, что не по силам ни«Горынычу», ни «Комбату» (еще один продукт той же фирмы WhiteGroup).
Не случайно лидеры отечественного рынка программ OCR, которыми являются ABBYY (BITSoftware) и CognitiveTechnologies, заявили о ведущихся ими в области распознавания русской речи разработках. ABBYY работает над проектом NLC, связанным с естественно-языковой обработкой распознаваемых текстов. Пока же технология распознавания речи российскими разработчиками применяется в основном в интерактивных обучающих системах и играх вроде «Мой говорящий словарь», «TalktoМе» или «Профессор Хиггинс», а целью их использования являются контроль произношения у изучающих английский язык и аутентификация пользователя. Еще одно остроумное применение технологии распознавания речи позволяет весьма ощутимо сжимать файлы с диктофонными записями или посланиями звуковой почты.

Вывод
Важная задача, которая стоит перед создателями речевых технологий, выработка единого стандарта на API-интерфейс (ApplicationsProgrammingInterface), который должен связывать приложения и обеспечивать своевременную передачу управляющих функций. Такой стандарт должен не только позволять строить приложения на базе какой-либо распространенной операционной системы, имеющей соответствующие встроенные функции (первой такой ОС стала OS/2 Warp), но и обеспечивать переносимость систем распознавания речи на другие ОС. Дополнительно нерешенными задачами остаются: отсутствие больших объемов словарей разных языков, недостаток шаблонов непрерывной речи и нехватка вариаций акцентов и произношения.
Программное обеспечение для распознавания слитной речи, как правило, не только снабжается собственными текстовыми редакторами, но и способно встраиваться в популярные программы, среди которых MSWord, Excel, LotusSmartSuiteMillenniumEdition (LotusDevelopment) и WordPerfectSuite (Corel).
С другой стороны, производители офисных программ стали включать в состав своего ПО системы распознавания речи, как правило, от IBM (SmartSuite), DragonDictate (WordPerfectSuite) или Lernout&Hauspie.
Современные программы распознавания речи для ПК позволяют диктовать в обычной разговорной манере. Так называемая дискретная надиктовка с частыми остановками и паузами междусловами осталась в прошлом. Однако непрерывный процесс распознавания речи, дающий точность до 95 % в оптимальных условиях, все-таки дает пять неправильных букв на 100 знаков. Около 200 ошибок на странице формата А4 слишком много для профессиональной работы и лишь некоторые программы распознавания речи достигают точности 97% (Aculab).
Несмотря на все достижения последних лет, средства для распознавания слитной речи все же допускают большое количество ошибок, нуждаются в длительной настройке, требовательны к аппаратной части и к квалификации пользователя и отказываются работать в зашумленных помещениях (а это важно как для шумных офисов, так и для мобильных систем и эксплуатации в условиях телефонной связи).
Известно, что спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись 2 слова в секунду, непрофессиональная 0,4.
Таким образом, на первый взгляд, речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0,5 слова в секунду в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.
Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.
Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи, чувствительность к четкости произношения, приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 12 месяца. Постановка правильного произношения может занять несколько лет. Кроме того, дополнительное напряжение, следствие сознательных и подсознательных усилий по достижению более высокой распознаваемости, совсем не способствует сохранению нормального режима работы речевого аппарата оператора и значительно увеличивает риск появления специфических заболеваний.
Существует и еще одно неприятное ограничение применимости оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать взвукоизолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя.
Таким образом, речевой интерфейс вступает в явное противоречие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг применения. Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем.
Парадоксально, но самый успешный на сегодня проект коммерческого применения распознавания речи телефонная сеть фирмы АТТ. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год.











15