Строительный портал - Дом. Водонагреватели. Дымоходы. Монтаж отопления. Обогреватели. Оборудование

Система распознавания голоса. Диктуем текст: лучшие бесплатные программы для преобразования речи


Вы знали, что технологии распознавания голоса существуют уже 50 лет? Полвека эту задачу решают ученые и только в последние несколько десятилетий к ее решению подключились IT-компании. Результатом последнего года работы стал новый уровень точности распознавания и массовое использование технологии в повседневной и профессиональной жизни.

Технология в жизни

Каждый день мы пользуемся поисковыми системами. Мы ищем, где пообедать, как добраться до нужного места или пытаемся найти значение неизвестного термина. Технология распознавания голоса, которую используют, например, Google или Яндекс.Навигатор помогает нам тратить на поиск минимум времени. Это просто и удобно.

В профессиональной среде технология помогает упростить работу в несколько раз. Например, в медицине речь врача преобразуется в текст истории болезни и рецепт сразу на приеме. Это экономит время на занесение информации о пациенте в документы. Встроенная в бортовой компьютер автомобиля система реагирует на запросы водителя, например, помогает найти ближайшую заправку. Для людей с ограниченными возможностями актуально внедрение систем в программное обеспечение бытовых приборов для управления ими с помощью голоса.

Развитие систем распознавания голоса

Идея распознавания речи выглядела многообещающе во все времена. Но уже на этапе распознавания чисел и самых простых слов исследователи столкнулись с проблемой. Суть распознавания сводилась к построению акустической модели, когда речь представлялась как статистическая модель, которая сравнивалась с готовыми шаблонами. Если модель соответствовала шаблону, то система принимала решение о том, что команда или число распознано. Рост словарей, которые могла распознать система, требовал увеличения мощностей вычислительных систем.

Г рафики роста производительности компьютеров и снижения ошибки распознавания в системах распознавания голоса англоязычной речи
Источники:
Herb Sutter. The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Сегодня алгоритмы распознавания дополнились языковыми моделями, которые описывают структуру языка, например, типичную последовательность слов. Обучение системы происходит на реальном речевом материале.

Новым этапом в развитии технологии стало применение нейронных сетей. Система распознавания устроена таким образом, что каждое новое распознавание влияет на точность распознавания в будущем. Система становится обучаемой.


Качество систем распознавания голоса

Положение дел в развитии технологии сегодня выражается целью: от распознавания речи к пониманию. Для этой цели выбран и ключевой показатель – процент ошибок в распознавании. Стоит сказать, что такой показатель применяется и в распознавании речи одного человека другим. Мы пропускаем часть слов, принимая во внимания другие факторы, например, контекст. Это позволяет нам понимать речь даже без понимания значений отдельных слов. Для человека показатель ошибки распознавания равен 5,1%.

Другими сложностями в обучении системы распознавания речи пониманию языка будут эмоции, неожиданная смена темы разговора, использование сленга и индивидуальные особенности говорящего: темп речи, тембр, произношение звуков.


Мировые игроки рынка

Несколько мировых игроков рынка платформ распознавания голоса хорошо известны. Это Apple, Google, Microsoft, IBM. Эти компании обладают достаточными ресурсами для исследований и обширной базой для обучения собственных систем. Например, Google использует для обучения миллионы поисковых запросов, которые пользователи с удовольствием задают сами. С одной стороны, это повышает точность распознавания, а с другой – накладывает ограничения: система распознает речь отрезками по 15 секунд и рассчитывает на «вопрос широкого профиля». Ошибка распознавания системы Google – 4,9 %. У IBM этот показатель равен 5,5 %, а у Microsoft – 6,3 % на конец 2016 года.

Платформу для применения в профессиональных областях разрабатывает американская компания Nuance. Среди областей применения: медицина, юриспруденция, финансы, журналистика, строительство, безопасность, автомобильная сфера.

В России Центр речевых технологий – крупнейший производитель профессиональных средств распознавания голоса и синтезирования речи. Решения компании внедрены в 67 странах мира. Основные направления работы: голосовая биометрия – идентификация по голосу; речевые системы самообслуживания – IVR, применяемые в колл-центрах; синтезаторы речи. В США российская компания работает под брендом SpeechPro и проводит исследования по распознаванию англоязычной речи. Результаты распознавания входят в ТОП-5 результатов по величине ошибки.


Ценность распознавания голоса в маркетинге

Цель маркетинга – изучение потребностей рынка и организация бизнеса в соответствии с ними для увеличения прибыльности и эффективности. Голос интересует маркетологов в двух случаях: если говорит клиент и если говорит сотрудник. Поэтому объект изучения для маркетологов и сфера применения технологии – телефонные звонки.

Сегодня аналитика телефонных переговоров развита плохо. Звонки не только нужно записывать, но и прослушивать, оценивать и только потом анализировать. Если организовать запись несложно – это может любая виртуальная АТС или сервис коллтрекинга, – то организовать прослушивание звонков сложнее. Эту задачу решает или отдельный человек в компании, или руководитель колл-центра. Прослушивание звонков также отдают на аутсорсинг. В любом случае погрешность в оценке звонков – проблема, которая ставит под сомнение результаты аналитики и принятые на их основе решения.

Ни одна программа не сможет полностью заменить ручную работу по расшифровке записанной речи. Однако существуют решения, которые позволяют существенно ускорить и облегчить перевод речи в текст, то есть, упростить транскрибацию.

Что такое транскрибация

Транскрибация – это автоматический или ручной перевод речи в текст, точнее, запись аудио или видео-файла в текстовом виде.

Есть в интернете оплачиваемые платные задания, когда за транскрибацию текста исполнителю выплачивается некоторая сумма денег. В этом случае транскрибацию делают вручную.

Однако можно сделать транскрибацию автоматически, с помощью специальной программы, умеющей “слушать” текст и одновременно “печатать” его, превращать в текстовый файл, пригодный для дальнейшего использования.

Перевод речи в текст вручную или с помощью специальной программы полезен

  • студентам для перевода записанных аудио- или видео-лекций в текст,
  • блогерам, ведущим сайты и блоги,
  • писателям, журналистам для написания книг и текстов,
  • инфобизнесменам, которым нужен текст после проведенного ими вебинара, выступления и т.д.,
  • фрилансерам, которые вручную делают перевод речи в текст, для облегчения и ускорения своей работы,
  • людям, которым сложно печатать – они могут надиктовать письмо и послать его родным или близким,
  • другие варианты.

О проблемах автоматического перевода речи в текст

Можно выделить две крупных проблемы перевода речи в текст с помощью программы: качество записанной речи и наличие в записи фона в виде шума, музыки или иных посторонних звуков.

Речь у всех людей разная:

  • настолько быстрая, что слова проглатываются, или, наоборот, очень медленная;
  • с четкой дикцией, как у профессиональных дикторов, или настолько невыразительная, что сложно что-либо разобрать;
  • с отличным произношением или, напротив, с сильным акцентом, например, когда говорит иностранец.

В каких случаях программа автоматической транскрибации будет давать самый наилучший результат перевода речи в текст? Программа будет делать более или менее качественный перевод, когда на записи человек говорит с четкой дикцией, с нормальным темпом речи, без акцента. При этом в записи речи отсутствуют посторонние звуки в виде шума, музыки, разговоров других людей. Тогда можно надеяться на хороший автоматический перевод, не требующий ручных исправлений или с минимальными изменениями.

В остальных случаях, когда речь невыразительная и присутствуют посторонние шумы, перевод с помощью программы или приложения будет значительно хуже. Возможно, какая-то программа или сервис будет выполнять транскрибацию такой речи лучше, чем другие программы и приложения, но не стоит ожидать чуда.

В некоторых случаях стоит все-таки обратиться на биржу фриланса, где живой человек выполнит перевод вручную. Впрочем, здесь тоже нельзя гарантировать высокого качества, поскольку фрилансер может использовать программы автоматической транскрибации, и поленится вносить в получившийся текст правки.

Опишем наиболее эффективные инструменты, доступные на компьютере, мобильные приложения и онлайн-сервисы для перевода речи в текст.

1 Сайт speechpad.ru

Это онлайн-сервис, который позволяет через браузер Google Chrome переводить речь в текст. Сервис работает с микрофоном и с готовыми файлами. Конечно, качество будет значительно выше, если использовать внешний микрофон и диктовать самому. Однако сервис неплохо справляется даже с видеороликами на YouTube.

Нажимаем «Включить запись», отвечаем на вопрос про «Использование микрофона» – для этого кликаем «Разрешить».

Длинную инструкцию про использование сервиса можно свернуть, нажав на кнопку 1 на рис. 3. От рекламы можно избавиться, пройдя несложную регистрацию.

Рис. 3. Сервис speechpad

Готовый результат легко редактируется. Для этого нужно либо вручную исправить выделенное слово, либо надиктовать его заново. Результаты работы сохраняются в личном кабинете, их также можно скачать на свой компьютер.

Список видео-уроков по работе с speechpad:

Можно транскрибировать видео с Youtube или со своего компьютера, правда, понадобится микшер, подробнее:

Видео «Транскрибирование аудио»

Работает сервис с семью языками. Есть небольшой минус. Он заключается в том, что если нужно транскрибировать готовый аудио-файл, то его звучание раздаётся в колонки, что создает дополнительные помехи в виде эха.

2 Сервис dictation.io

Замечательный онлайн-сервис, который позволит бесплатно и легко переводить речь в текст.

Рис. 4. Сервис dictation.io

1 на рис. 4 – русский язык можно выбрать в конце страницы. В браузере Google Chrome язык выбирается, а в Мозилле почему-то нет такой возможности.

Примечательно то, что реализована возможность автосохранять готовый результат. Это убережет от случайного удаления в результате закрытия вкладки или браузера. Готовые файлы этот сервис не распознает. Работает с микрофоном. Нужно называть знаки препинания, когда производите диктовку.

Текст распознается достаточно корректно, орфографических ошибок нет. Можно самостоятельно вставлять знаки препинания с клавиатуры. Готовый результат можно сохранить на своем компьютере.

3 RealSpeaker

Эта программа позволяет легко переводить человеческую речь в текст. Она предназначена для работы в разных системах: Windows, Android, Linux, Mac. С ее помощью можно преобразовывать речь, звучащую в микрофон (например, он может быть встроен в ноутбук), а также записанную в аудиофайлы.

Может воспринимать 13 языков мира. Существует бета-версия программы, которая работает в режиме онлайн-сервиса:

Нужно перейти по указанной выше ссылке, выбрать русский язык, загрузить на онлайн-сервис свой аудио- или видео-файл и оплатить его транскрибацию. После транскрибации можно будет скопировать полученный текст. Чем больше файл для транскрибации, чем больше времени понадобится на его обработку, подробнее:

В 2017-ом году был бесплатный вариант транскрибации с помощью RealSpeaker, с 2018 года такой возможности нет. Вероятно для того, чтобы транскрибированный файл был недоступен всем пользователям для скачивания, необходимо наличие галочки напротив “Сделать файл неудачным в течение 24 часов”.

На сайте есть онлайн-чат. Кнопка, чтобы начать чат, находится в правом нижнем углу сайта.

4 Speechnotes

Альтернатива предыдущему приложению для мобильных устройств, работающих на Android. Доступно бесплатно в магазине приложений:

Текст редактируется автоматически, в нем расставляются знаки препинания. Очень удобно для того, чтобы надиктовывать себе заметки или составлять списки. В результате текст получится весьма достойного качества. Есть платная премиум-версия.

5 Dragon Dictation

Это приложение, которое распространяется бесплатно для мобильных устройств от компании Apple.

Программа может работать с 15 языками. Она позволяет редактировать результат, выбирать из списка нужные слова. Нужно четко проговаривать все звуки, не делать лишних пауз и избегать интонации. Иногда возникают ошибки в окончаниях слов.

Приложение Dragon Dictation используют обладатели яблочных гаджетов, например, чтобы, перемещаясь по квартире, надиктовать список покупок в магазине. Придя туда, они могут посмотреть на текст в заметке, и не надо слушать.

Какую бы программу Вы ни использовали в своей практике, будьте готовы перепроверять результат и вносить определенные коррективы.

Только так можно будет получить безукоризненный текст без ошибок.

Расшифровка аудио и видео в текст на биржах фриланса

Что касается ручного перевода, то можно заказать на бирже расшифровку речи в текст. На бирже фриланса одни пользователи (заказчики) размещают заказ, выбирают исполнителя и оплачивают работу. А другие пользователи (фрилансеры) берут заказы, выполняют необходимую работу и получают за нее оплату.

Как же можно сделать заказ на бирже фриланса? Сначала нужно зарегистрироваться на сайте биржи, то есть пройти там регистрацию. Затем можно будет разместить заказ – задание на транскрибацию.

Для своего заказа на бирже можно выбрать исполнителя – человека, который будет делать транскрибацию. Для этого необходимо, чтобы хотя бы один из потенциальных исполнителей согласился взяться за предложенную работу. Если же никто не взял заказ, то нужно менять его параметры, например, повышать цену за работу.


Оплата за выполненную работу осуществляется не напрямую исполнителю-фрилансеру, а через биржу фриланса. При размещении заказа обычно требуется пополнить счет на сумму, необходимую для выполнения транскрибации. Кроме того, может быть комиссия биржи за посредничество в виде фиксированной суммы или фиксированного процента от суммы заказа. Оплата работы проводится после ее проверки и одобрения заказчиком. Чаще всего сумма отправляется исполнителю одновременно с одобрением его работы заказчиком.

Прежде чем делать заказ, стоит прочитать правила биржи, касающиеся проверки выполненного задания, его оплаты, а также ввода и вывода денег на биржу. Вывод денег нужен, чтобы оставшиеся деньги, планировавшиеся для оплаты других заказов, могли вернуться обратно заказчику, а не остались бы навсегда на бирже.

Ниже предлагаю две известных биржи фриланса, где можно разместить заказ для перевода речи в текст с помощью фрилансера: weblancer.net и freelance.ru.

Две биржи фриланса

Расшифровка аудио и видео в текст (транскрибация) на бирже фриланса weblancer.net:

Рис. 5. (кликните для увеличения)

Биржа фриланса weblancer.net

Другая биржа, где можно заказать расшифровку аудио/видеозаписей – freelance.ru

Биржа фриланса freelance.ru

С момента, когда был изобретен компьютер, человечество мечтает общаться с ним на привычном языке - с помощью голоса. Рядовой житель планеты Земля знать не хочет ни о каких клавиатурах и мышах. Ему надо, чтобы компьютер понимал его с полуслова - причем в буквальном смысле. Просто, быстро, понятно! В то время как фантасты придумывают истории про то, как компьютеры через сотню-другую лет начнут по приказу ходить в магазины, массировать нам пятки и чесать спинки, разработчики программного обеспечения медленно, но верно движутся к реализации этой задумки. И если без чесания под лопаткой придется пока обойтись, то управлять различными приложениями с помощью голоса и даже надиктовывать компьютеру целые текстовые файлы уже очень даже можно. Программ для панибратского отношения с ПК пока не очень много, но те, что есть, стремительно развиваются. Еще год назад описанные в статье утилиты - более ранние их версии - представляли из себя весьма печальное зрелище. Сегодня же они подросли, возмужали - это уже не какие-то затравленные мокрые и голодные щенки, а жизнерадостные волчата, которые через год-два превратятся в волков голосового управления компьютером.

Dragon Naturally Speaking 8
Уникальная в своем роде утилита. Титаник и цеппелин “речевых” программ в одном флаконе. Адская смесь из распознавателя голоса, звукового управления компьютером и учителя правильного произношения английских слов. Но давайте обо всем по порядку.
Утилита англоязычная, потому и работать умеет исключительно с английскими словоформами. Теоретически, можно научить Dragon Naturally Speaking великому и могучему, но, увы и ах, использовать это можно только для голосового управления РС. Выступить в роли русской стенографистки утилита не сможет - на какие бы ухищрения вы не пошли. Зато разговорный английский схватывает на раз. По заявлениям разработчиков, программа распознает до 95% слов. Цифра, конечно, завышена, но не так сильно, как у конкурентов. Натаскав DNS на тембр своего голоса (для этого придется потратить около часа времени, надиктовывая различные слова), вы научите его понимать даже очень сложные мозгодробительные обороты, включая английский мат. Вот только одно “но”... Произносить любую фразу нужно предельно четко. Как, вы не проходили курсов артикуляции? Тогда придется потренироваться самостоятельно. Будьте уверены - через пару-тройку дней лингвистических сражений с DNS вы любого англичанина поразите чистотой произношения. Думаете, шутим? Нисколько! DNS - идеальное средство для тренировки правильного произношения - чуть где сфальшивили, сразу выдает предупреждение.
Теперь что касается голосового управления. Здесь DNS тоже не подкачал. Программку удалось натравить почти на все имеющиеся у нас на редакционных компьютерах утилиты. Сначала он мертвой хваткой вцепился в горло всем составляющим пакета MS Office . Открыл после голосового приказа Excel и Word, а также все остальные приложения. Затем настало время сетевых программ. The Bat! , ICQ , различные интернет-браузеры покорились DNS с первого раза. В завершение мы испытали утилиту в работе с разномастными утилитами того же класса - cправился и глазом не моргнул. Забавно, когда одна программа управления голосом запускает другую такую же утилиту. Кстати, обратите внимание: ничего не стоит настроить DNS на запуск любимых игр. Произносите в микрофон “Warcraft” - и он тут же загружается. Главное, не забывайте перед тем как командовать, научить программу связывать конкретное слово с той или иной утилитой (настраивается в меню Accuracy Center ).
Помимо упомянутого, в программу встроено множество разных мелких вкусностей, вроде бы необязательных, но которые заметно расширяют возможности утилиты. Как вам, например, распознавание текста из wav или mp3-файла? Загружаете англоязычную песню, в которой не можете разобрать какие-то слова, а DNS выдает вам их в текстовом виде.
Петь дифирамбы DNS можно почти до бесконечности. Это единственная программа в обзоре, которая справилась почти со всеми текстами и продемонстрировала даже больше возможностей, чем мы от нее ждали. Однозначный “мастхев” и “испешелиюз”.
Плюсы: Просто, удобно, со множеством наворотов и вкусностей.
Минусы: За регистрацию 30-дневной trial-версии просят почти $200 , что, мягко говоря, не скромно. Утилита не понимает русского - но это беда почти всех аналогичных программ.
Резюме: Пожалуй, лучшая программа для распознавания речи и голосового управления компьютером. Если бы не высокая цена, то была бы просто идеальной.
Realize Voice 4.1
Несмотря на то что создатели позиционируют Realize Voice как эдакий мультикомбайн, одинаково легко справляющийся с распознаванием речи, управлением приложениями и синтезом речитатива, детальное тестирование показало, что создатели, мягко говоря, преувеличивают возможности продукта. Как распознаватель речи утилита показала себя весьма слабо. Процент точного определения слов с последующим переводом в текстовую форму - очень низок. Даже длительные экзекуции над обучающим модулем ни к чему не привели. Многие слова и выражения программа понимать отказывается. И быть бы RV незамедлительно линчеванным и распятым, если бы не... уникальные возможности в области голосового управления различными приложениями. Тут RV поднатужился и дал такую фору другим утилитам, что мы разве что не аплодировали стоя. Программа с легкостью настраивается на запуск любой сторонней утилиты (хоть Word, хоть ICQ, хоть какой-нибудь драйвер) да еще и поддерживает работу с макросами. С их помощью можно вытворять такое, что и подумать страшно. На одну голосовую команду, которую, кстати, вполне можно сделать русской, разрешено повесить, например, такую многоступенчатую функцию: открыть почтовый клиент, подгрузить спам-фильтр, зайти на сервер, скачать все письма с заголовками на русском языке, все с заголовками на английском и с заголовками длиннее 20 символов - удалить. Это только для примера. Вообще же сложность макросов ничем не ограничена. Главное только успевать фантазировать. Единственное, на что Realize Voice натаскать не удалось, - на голосовое управление внутри компьютерных игр. Но в обычных приложениях - никаких проблем.
В качестве бонуса RV предлагает, как бы это помягче выразиться, интегральную функцию голосовой организации рабочего пространства. Это по-научному, а если на русском, то голосом можно не только запускать приложения и управлять их работой, но и в любой момент подгружать другие утилиты, переключаться между окнами, закрывать программы... Иными словами, Бобик по команде “Апорт!” не только сбегает за косточкой, но еще по пути заглянет в магазин за молоком, выбросит мусор, оплатит телефонный счет и купит вашей девушки цветы.
Плюсы: Уникальные функции голосового управления, поддержка сложных макросов, простота использования.
Минусы: Слабый модуль распознавания речи. Цена $50.
Резюме: Программа просто создана для голосового управления компьютером. Жаль, что разработчики пожертвовали другими важными функциями утилиты.
Dictation 2004 v. 4.4
Утилита-середнячок. Тот самый случай, когда и придраться, вроде бы, не к чему, но на фоне конкурентов смотрится не очень. Dictation 2004 неплохо справляется с распознаванием устной речи, хотя тягаться, например, с Dragon Naturally Speaking не может: последний бьет по самому незащищенному месту Dictation 2004 - по проценту правильного угадывания слов. С этим у программы не все в порядке, дополнительное обучение болезнь лечит, но не полностью. Можно поставить утилите “пять” за умение управлять приложениями, но это будет оценка за прилежание, а не за мастерское владение предметом, как это делает Realize Voice . Разработчики напирают на то, что программа тесно интегрирована с Word, но мы этого не заметили - от работы с другими утилитами ничем не отличается. Наконец, Dictation 2004 хочется почесать за ушком за то, что он умеет неплохо распознавать речь из wav-файлов, но Dragon Naturally Speaking делает это не в пример лучше. Единственная же уникальная функция “Диктанта” - умение распознавать речь напрямую из различных внешних источников (диктофона, плеера, музыкального центра - вряд ли кому-то понадобится). Вот и выходит, что ну всем хорош Dictation 2004, а отдавать за него “зеленый полтинник” ($50) жалко.
Плюсы: Умеет распознавать речь напрямую с различных внешних устройств.
Минусы: Средние показатели по всем функциям.
Резюме: Дешево, но не очень сердито. Утилита-середнячок, серая мышка в мире программ распознавания речи.
Горыныч ПРОФ 3.0
“Горыныч” - отечественная разработка. Уже за одно умение работать с великим и могучим программу можно водружать на пьедестал. Но - будем объективными. Утилита построена на двух модулях, отвечающих за распознавание надиктованной в микрофон речи и за команды различным приложениям. Жесткое тестирование показало, что проблемы с русским языком у “Горыныча”, увы, имеются - если проводить аналогии с зарубежными программами и их уровнем знания английского, то отечественный продукт работает где-то на уровне Dictation 2004 . То есть все здорово, но запинки случаются. Важный момент - в утилиту встроен блок самообучения: чем больше вы уделяете внимание “Горынычу”, тем лучше он вас понимает и меньше возмущается вашему неправильному русскому произношению. Мы испытывали нрав утилиты лишь несколько часов, и за это время, как нам показалось, программа действительно стала понятливей. Возможно, при более длительном общении результаты будут еще лучше.
Тестирование “командных” умений “Горыныча” прошло без сучка, без задоринки. Утилита не пытается претендовать на мега-интегральную систему, реализованы только основные функции управления программами - никаких сложносочиненных макросов писать не придется, но то, что есть, - на твердую пятерку. Запуски, отключения программ, вызовы дополнительных окошек - сказочный змей со всем справился и от демонстрации норовистости воздержался.
В природе встречается две версии коварного Горыныча - облегченная (Light), продающаяся в jewel-упаковке по цене около $5 (идеально подходит для домашнего пользования) и полноценный коробочный вариант за $49 (для дома функций явный перебор).
Плюсы: Русскоязычность, эргономичный интерфейс, функция самообучения, наличие недорогой облегченной версии.
Минусы: Средние показатели по всем функциям, но только на фоне зарубежных конкурентов, среди отечественных утилит аналогов нет.
Резюме: Отличная русскоязычная программа. За неимением достойных отечественных аналогов - чуть ли не единственный вариант для тех, кто совсем не дружит с английским.
Чего ждать? Чего бояться?
Несмотря на относительную схожесть “голосовых” программ, они используют разные алгоритмы распознавания речи, ее декодирования и выведения на экран в виде текста. Обычно в одну утилиту встроено несколько алгоритмических ядер, отвечающих за различные функции утилит. В зависимости от того, какой из компонентов в данной программе спрограммирован тщательнее, утилита справляется лучше с теми или другими функциями. Чаще всего “голосовые” приложения умеют работать по двум основным направлениям.
1) Распознавание русской или английской речи и конвертация голоса в текстовый файл. Самая сложная в реализации функция - разумеется, для разработчиков. Программ, владеющих этим навыком в совершенстве, увы, пока не существует.
2) Голосовое управление компьютером. Какое-то простое - или не очень простое, а многоступенчатое - действие “ассоциируется” с какой-то голосовой командой. После этого достаточно произнести заветное слово или фразу, и компьютер незамедлительно проделает соответствующую операцию.
Обратите внимание, что даже демоверсии описанных в статье программ занимают не менее 50 Мб. Это обусловлено большим объемом “словарного запаса” - чтобы понять произнесенное слово, утилита уже должна его “знать”. Не надейтесь, что “речевые” программы будут шустро бегать на слабых машинах. Для комфортной работы с большинством подобных утилит необходимо иметь вполне современный компьютер и хорошего качества микрофон.

* * *
В теории вы подкованы, дело - за практикой. Запасайтесь утилитами, инсталлируйте, осваивайте. Рынок программ распознавания речи молод, потому утилиты ведут себя как дети малые. За ними нужно ухаживать, вовремя менять им подгузники, следить, чтобы они вовремя узнавали новые слова (во всех программах есть модуль обучения новым выражениям), холить и лелеять. Что вырастет из скачанного из Сети или купленного дистрибутива - зависит только от вас. Если не будете уделять достаточно времени настройке и обучению программы - вырастет строптивый и хулиганистый отрок. Потратите несколько часов на изучение документации, лазанию по менюшкам, работе с микрофоном - взрастите прилежного юнца, который будет везде ходить за вами и глаголить: “Чего желаете, папенька?! Кашки? Огурчиков малосольных? ”.

Для того, чтобы распознать речь и перевести её из аудио или видео в текст , существуют программы и расширения (плагины) для браузеров. Однако зачем всё это, если есть онлайн сервисы? Программы надо устанавливать на компьютер, более того, большинство программ распознавания речи далеко не бесплатны.


Большое число установленных в браузере плагинов сильно тормозит его работу и скорость серфинга в интернет. А сервисы, о которых сегодня пойдет речь, полностью бесплатны и не требуют установки – зашел, попользовался и ушел!

В этой статье мы рассмотрим два сервиса перевода речи в текст онлайн . Оба они работают по схожему принципу: Вы запускаете запись (разрешаете браузеру доступ к микрофону на время пользования сервисом), говорите в микрофон (диктуете), а на выходе получаете текст, который можно скопировать в любой документ на компьютере.

Speechpad.ru

Русскоязычный онлайн сервис распознавания речи. Имеет подробную инструкцию по работе на русском языке.

  • поддержку 7 языков (русский, украинский, английский, немецкий, французский, испанский, итальянский)
  • загрузку для транскрибации аудио или видео файла (поддерживаются ролики с YouTube)
  • синхронный перевод на другой язык
  • поддержку голосового ввода знаков препинания и перевода строки
  • панель кнопок (смена регистра, перевод на новую строку, кавычки, скобки и т.п.)
  • наличие персонального кабинета с историей записей (опция доступна после регистрации)
  • наличие плагина к Google Chrome для ввода текста голосом в текстовом поле сайтов (называется «Голосовой ввод текста — Speechpad.ru»)

Dictation.io

Второй онлайн сервис перевода речи в текст. Иностранный сервис, который между тем, прекрасно работает с русским языком, что крайне удивительно. По качеству распознавания речи не уступает Speechpad, но об этом чуть позже.

Основной функционал сервиса:

  • поддержка 30 языков, среди которых присутствуют даже венгерский, турецкий, арабский, китайский, малайский и пр.
  • автораспознавание произношения знаков препинания, перевода строки и пр.
  • возможность интеграции со страницами любого сайта
  • наличие плагина для Google Chrome (называется «VoiceRecognition»)

В деле распознавания речи самое важное значение имеет именно качество перевода речи в текст. Приятные «плюшки» и вохможности – не более чем хороший плюс. Так чем же могут похвастаться в этом плане оба сервиса?

Сравнительный тест сервисов

Для теста выберем два непростых для распознавания фрагмента, которые содержат нечасто употребляемые в нынешней речи слова и речевые обороты. Для начала читаем фрагмент поэмы «Крестьянские дети» Н. Некрасова.

Ниже представлен результат перевода речи в текст каждым сервисом (ошибки обозначены красным цветом):

Как видим, оба сервиса практически с одинаковыми ошибками справились с распознаванием речи. Результат весьма неплохой!

Теперь для теста возьмем отрывок из письма красноармейца Сухова (к/ф «Белое солнце пустыни»):

Отличный результат!

Как видим, оба сервиса весьма достойно справляются с распознаванием речи – выбирайте любой! Похоже что они даже используют один и тот же движок — уж слижком схожие у них оказались допущенные ошибки по результатам тестов). Но если Вам необходимы дополнительные функции типа подгрузки аудио / видео файла и перевода его в текст (транскрибация) или синхронного перевода озвученного текста на другой язык, то Speechpad будет лучшим выбором!


Кстати вот как он выполнил синхронный перевод фрагмента поэмы Некрасова на английский язык:

Ну а это краткая видео инструкция по работе со Speechpad, записанная самим автором проекта:

Друзья, понравился ли Вам данный сервис? Знаете ли Вы более качественные аналоги? Делитесь своими впечатлениями в комментариях.

Фонограммы, записанные с использованием цифровых диктофонов «Гном Р» и «Гном 2М» удовлетворяют требованиям, предъявляемым к фонограммам, поступающим для проведения фоноскопических экспертиз, и пригодны для идентификации личности по голосу и речи...

Первый заместитель начальника

Диктофон «Гном 2М» неоднократно применялся для записи конференций и семинаров в сложной акустической обстановке, записанные фонограммы отличаются высоким качеством. Встроенная функция шумоочистки позволяет улучшить качество воспроизведения фонограмм...

Ведущий инженер ИПК БНТУ

Институт повышения квалификации и переподготовки кадров БНТУ

За срок эксплуатации «Гном Р» зарекомендовал себя с положительной стороны. Высокое качество записи при минимальных габаритах, большая продолжительность звукозаписи, оперативная передача накопленной информации из встроенной памяти диктофона в ПЭВМ...

Старший офицер 3-го отдела седьмого управления

Генерального штаба Вооруженных Сил РБ

Фонограммы, записанные с использованием системы «Незабудка II», удовлетворяют требованиям, предъявляемым к многоканальным цифровым комплексам регистрации речевых сообщений по телефонным каналам связи, и пригодны для идентификации личности по голосу и речи...

Начальник центра

Государственный экспертно-криминалистический центр

Неограниченное количество оповещаемых абонентов, большое количество одновременно обрабатываемых заданий сделает «Рупор» незаменимым помощником в работе сотрудников кредитного отдела филиала № 524 ОАО «АСБ Беларусбанка...

Заместитель директора – начальник центра розничного бизнеса

Филиал № 524 ОАО «АСБ Беларусбанк»

Система автоматического оповещения «Рупор» работала по аналоговым телефонным линиям и опробовалась с целью оповещения личного состава. Система обслуживала 100 абонентов, работала стабильно и не требовала постоянного технического обслуживания...

Исполняющий обязанности военного комиссара

Военный комиссариат г. Минска

Система записи «Незабудка II» обеспечивает прием голосовых сообщений жильцов, качественную запись их на компьютер, возможность прослушивания записанных сообщений и занесения информации в текстовую базу данных. Система оповещения «Рупор» производит автоматическое оповещение должников...

Начальник отдела АСУ

УП «ЖРЭО Советского района г. Минска»

Система «Рупор» обеспечивает оповещение большого количества абонентов в сжатые сроки в соответствии с установленными параметрами с предоставлением отчёта по проведённому оповещению, работает надёжно, полностью соответствует предъявленным к ней требованиям...

Директор департамента розничного бизнеса

В мобильную систему записи и документирования речи «Протокол» входит цифровой диктофон «Гном 2М» и компьютерный транскрайбер «Цезарь». Диктофон «Гном 2М» позволяет получать качественную запись совещаний и заседаний, а транскрайбер «Цезарь» значительно увеличивает скорость работы по переводу звуковой информации в текстовый документ...

Ведущий специалист

Институт государства и права Академии наук РБ

Установление личности по голосу

В современном мире все больший интерес проявляется к биометрическим технологиям и биометрическим системам идентификации личности, и этот интерес вполне понятен.

Биометрическая идентификация основана на принципе распознавания и сравнения уникальных характеристик человеческого организма. Основными источниками биометрической характеристики человека являются отпечатки пальцев, радужная оболочка и сетчатка глаз, голос, лицо, подпись, походка и др. Эти биометрические идентификаторы принадлежат человеку и являются его неотъемлемой частью. Их нельзя где-то забыть, оставить, потерять.

Для биометрической идентификации можно применять различные характеристики и черты человека. В данной статье дается краткий обзор, как работают биометрические технологии на примере системы распознавания личности по голосу.

Ценность голосовых технологий для биометрики была неоднократно доказана. Однако только высокое качество реализации автоматических систем распознавания диктора способно реально внедрить такие технологии в практику. Подобные системы уже существуют. Они находят применение в системах безопасности, в банковских технологиях, электронной коммерции, правоохранительной практике.

Использование систем распознавания диктора является наиболее естественным и экономичным способом решения проблем неавторизованного доступа к компьютеру или системам передачи информации, а также проблем многоуровневого контроля доступа к сетевым или информационным ресурсам.

Системы распознавания диктора могут решать две задачи: определять личность из заданного, ограниченного списка людей (идентификация личности) или подтверждать личность говорящего (верификация личности). Идентификация и верификация личности по голосу являются направлениями развития технологии обработки речи.

Рис. 1 – Распознавание диктора

Речь – это сигнал, возникающий в результате преобразований, происходящих на нескольких различных уровнях: семантическом, лингвистическом, артикуляционном и акустическом. Как известно, источником речевого сигнала служит речевой тракт, который возбуждает звуковые волны в упругой воздушной среде. Под речевым трактом обычно подразумевается орган речеобразования, расположенный над голосовыми связками. Как видно из рисунка 2 речевой тракт состоит из гортаноглотки, ротоглотки, ротовой полости, носоглотки и носовой полости.


Рис. 2 – Строение речевого тракта человека

Голос человека возникает при прохождении воздуха из легких через трахею в гортань, мимо голосовых связок, и, далее в глотку и рот и носовую полость. Когда звуковая волна проходит через речевой тракт, ее частотный спектр изменяется под действием колебаний речевого тракта. Колебания речевого тракта называются формантами. Системы верификации диктора обычно распознают отличительные признаки речевого сигнала, которые отражают индивидуальную особенность мышечной активности речевого тракта личности.

Рассмотрим более подробно систему верификации диктора. Верификация личности по голосу – это определение, является ли говорящий тем, кем он представляется. Пользователь, ранее зарегистрированный в системе, произносит свой идентификатор, который представляет собой регистрационный номер, парольное слово или фразу. При текстозависимом распознавании парольное слово известно системе, и она «просит» пользователя произнести его. Парольное слово отображается на экране, и человек произносит его в микрофон. При текстонезависимом распознавании произносимое пользователем парольное слово не совпадает с эталонным, т.е. в качестве пароля пользователь может произносить произвольное слово или фразу. Система верификации принимает речевой сигнал, обрабатывает его и решает, принять или отклонить предъявляемый пользователем идентификатор. Система может сообщить пользователю о недостаточной степени совпадения его голоса с имеющимся эталоном и попросить произнести дополнительную информацию, чтобы принять окончательное решение.


Рис. 3 – Взаимодействие человека с системой

Схема взаимодействия человека с системой верификации личности по голосу изображена на рисунке 3. Пользователь произносит в микрофон предлагаемый ему системой номер для того, чтобы система проверила, соответствует ли его голос эталону, хранящемуся в базе данных системы. Как правило, существует компромисс между точностью распознавания голоса и размером речевого образца, т.е. чем длиннее речевой образец, тем выше точность распознавания. Помимо голоса в микрофон могут попадать эхо и посторонние шумы.

Существует ряд факторов, которые могут способствовать возникновению ошибок верификации и идентификации, например:

  • неправильное произнесение или прочтение парольного слова или фразы;
  • эмоциональное состояние диктора (стресс, произнесение парольной фразы под принуждением и пр.);
  • сложная акустическая обстановка (шум, помехи, радиоволны и пр.);
  • разные каналы связи (использование разных микрофонов во время регистрации диктора и верификации);
  • простудные заболевания;
  • естественные изменения голоса.

Некоторые из них могут быть устранены, например, путем использования более качественных микрофонов.

Процесс верификации личности по голосу состоит из 5 этапов: прием речевого сигнала, параметризация, или выделение отличительных признаков голоса, сравнение полученного образца голоса с ранее установленным эталоном, принятие решения «допуск/отказ», обучение, или обновление эталонной модели. Схема верификации представлена на рисунке 4.


Рис. 4 – Схема верификации

Во время регистрации новый пользователь вводит свой идентификатор, а затем произносит несколько раз ключевое слово или фразу, таким образом создаются эталоны. Число повторов ключевой фразы может варьироваться для каждого пользователя, а может быть постоянным для всех.

Для того чтобы компьютер мог обработать речевой сигнал, звуковая волна преобразовывается в аналоговый, а затем в цифровой сигнал.

На этапе выделения признаков голоса речевой сигнал разбивается на отдельные звуковые кадры, которые впоследствии преобразуются в цифровую модель. Эти модели называют «голосовыми отпечатками». Вновь полученный «голосовой отпечаток» сравнивается с ранее установленным эталоном. Для распознавания личности говорящего самыми важными являются наиболее яркие отличительные признаки голоса, которые позволили бы системе с высокой точностью распознавать голос каждого конкретного пользователя.

Наконец, система принимает решение допустить или отказать пользователю в допуске в зависимости от совпадения или несовпадения его голоса с установленным эталоном. Если система неверно сопоставила предъявленный ей голос с эталоном, то возникает ошибка «ложный допуск» (FA). Если же система не опознала биометрический признак, который соответствует имеющемуся в ней эталону, то говорят об ошибке «ложный отказ» (FR). Ошибка ложного допуска создает брешь в системе безопасности, а ошибка ложного отказа приводит к уменьшению удобства пользования системой, которая иногда не распознаёт человека с первого раза. Попытка снизить вероятность возникновения одной ошибки приводит к более частому возникновению другой, поэтому в зависимости от требований к системе выбирается определённый компромисс, т.е. устанавливается порог принятия решения.

Заключение

Методы голосовой идентификации применяют и на практике. Технология идентификации по голосу компании позволяет организовать регламентированный доступ пользователей по заданной парольной фразе к ресурсам предприятия, телефонным и WEB-сервисам. Использование технологии позволяет существенно повысить защищенность систем и, в то же время, упростить процесс идентификации пользователя. Технология Voice Key обеспечит высокую надежность и стабильность работы системы, а также поможет повысить качество обслуживания клиентов.

Все материалы, размещенные на даннном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"

Похожие публикации