Pаспознавание речи и мгновенный перевод. Голосовой набор текста: онлайн-сервисы и приложения для компьютера

Для Андроид 25.08.2019
Для Андроид

В «Фейсбуке» нам задали вопрос:
«Для работы с текстом мне нужно расшифровать 3 часа диктофонной записи. Пробовал загрузить аудиофайл с картинкой в YouTube и воспользоваться их расшифровщиком текста, но получается какая-то абракадабра. Подскажите, как можно решить это технически? Спасибо!
Александр Коновалов»

Александр, простое техническое решение есть – но результат будет зависеть исключительно от качества вашей записи. Поясню, о каком качестве речь.

За последние годы технологии распознавания русской речи сильно продвинулись вперед. Процент ошибок распознавания снизился до такого уровня, что иной текст стало проще «наговорить» в специальном мобильном приложении или интернет-сервисе, откорректировав вручную отдельные «очепятки» – чем целиком набирать весь текст на клавиатуре.

Но, чтобы искусственный интеллект системы распознавания смог проделать свою работу – пользователь должен проделать свою. А именно: говорить в микрофон четко и размеренно, избегать сильных фоновых шумов, по возможности использовать стереогарнитуру или выносной микрофон, прикрепленный к петлице (для качества распознавания важно, чтобы микрофон все время находился на одном расстоянии от губ, а вы сами говорили с одинаковой громкостью). Естественно, чем выше класс аудиоустройства – тем лучше.

Несложно придерживаться этих условий, если вы, вместо того, чтобы обращаться к интернет-сервису распознавания речи напрямую, применяете в качестве промежуточного устройства-посредника диктофон. К слову, такой «персональный секретарь» особенно незаменим, когда у вас нет доступа к онлайну. Естественно, лучше использовать хотя бы недорогой профессиональный диктофон, нежели записывающее устройство, встроенное в дешевый mp3-плеер или смартфон. Это даст гораздо больше шансов «скормить» полученные записи сервису распознавания речи.

Сложно, но можно уговорить соблюдать эти правила собеседника, у которого вы берете интервью (еще один совет: если у вас нет в комплекте выносного микрофона на прищепке – хотя бы держите диктофон рядом с собеседником, а не с собой).

А вот «законспектировать» на нужном уровне в автоматическом режиме конференцию или семинар – дело, на мой взгляд, практически нереальное (ведь вы не сможете контролировать речь спикеров и реакцию слушателей). Хотя достаточно интересный вариант: превращение в текст профессионально записанных аудиолекций и аудиокниг (если на них не накладывалась фоновая музыка и шумы).

Будем надеяться, что качество вашей диктофонной записи – достаточно высокое, чтобы ее удалось расшифровать в автоматическом режиме .

Если же нет – практически при любом качестве записи вы сможете провести расшифровку в полуавтоматическом режиме .

Кроме того, в ряде ситуаций наибольшую экономию времени и сил вам принесет, как ни парадоксально, расшифровка в ручном режиме . Точнее, тот ее вариант, который сам я использую уже с десяток лет. 🙂

Итак, по порядку.

1. Автоматическое распознавание речи

Многие советуют расшифровывать диктофонные записи на YouTube. Но этот метод заставляет пользователя тратить время на этапе загрузки аудиофайла и фоновой картинки, а затем – в ходе очистки итогового текста от меток времени. Между тем, это время несложно сэкономить. 🙂

Вы можете распознавать аудиозаписи прямо со своего компьютера, воспользовавшись возможностями одного из интернет-сервисов, работающих на движке распознавания Google (рекомендую Speechpad.ru или Speechlogger.com). Все, что нужно – проделать маленький трюк: вместо вашего голоса, воспроизводимого с микрофона, перенаправить на сервис аудиопоток, воспроизводимый вашим компьютерным проигрывателем.

Этот трюк называется программным стерео микшером (его обычно применяют для записи музыки на компьютере или ее трансляции с компьютера в интернет).

Стерео микшер входил в состав Windows XP – но был удален разработчиками из более поздних версий этой операционной системы (говорят, в целях защиты авторских прав: чтобы геймеры не воровали музыку из игр и т.п.). Однако стерео микшер нередко поставляется вместе с драйверами аудиокарт (например, карт Realtec, встраиваемых в материнскую плату). Если вы не найдете стерео микшер на своем ПК с помощью предлагаемых ниже скриншотов – попробуйте переустановить аудиодрайверы с CD-диска, который шел в комплекте с материнской платой – либо с сайта ее производителя.

Если и это не поможет – установите на компьютер альтернативную программу. Например – бесплатный VB-CABLE Virtual Audio Device : использовать его рекомендует владелец вышеупомянутого сервиса Speechpad.ru.

Первым шагом вы должны отключить для использования в режиме записи микрофон и включить вместо него стерео микшер (либо виртуальный VB-CABLE).

Для этого нажмите по иконке громкоговорителя в правом нижнем углу (возле часов) – либо выберите раздел «Звук» в «Панели управления». Во вкладке «Запись» открывшегося окна щелкните правой кнопкой мыши и поставьте птички напротив пунктов «Показать отключенные устройства» и «Показать отсоединенные устройства». Нажмите правой кнопкой по иконке микрофона и выберите пункт «Отключить» (вообще, отключите все устройства, отмеченные зеленым значком).

Нажмите правой кнопкой по иконке стерео микшера и выберите пункт «Включить». На иконке появится зеленый значок, что будет означать, что стерео микшер стал устройством по умолчанию.

Если вы решили использовать VB-CABLE – то тем же способом включите его во вкладке «Запись».

А также – во вкладке «Воспроизведение».

Второй шаг. Включите аудиозапись в любом проигрывателе (если нужно расшифровать аудиодорожку видеоролика – можно запустить и видеопроигрыватель). Параллельно загрузите в браузере Chrome сервис Speechpad.ru и нажмите в нем кнопку «Включить запись». Если запись достаточно высокого качества, вы увидите, как сервис на глазах превращает речь в осмысленный и близкий к оригиналу текст. Правда, без знаков препинания, которые вам придется расставить самостоятельно.

В качестве аудиопроигрывателя советую использовать AIMP, о котором будет подробнее рассказано в третьей подглавке. Сейчас лишь отмечу, что этот плеер позволяет замедлить запись без искажений речи, а также исправить некоторые другие погрешности. Это может несколько улучшить распознавание не слишком качественной записи. (Иногда даже советуют предварительно подвергать плохие записи обработке в профессиональных программах редактирования звука. Однако, на мой взгляд, это слишком трудоемкая задача для большинства пользователей, которые гораздо быстрее наберут текст вручную. 🙂)

2. Полуавтоматическое распознавание речи

Тут все просто. Если запись некачественная и распознавание «захлебывается» либо сервис выдает слишком много ошибок – помогите делу сами, «встроившись» в цепочку: «аудиоплеер – диктор – система распознавания».

Ваша задача: прослушивать в наушниках записанную речь – и параллельно надиктовывать ее через микрофон интернет-сервису распознавания. (Естественно, вам не нужно, как в предыдущем разделе, переключаться в списке записывающих устройств с микрофона на стерео микшер или виртуальный кабель). А в качестве альтернативы упоминавшимся выше интернет-сервисам можете использовать смартфонные приложения вроде бесплатной «Яндекс.Диктовки» либо функцию диктовки в iPhone с операционной системой iOS 8 и выше.

Отмечу, что в полуавтоматическом режиме вы имеете возможность сразу диктовать знаки препинания, расставлять которые в автоматическом режиме сервисы пока не способны.

Если у вас получится диктовать синхронно с воспроизведением записи на плеере – предварительная расшифровка займет практически столько же времени, сколько и сама запись (не считая последующих затрат времени на исправление орфографических и грамматических ошибок). Но даже работа по схеме: «прослушать фразу – надиктовать – прослушать фразу – надиктовать», – может вам дать неплохую экономию времени по сравнению с традиционным набором текста.

В качестве аудиоплеера рекомендую использовать тот же AIMP. Во-первых, с его помощью вы можете замедлить воспроизведение до скорости, на которой вам будет комфортно работать в режиме синхронной диктовки. Во-вторых, этот плеер умеет возвращать запись на заданное количество секунд: это бывает необходимо, чтобы лучше расслышать неразборчивую фразу.

3. Расшифровка диктофонной записи в ручном режиме

Вы можете установить на практике, что слишком быстро устаете от диктовки в полуавтоматическом режиме. Или делаете вместе с сервисом слишком много ошибок. Или, благодаря навыкам быстрого набора, гораздо легче создаете готовый исправленный текст на клавиатуре, чем с помощью диктовки. Или ваш диктофон, микрофон на стереогарнитуре, аудиокарта не обеспечивают приемлемое для сервиса качество звука. А может, у вас просто нет возможности диктовать вслух в своем рабочем или домашнем офисе.

Во всех этих случаях вам поможет мой фирменный способ расшифровки вручную (прослушиваете запись в AIMP – набираете текст в Word). С его помощью вы превратите запись в текст быстрее, чем это сделают многие профессиональные журналисты, чья скорость набора на клавиатуре аналогична вашей! При этом вы потратите гораздо меньше, чем они, сил и нервов. 🙂

Из-за чего, в основном, теряются силы и время в ходе расшифровки аудиозаписей традиционным способом? Из-за того, что пользователь совершает очень много лишних движений.

Пользователь постоянно протягивает руку то к диктофону, то к клавиатуре компьютера. Остановил воспроизведение – набрал прослушанный отрывок в текстовом редакторе – снова включил воспроизведение – отмотал неразборчивую запись назад – и т.д., и т.п.

Использование обычного программного плеера на компьютере мало облегчает процесс: пользователю приходится постоянно сворачивать/разворачивать Word, останавливать/запускать плеер, да еще елозить туда-сюда слайдером плеера, чтобы найти неразборчивый фрагмент, а затем вернуться к последнему прослушанному месту в записи.

Чтобы сократить эти и другие потери времени, специализированные IT-компании разрабатывают программные и аппаратные транскрайберы. Это достаточно дорогие решения для профессионалов – тех же журналистов, судебных стенографистов, следователей и т.д. Но, собственно, для наших целей требуются только две функции:

  • возможность замедлить воспроизведение диктофонной записи без ее искажения и понижения тона (замедлить скорость воспроизведения позволяют многие плееры – но, увы, при этом человеческий голос превращается в монструозный голос робота, который сложно воспринимать на слух продолжительное время);
  • возможность остановить запись или откатить ее на заданное количество секунд и вернуть обратно, не останавливая набор текста и не сворачивая окно текстового редактора.

В свое время я протестировал десятки аудиопрограмм – и нашел лишь два доступных платных приложения, отвечающих этим требованиям. Приобрел одно из них. Поискал еще немного для своих дорогих читателей 🙂 – и нашел замечательное бесплатное решение – проигрыватель AIMP , которым сам пользуюсь до сих пор.

«Войдя в настройки AIMP, найдите раздел Глобальные клавиши и перенастройте Стоп/Пуск на клавишу Эскейп (Esc). Поверьте, это наиболее удобно, поскольку не придется задумываться и палец не попадет случайно на другие клавиши. Пункты «Немного перейти назад» и «Немного перейти вперед» настройте, соответственно, на клавиши Ctrl + клавиши курсора назад/вперед (у вас на клавиатуре есть четыре клавиши со стрелками – выберите две из них). Эта функция нужна, чтобы заново прослушать последний фрагмент или перейти немного вперед.

Затем, вызвав эквалайзер, вы можете уменьшить значения «Скорость» и «Темп» – и увеличить значение «Питч». При этом Вы заметите, что скорость воспроизведения замедлится, но высота голоса (если хорошо подберете значение «Питч») – не изменится. Подберите эти два параметра так, чтобы вы практически синхронно успевали набирать текст, лишь изредка останавливая его.

Когда все будет настроено, набор будет занимать у вас меньше времени, и руки будут уставать меньше. Вы сможете расшифровывать аудиозапись спокойно и комфортно, практически не отрывая пальцев от набора текста на клавиатуре».

Могу только добавить к сказанному, что, если запись не очень качественная – вы можете попытаться улучшить ее воспроизведение, экспериментируя с другими настройками в «Менеджере звуковых эффектов» AIMP.

А количество секунд, на которое вам будет наиболее удобно перемещаться по записи назад или вперед с помощью горячих клавиш – установите в разделе «Плеер» окна «Настройки» (которое можно вызвать нажатием горячих клавиш «Ctrl + P»).

Желаю сэкономить побольше времени на рутинных задачах – и плодотворно использовать его для главных дел! 🙂 И не забудьте включить микрофон в списке записывающих устройств, когда соберетесь поговорить по скайпу! 😉

3 способа расшифровки диктофонной записи: распознавание речи, диктовка, ручной режим

Титровщик телефона для глухих и слабослышащих

Превратите ваш экран в удивительном заголовка телефона. Это полностью автоматический, без человеческого слуха-машинистки ваши разговоры. Находят бабушки и дедушки трудно услышать семью и друзей по телефону? Включите Speechlogger для них и остановить кричать по телефону. Просто подключите аудиовыход телефона к аудио входу компьютера и запустить Speechlogger. Это также полезно в лицом к лицу взаимодействия.

Автоматическая транскрипция

Вы записали интервью? Сохранить некоторое время на переписывание его, с автоматическим речи Google, к тексту, принесла в ваш браузер по Speechlogger. Воспроизведение записанного интервью в микрофон вашего компьютера (или линии) в-и пусть speechlogger сделать транскрипцию. Speechlogger сохраняет транскрипции текст вместе с датой, временем и ваши комментарии. Она также позволяет редактировать текст. Телефонных разговоров могут быть расшифрованы с помощью того же метода. Вы также можете записать аудио-файлы непосредственно с компьютера, как описано ниже.

Автоматический устный и письменный переводчик

Встреча с иностранными гостями? Принесите ноутбук (или два) с speechlogger и микрофона. Каждая сторона будет видеть друга произнесенные слова, переведенные на их родном языке в режиме реального времени. Это также полезно на телефонный звонок на иностранном языке, чтобы убедиться, что вы в полной мере понять другую сторону. Подключите аудиовыход вашего телефона, чтобы линейный вход вашего компьютера и начать Speechlogger.

Изучайте иностранные языки и улучшайте навыки произношения

Speechlogger является отличным инструментом для изучения языков и может быть использован u200b u200Bin несколько способов. Вы можете использовать его, чтобы узнать словарный запас, говоря на вашем родном языке и давая программного обеспечения перевести его. Вы можете учиться и практиковать правильное произношение, разговаривая на иностранном языке и, видя, понимает ли Speechlogger или нет. Если расшифрованы текст в черным шрифтом это означает, что вы произнес это хорошо.

Генерирование субтитров для фильмов

Speechlogger может автоматически записать фильмы или другие звуковые файлы. Затем возьмите файл и автоматически перевести его на любой язык, чтобы произвести международные субтитры.

Диктуйте вместо ввода

Написание письма? Документы? Списки? Резюме? Независимо от того, вам нужно ввести, попробуйте диктовать его Speechlogger вместо этого. Speechlogger будет автоматически сохранять его для вас, и позволит экспортировать его в документ.

Забавная игра:)

Вы можете имитировать китайскую динамик? Французский? Что о русском языке? Попробуйте имитировать иностранный язык и увидеть то, что вы только что сказали, с Speechlogger. Используйте синхронный перевод Speechlogger, чтобы понять, что вы только что сказали. Получить удивительные результаты - это очень весело!

Здравствуйте, дорогие читатели! Перед вами самая необычная статья нашего блога, ведь при её написании использовался голосовой набор текста. Поэтому сегодня мы с вами обсудим, как набирать текст голосом.

Это метод набора текста при помощи речи, которая передаётся через микрофон. Эта тема очень актуальная для тех, кто работает с большими объёмами, например, блоггеры, а также люди с ограниченными возможностями. Или для тех, кто ещё не успел овладеть на клавиатуре компьютера.

Сервисы голосового набора

Существуют сервисы, которые работают онлайн, и есть программы, которые устанавливаются на компьютер.

Онлайн-сервисы

  • Speechpad

Это бесплатная разработка Google Chrome, которая, соответственно, работает только в этом браузере. Думаю, с этим проблем не будет, ведь это лучший браузер, и если вы до сих пор им не пользуетесь, то читайте статью про то, . Блокнот можно установить прямо в браузер или пользоваться возможностью набора текста голосом, перейдя на их сайт.

  • Войснот II

Аналогичен предыдущему сервису, также работает только в Google Chrome. Пользоваться им элементарно: выбираем нужный язык и приложение под диктовку само печатает.

  • August4u
  • TalkTyper

Преимущества данного бесплатного сервиса в наличии голосовых подсказок, возможности просмотра вариантов распознавания. Также имеется удобный редактор, с помощью которого вы cможете скопировать полученный материал, распечатать его на принтере, осуществить перевод на иностранные языки или отправить по почте.

Чтобы воспользоваться набором, не прикасаясь к клавиатуре, вам нужно открыть вкладку “Инструменты ”, а затем нажать на “Голосовой ввод…”

Разные команды для редактирования и форматирования пока доступны только на английском языке, но для русского языка поддерживаются пунктуационные команды :

  • «точка»,
  • «запятая»,
  • «восклицательный знак»,
  • «вопросительный знак»,
  • «новая строка»,
  • «новый абзац».

Как показала практика, это очень удобно.

Программы

  • Voco

Платная программа, которая при помощи голоса не только печатает на компьютере и устанавливает знаки препинания, но и радует дополнительными опциями: она умеет аудио, также можно расширить версию словарями (например, с юридическими терминами или другими).

Поддерживается операционными системами, начиная с Windows 7 и выше.
Цена: от 1 690 руб.

  • MSpeech

Бесплатна и может удовлетворить амбиции многих пользователей. Её привлекательность состоит в том, что она может распознавать голос на 50 языках. Для удобного использования есть горячие клавиши, можно самому выбирать источник звука, корректировать распознанный текст.

Плюсы и минусы набора при помощи голоса

Плюсы:

  • Благодаря этим приложениям, фрилансеры могут хорошо подзаработать, занимаясь транскрибацией. Множество заданий такого рода можно найти на бирже Work-zilla , — это излюбленное место новичков в удалённой работе. Вам только остаётся включить программу и чуть позже подкорректировать текст в Word.
  • Экономия времени и сил.
  • Отличная находка для людей с ограниченными возможностями.
  • Для творческих людей выше предложенные сервисы — палочка-выручалочка, все идеи можно быстро записать, просто озвучив голосом, чтобы не забыть.

К сожалению, существуют и минусы при работе с данными сервисами:

  • Если в помещении, где вы надиктовываете, есть посторонние звуки, то распознавание слов и словосочетаний в разы ухудшается.
  • Многие приложения, работающие онлайн, доступны только в браузере Google Chrome.
  • После набора нужно уделить время на редактирование и корректировку текста.
  • Необходимо иметь качественный чувствительный микрофон.
  • Желательно иметь хорошую дикцию, чтобы уменьшить риск возникновения ошибок.

Заключение

Подводя итог данной статьи, можем сказать, что технологии шагнули далеко вперёд, и если раньше всё требовалось печатать вручную, то сейчас это вполне реально делать, просто диктуя информацию голосом. Конечно, нет гарантии идеального распознавания, но прогресс очевиден.

Благодаря развитию приложений, которые значительно облегчают работу удалённым сотрудникам, можно добиться максимальной продуктивности и большей скорости выполняемых задач. Поэтому надеемся, что данная статья поможет вам стать эффективнее в своей работе.

Оставляйте в комментариях ваши отзывы о работе различных сервисов распознавания речи.

Всего вам доброго!

Не так давно мне понадобилась перевести кучу аудио записей в текст (транскрибация аудио в текст). Посидев несколько часов в поисках подходящей программы понял, что таковых нет. Есть только для голосового ввода, но мне это не подходило. Перепробовал кучу разных инструкций и сервисов, потратил столько на это времени, но все же нашел один способ как преобразовать аудиофайл текст. Решил написать подробную и понятную инструкцию так как сам не нашел подобной.

Интересные статьи по теме:

Как преобразовать аудио файл в текст

И так начнем как я уже говорил софта я не нашел использовать будем онлайн сервис для голосового ввода с его помощью можно перевести любой аудио файл в текст например перевести mp3 в текст. Но для начала нам нужно подготовить наш компьютер. Идем на этот сайт https://www.vb-audio.com/Cable/ и скачиваем виртуальный кабель. Он позволить нам воспроизводить аудиозапись и передавать звук на виртуальный микрофон.

Скачав его нужно установить, для этого запускаем.exe файл от имени администратора.

После установки в значке громкости кликаем правой кнопкой и выбираем Устройство воспроизведения.

В открывшемся окно кликаем на Cable input правой кнопкой мыши и устанавливаем его устройством по умолчанию. После этого звук у вас пропадет, так как воспроизводиться он будет на новом виртуальном устройстве.

Теперь переходим на сайт Многие пишут что нужно зарегистрироваться после чего появиться больше функции и т.д Нам все это не нужно по этому просто кликаем включить запись.

После чего нужно настроить микрофон в браузере. Кликаем на значек камеры в браузере отмечаем разрешить и выбираем Микрофон это наше виртуальное устройство CABLE… и нажимаем готово.

Теперь осталось запустить нужный аудио файл и смотреть на результат.

Результат получается так себе, но все же лучше потом что-то исправить, чем набирать все с нуля. Из своего опыта скажу, что примерно 60% аудиозаписи блокнот распознает. Подведем итог, что мы сделали. Мы перенаправили воспроизводимый звук на виртуальный кабель, который работает как обычный микрофон. После чего воспользовались голосовым блокнотом. В принципе вы можете выбрать и другой сервис, например в гугл документах так же есть голосовой набор. Да и программы подобные есть. Я распознавал именно телефонные разговоры. По этому если вы скажем, хотите перевести в текст например музыку то результат может быть совсем другой.

Привет, коллеги-фрилансеры!

С тем, я думаю, из вчерашней статьи вы полностью разобрались. Двигаемся дальше.

Сегодня я хочу рассказать какие программы помогут существенно облегчить весь процесс транскрибирования. Существует не одна программа для транскрибации, которой можно воспользоваться, и есть несколько вариантов, как с помощью них можно легко делать перевод аудио и видео в текст.

Но о том, как делать транскибацию и какими способами, я буду подробно . Сегодня только подробный обзор этих программ со всеми преимуществами и недостатками.

Скачать программу Express Scribe (официальный сайт)

К сожалению, нет версии этой программы на русском языке, но она очень простая, интуитивно понятная и бесплатная.

Основные преимущества:

  • Удобное поле для набора текста. Не нужно переключаться между проигрывателем и текстовым документом.
  • Изменение скорости проигрывания звуковой дорожки, чтобы успевать писать под диктовку.
  • Настраиваемые горячие клавиши, позволяющие воспроизводить, останавливать и перематывать запись.
  • Адаптирован для работы с Word.
  • Расстановка тайм-кодов.

Недостатки:

  • На английском языке. Хотя это ни капли не мешает в работе.

В следующей статье я подробно разберу как в ней работать и какие горячие клавиши использовать.

Программа LossPlay

Скачать программу LossPlay

Простой и тоже бесплатный плеер для расшифровок.


Основные преимущества:

  • Настраиваемые горячие клавиши.
  • Воспроизведение аудио и видеофайлов.
  • Изменение скорости проигрывания записи.
  • Расстановка тайм-кодов.
  • Настраиваемый откат после паузы.
  • Адаптирован для работы в Microsoft Word.

Недостаток:

  • Приходится иногда переключаться между окнами.

3 видео урока по работе с LossPlay

Урок 1

Знакомство с плеером, как он устанавливается и работает.

Урок 2

Вставка тайм-кода в расшифровываемый текст.

Урок 3

Как повысить производительность транскрибаторов за счёт тонкой настройки программы.

Онлайн сервис Speechpad

Очень простой онлайн-сервис для распознавания речи. С помощью него вы можете голосом надиктовывать текст и потом его редактировать, сохранив или скопировав в текстовый документ.

По сути данный сервис могут заменить обычные гугл документы, в которых есть функция голосового набора текста.

Вот такие проги существуют для облегчения работы транскрибаторов. Можете ниже в комментариях написать своё мнение или оставить отзыв о том, чем вы пользуетесь. Желаю всем удачи и увидимся в следующей статье.



Рекомендуем почитать

Наверх