Portal de construção - Casa. Aquecedores de água. Chaminés. Instalação de aquecimento. Aquecedores. Equipamento

Sistema de reconhecimento de voz. Ditando texto: os melhores programas gratuitos para conversão de fala


Você sabia que a tecnologia de reconhecimento de voz existe há 50 anos? Os cientistas têm resolvido este problema há meio século e só nas últimas décadas as empresas de TI se uniram para resolvê-lo. resultado ano passado o trabalho tornou-se um novo nível de precisão de reconhecimento e o uso massivo de tecnologia na vida cotidiana e profissional.

Tecnologia na vida

Todos os dias usamos motores de busca. Procuramos onde almoçar, como chegar ao lugar certo ou tentamos descobrir o significado de um termo desconhecido. A tecnologia de reconhecimento de voz, que é utilizada, por exemplo, pelo Google ou Yandex.Navigator, ajuda-nos a gastar um mínimo de tempo pesquisando. É simples e conveniente.

Em um ambiente profissional, a tecnologia ajuda diversas vezes a simplificar o trabalho. Por exemplo, na medicina, o discurso do médico é convertido no texto de um histórico médico e em uma receita imediatamente na consulta. Isso economiza tempo na inserção de informações do paciente em documentos. O sistema embutido no computador de bordo do carro responde às solicitações do motorista, por exemplo, ajuda a encontrar o posto de gasolina mais próximo. Para pessoas com deficienteÉ importante introduzir sistemas no software dos eletrodomésticos para controlá-los por voz.

Desenvolvimento de sistemas de reconhecimento de voz

A ideia de reconhecimento de fala sempre pareceu promissora. Mas já na fase de reconhecimento dos números e dos mais palavras simples os pesquisadores se deparam com um problema. A essência do reconhecimento foi reduzida à construção de um modelo acústico, quando a fala foi apresentada como um modelo estatístico, que foi comparado com modelos prontos. Se o modelo correspondesse ao modelo, o sistema decidiria que o comando ou número foi reconhecido. O crescimento de dicionários que o sistema pudesse reconhecer exigiu um aumento no poder dos sistemas de computação.

GGráficos de crescimento do desempenho do computador e redução de erros de reconhecimento em sistemas de reconhecimento de voz em inglês
Fontes:
Erva Sutter. O almoço grátis acabou: uma virada fundamental em direção à simultaneidade em software
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Hoje, os algoritmos de reconhecimento foram complementados por modelos de linguagem que descrevem a estrutura de uma linguagem, por exemplo, uma sequência típica de palavras. O sistema é treinado em material de fala real.

Uma nova etapa no desenvolvimento da tecnologia foi o uso de redes neurais. O sistema de reconhecimento é projetado de forma que cada novo reconhecimento afete a precisão do reconhecimento no futuro. O sistema se torna aprendível.


A qualidade dos sistemas de reconhecimento de voz

A situação atual no desenvolvimento da tecnologia é expressa pelo objetivo: do reconhecimento de fala à compreensão. Para o efeito, foi também escolhido um indicador-chave - a percentagem de erros de reconhecimento. Vale dizer que tal indicador também é utilizado no reconhecimento da fala de uma pessoa por outra. Omitimos algumas palavras, levando em consideração outros fatores, como o contexto. Isso nos permite compreender a fala mesmo sem compreender o significado das palavras individuais. Para um ser humano, a taxa de erro de reconhecimento é de 5,1%.

Outras dificuldades em ensinar um sistema de reconhecimento de fala para compreender um idioma serão as emoções, uma mudança inesperada no tema da conversa, o uso de gírias e as características individuais do falante: velocidade de fala, timbre, pronúncia dos sons.


Participantes do mercado mundial

Vários players globais no mercado de plataformas de reconhecimento de voz são bem conhecidos. Estes são Apple, Google, Microsoft, IBM. Essas empresas possuem recursos suficientes para pesquisa e uma extensa base para treinamento de seus próprios sistemas. Por exemplo, o Google usa milhões de consultas de pesquisa para aprender, que os usuários ficam felizes em fazer a si mesmos. Por um lado, isso aumenta a precisão do reconhecimento e, por outro, impõe limitações: o sistema reconhece a fala em segmentos de 15 segundos e conta com uma “pergunta de perfil amplo”. Erro de reconhecimento do sistema Google - 4,9%. Para a IBM, esse número é de 5,5%, e para a Microsoft - 6,3% no final de 2016.

A plataforma para uso em áreas profissionais está sendo desenvolvida pela empresa americana Nuance. Entre as áreas de aplicação: medicina, direito, finanças, jornalismo, construção, segurança, indústria automotiva.

Na Rússia, o Center for Speech Technologies é o maior fabricante de ferramentas profissionais de reconhecimento de voz e síntese de fala. As soluções da empresa são implementadas em 67 países ao redor do mundo. Principais áreas de atuação: biometria vocal – identificação por voz; sistemas de autoatendimento de voz – IVR, utilizados em call centers; sintetizadores de voz. Nos EUA, a empresa russa opera sob a marca SpeechPro e realiza pesquisas sobre reconhecimento de fala em inglês. Os resultados de reconhecimento estão incluídos nos 5 melhores resultados em termos de erro.


O valor do reconhecimento de voz no marketing

O objetivo do marketing é estudar as necessidades do mercado e organizar o negócio de acordo com elas, a fim de aumentar a rentabilidade e a eficiência. A voz interessa aos profissionais de marketing em dois casos: se o cliente fala e se o funcionário fala. Portanto, o objeto de estudo dos profissionais de marketing e o escopo da tecnologia são as ligações telefônicas.

Hoje, a análise de conversas telefônicas está pouco desenvolvida. As ligações não precisam apenas ser gravadas, mas também ouvidas, avaliadas e só então analisadas. Se não for difícil organizar uma gravação - pode ser qualquer PBX virtual ou serviço de rastreamento de chamadas - então é mais difícil organizar a escuta das chamadas. Essa tarefa é resolvida por um indivíduo da empresa ou pelo chefe do call center. A escuta de ligações também é terceirizada. Em qualquer caso, o erro na estimativa de chamadas é um problema que põe em causa os resultados das análises e as decisões tomadas com base nas mesmas.

Nenhum programa pode substituir completamente trabalho manual transcrever fala gravada. Porém, existem soluções que podem agilizar e facilitar significativamente a tradução da fala em texto, ou seja, simplificar a transcrição.

O que é transcrição

Transcrição é a tradução automática ou manual de uma fala em texto, mais precisamente, a gravação de um arquivo de áudio ou vídeo em formato de texto.

Existem tarefas pagas na Internet, quando uma determinada quantia em dinheiro é paga ao intérprete pela transcrição de um texto. Neste caso, a transcrição é feita manualmente.

No entanto, você pode fazer a transcrição automaticamente usando programa especial, capaz de “ouvir” o texto e ao mesmo tempo “imprimi-lo”, transformando-o em um arquivo de texto adequado para uso posterior.

Traduzir fala em texto manualmente ou com a ajuda de um programa especial é útil

  • os alunos traduzam palestras gravadas em áudio ou vídeo em texto,
  • blogueiros liderando sites e blogs,
  • escritores, jornalistas para escrever livros e textos,
  • empresários da informação que precisam de um texto após seu webinar, discurso, etc.,
  • freelancers que traduzem manualmente a fala em texto para facilitar e agilizar seu trabalho,
  • pessoas que têm dificuldade para digitar - podem ditar uma carta e enviá-la para parentes ou amigos,
  • outras opções.

Sobre os problemas da tradução automática de fala para texto

Existem dois problemas principais na tradução da fala em texto usando o programa: a qualidade da fala gravada e a presença de um fundo na gravação na forma de ruído, música ou outros sons estranhos.

A fala de cada pessoa é diferente.

  • tão rápido que as palavras são engolidas ou, inversamente, muito lentas;
  • com dicção clara, como oradores profissionais, ou tão inexpressiva que é difícil decifrar alguma coisa;
  • com excelente pronúncia ou, pelo contrário, com sotaque forte, por exemplo, quando fala um estrangeiro.

Em que casos um programa de transcrição automática dará o melhor resultado na tradução de fala para texto? O programa fará uma tradução de mais ou menos qualidade quando uma pessoa falar na gravação com dicção clara, com velocidade de fala normal, sem sotaque. Ao mesmo tempo, não há sons estranhos na gravação da fala na forma de ruído, música, conversas de outras pessoas. Então você pode esperar por uma boa tradução automática que não exija correções manuais ou com alterações mínimas.

Em outros casos, quando a fala é inexpressiva e há ruídos estranhos, a tradução por meio de um programa ou aplicativo será muito pior. Talvez algum programa ou serviço transcreva essa fala melhor do que outros programas e aplicativos, mas você não deve esperar um milagre.

Em alguns casos, ainda vale a pena entrar em contato com uma bolsa freelancer, onde uma pessoa viva fará a tradução manualmente. Porém, aqui também não é possível garantir alta qualidade, pois um freelancer pode usar programas de transcrição automática e ter preguiça de fazer edições no texto resultante.

Descreveremos as ferramentas mais eficazes disponíveis no computador, Aplicações Móveis e serviços online para traduzir fala em texto.

1 Site Speechpad.ru

Este é um serviço online que permite através do navegador Google Chrome traduzir fala em texto. O serviço funciona com microfone e com arquivos prontos. Claro, a qualidade será muito maior se você usar um microfone externo e ditar você mesmo. Porém, o serviço faz um bom trabalho mesmo com vídeos do YouTube.

Clique em “Ativar gravação”, responda à pergunta sobre “Usar microfone” - para isso, clique em “Permitir”.

A longa instrução de utilização do serviço pode ser recolhida clicando no botão 1 da fig. 3. Você pode se livrar da publicidade fazendo um simples cadastro.

Arroz. 3. Painel de fala de serviço

O resultado final é fácil de editar. Para fazer isso, você precisa corrigir manualmente a palavra destacada ou ditá-la novamente. Os resultados do trabalho são salvos em conta pessoal, você também pode baixá-los para o seu computador.

Lista de tutoriais em vídeo sobre como trabalhar com o Speechpad:

Você pode transcrever vídeos do Youtube ou do seu computador, porém, será necessário um mixer, mais detalhes:

Vídeo de transcrição de áudio

O serviço funciona em sete idiomas. Há uma pequena desvantagem. Está no fato de que se for necessário transcrever um arquivo de áudio finalizado, seu som é distribuído pelos alto-falantes, o que cria interferência adicional em forma de eco.

2 Ditado de serviço.io

Um maravilhoso serviço online que permitirá traduzir fala em texto de forma fácil e gratuita.

Arroz. 4. Ditado de serviço.io

1 na fig. 4 - O idioma russo pode ser selecionado no final da página. No navegador Google Chrome, o idioma é selecionado, mas no Mozilla, por algum motivo, não existe essa possibilidade.

Vale ressaltar que está implementada a capacidade de salvar automaticamente o resultado final. Isso evitará a exclusão acidental como resultado do fechamento de uma guia ou navegador. Este serviço não reconhece arquivos finalizados. Funciona com microfone. Você precisa nomear sinais de pontuação ao ditar.

O texto é reconhecido corretamente, não há erros ortográficos. Você mesmo pode inserir sinais de pontuação no teclado. O resultado final pode ser salvo no seu computador.

3 RealSpeaker

Este programa permite traduzir facilmente a fala humana em texto. Ele foi projetado para funcionar em diferentes sistemas: Windows, Android, Linux, Mac. Com sua ajuda, você pode converter a fala que soa em um microfone (por exemplo, pode ser embutido em um laptop), bem como gravá-la em arquivos de áudio.

Pode perceber 13 idiomas do mundo. Existe uma versão beta do programa que funciona como um serviço online:

Você precisa seguir o link acima, selecionar o idioma russo, enviar seu arquivo de áudio ou vídeo para o serviço online e pagar pela transcrição. Após a transcrição, você pode copiar o texto recebido. Quanto maior o arquivo para transcrição, mais tempo levará para processá-lo, mais detalhes:

Em 2017 existia a opção de transcrição gratuita através do RealSpeaker, desde 2018 não existe essa possibilidade. É provável que, para que o arquivo transcrito fique indisponível para todos os usuários para download, seja necessário marcar a caixa ao lado de “Fazer com que o arquivo falhe em 24 horas”.

O site possui um chat online. O botão para iniciar um chat está localizado no canto inferior direito do site.

4 notas de discurso

Uma alternativa ao pedido anterior de dispositivos móveis rodando no Android. Disponível gratuitamente na loja de aplicativos:

O texto é editado automaticamente, nele são colocados sinais de pontuação. Ótimo para ditar notas ou fazer listas. Como resultado, o texto terá uma qualidade muito decente. Existe uma versão premium paga.

5 Ditado do Dragão

Este é um aplicativo distribuído gratuitamente para dispositivos móveis de Maçã.

O programa pode funcionar com 15 idiomas. Permite editar o resultado, selecionar as palavras desejadas na lista. É necessário pronunciar todos os sons com clareza, não fazer pausas desnecessárias e evitar entonações. Às vezes há erros nas terminações das palavras.

O aplicativo Dragon Dictation é usado por proprietários de gadgets da Apple, por exemplo, para ditar uma lista de compras em uma loja enquanto se deslocam pelo apartamento. Quando chegarem lá, poderão olhar o texto da nota sem precisar ouvir.

Qualquer que seja o programa que você usar em sua prática, esteja preparado para verificar o resultado e fazer alguns ajustes.

Só assim é possível obter um texto perfeito e sem erros.

Transcrição de áudio e vídeo em texto em intercâmbios freelance

Quanto à tradução manual, você pode solicitar uma transcrição do discurso em texto na bolsa. Na bolsa freelance, alguns usuários (clientes) fazem um pedido, escolhem um empreiteiro e pagam pela obra. E outros usuários (freelancers) recebem pedidos, realizam trabalho necessário e ser pago por isso.

Como você pode fazer um pedido na bolsa freelance? Primeiro você precisa se cadastrar no site da exchange, ou seja, se cadastrar lá. Então será possível fazer um pedido - uma tarefa de transcrição.

Para o seu pedido na bolsa, você pode escolher um intérprete - pessoa que fará a transcrição. Para isso, é necessário que pelo menos um dos potenciais intérpretes concorde em assumir o trabalho proposto. Se ninguém atendeu o pedido, é necessário alterar seus parâmetros, por exemplo, aumentar o preço da obra.


O pagamento do trabalho realizado não é feito diretamente ao freelancer, mas sim por meio de troca freelancer. Ao fazer um pedido, geralmente você precisa recarregar sua conta com o valor necessário para concluir a transcrição. Além disso, pode haver uma comissão de troca pela mediação na forma de um valor fixo ou de uma percentagem fixa do valor do pedido. O pagamento da obra é efectuado após a sua verificação e aprovação pelo cliente. Na maioria das vezes, o valor é enviado ao empreiteiro simultaneamente à aprovação de sua obra pelo cliente.

Antes de fazer um pedido, vale a pena ler as regras da bolsa quanto à verificação da tarefa concluída, ao pagamento dela, bem como ao depósito e retirada de dinheiro na bolsa. A retirada do dinheiro é necessária para que o dinheiro restante, planejado para pagar outros pedidos, possa retornar ao cliente, e não fique para sempre na bolsa.

Abaixo, ofereço dois intercâmbios freelance bem conhecidos onde você pode fazer um pedido de tradução de fala para texto com a ajuda de um freelancer: weblancer.net e freelance.ru.

Dois intercâmbios freelance

Transcrição de áudio e vídeo em texto (transcrição) na troca freelance weblancer.net:

Arroz. 5. (clique para ampliar)

Intercâmbio freelancer weblancer.net

Outra troca onde você pode solicitar uma transcrição de gravações de áudio/vídeo - freelance.ru

Intercâmbio freelance freelance.ru

Desde o momento em que o computador foi inventado, a humanidade sonha em comunicar-se com ele na linguagem habitual - com a ajuda da voz. Um habitante comum do planeta Terra não quer saber de teclados e mouses. Ele precisa do computador para entendê-lo perfeitamente – e literalmente. Simples, rápido e compreensível! Enquanto os escritores de ficção científica inventam histórias sobre como os computadores daqui a cem ou dois anos começarão a ir às lojas sob encomenda, massageando nossos calcanhares e coçando nossas costas, os desenvolvedores Programas avançando lenta mas seguramente em direção à concretização desta ideia. E se por enquanto você não precisa coçar a omoplata, já é bem possível controlar vários aplicativos com a voz e até mesmo ditar arquivos de texto inteiros para o computador. Ainda não existem muitos programas para familiarização com um PC, mas os que existem estão se desenvolvendo rapidamente. Há um ano, os utilitários descritos no artigo - suas versões anteriores - eram uma visão muito triste. Hoje eles cresceram, amadureceram - não são mais cachorrinhos molhados e famintos caçados, mas filhotes de lobo alegres, que em um ou dois anos se transformarão em lobos controlados por voz de computador.

Dragão Falando Naturalmente 8
Uma ferramenta única nesse tipo. Titanic e zepelim de programas de "fala" em uma garrafa. Uma mistura incrível de reconhecimento de voz, controle de som de computador e um professor de pronúncia correta palavras inglesas. Mas vamos conversar sobre tudo em ordem.
O utilitário está em inglês e, portanto, pode funcionar exclusivamente com formas de palavras em inglês. Teoricamente, pode-se ensinar Dragão Falando Naturalmente grande e poderoso, mas, infelizmente, isso só pode ser usado para controle de voz do PC. O utilitário não será capaz de atuar como um estenógrafo russo - não importa quais truques você use. Mas o inglês falado agarra cada vez. Segundo os desenvolvedores, o programa reconhece até 95% das palavras. O número, claro, está superestimado, mas não tanto quanto o dos concorrentes. Depois de treinar o DNS no timbre da sua voz (você terá que gastar cerca de uma hora ditando várias palavras para isso), você o ensinará a entender até mesmo frases muito complexas e esmagadoras, incluindo o tapete inglês. Aqui está apenas um “mas”... Qualquer frase deve ser pronunciada com muita clareza. Como você não fez cursos de articulação? Então você tem que praticar sozinho. Tenha certeza - depois de alguns dias de batalhas linguísticas com o DNS, você surpreenderá qualquer inglês com a pureza da pronúncia. Você acha que estamos brincando? De jeito nenhum! O DNS é uma ferramenta ideal para praticar a pronúncia correta - um pouco desafinado em algum lugar, ele imediatamente avisa.
Agora, para o controle de voz. Aqui o DNS também não nos decepcionou. Conseguimos instalar o programa em quase todos os utilitários disponíveis em nossos computadores editoriais. Primeiro, ele agarrou a garganta de todos os componentes do pacote com força. Escritório MS. Excel e Word abertos após um comando de voz, assim como todos os outros aplicativos. Então chegou a hora dos programas de rede. O morcego!, ICQ, vários navegadores da Internet sucumbiram ao DNS pela primeira vez. Concluindo, testamos o utilitário trabalhando com vários utilitários da mesma classe - lidamos com isso e nem piscamos. É engraçado quando um programa de controle de voz inicia outro com o mesmo utilitário. Aliás, preste atenção: não custa nada configurar o DNS para lançar seus jogos favoritos. Diga “Warcraft” no microfone e ele será carregado imediatamente. Mais importante ainda, não se esqueça antes de comandar, ensine o programa a associar uma palavra específica a um utilitário específico (configurado no menu Centro de Precisão).
Além do acima exposto, o programa possui vários pequenos itens integrados, aparentemente opcionais, mas que expandem significativamente as capacidades do utilitário. Como você, por exemplo, reconhece o texto de um arquivo wav ou mp3? Você carrega uma música em inglês na qual não consegue entender algumas palavras e o DNS as fornece em formato de texto.
Você pode elogiar o DNS quase indefinidamente. Este é o único programa da análise que lidou com quase todos os textos e demonstrou ainda mais recursos do que esperávamos dele. “Masthev” e “especialização” inequívocos.
Prós: Simples, conveniente, com muitos recursos.
Desvantagens: Para registrar uma versão de teste de 30 dias, eles pedem quase $200 o que, para dizer o mínimo, não é modesto. O utilitário não entende russo - mas esse é o problema de quase todos os programas semelhantes.
Resumo: Talvez, o melhor programa para reconhecimento de fala e controle de voz por computador. Se não Preço Alto, isso seria simplesmente perfeito.
Realize a voz 4.1
Apesar da posição dos criadores Realize a voz como uma espécie de combinação múltipla que lida com igual facilidade com reconhecimento de voz, gerenciamento de aplicativos e síntese recitativa, testes detalhados mostraram que os criadores, para dizer o mínimo, exageram as capacidades do produto. Como reconhecedor de fala, a utilidade revelou-se muito fraca. A porcentagem de definição exata de palavras com posterior tradução para a forma de texto é muito baixa. Mesmo as longas execuções do módulo de treinamento não levaram a nada. O programa se recusa a compreender muitas palavras e expressões. E o RV teria sido imediatamente linchado e crucificado se não fosse por... oportunidades únicas no campo do controle de voz de diversas aplicações. Aqui, RV se recompôs e deu tanta vantagem a outras concessionárias que nem aplaudimos de pé. O programa é facilmente configurado para executar qualquer utilitário de terceiros (pelo menos Word, pelo menos ICQ, pelo menos algum driver) e até suporta macros. Com a ajuda deles, você pode fazer coisas assustadoras de pensar. Para um comando de voz, que, aliás, pode ser feito em russo, é permitido travar, por exemplo, uma função de vários estágios: abrir um cliente de e-mail, carregar um filtro de spam, ir para o servidor, baixar todas as cartas com títulos em russo, todos com títulos em inglês e títulos com mais de 20 caracteres - excluir. Isto é apenas um exemplo. Em geral, a complexidade das macros não é limitada por nada. O principal é ter tempo para fantasiar. A única coisa em que o Realize Voice não pôde ser treinado foi o controle de voz interno jogos de computador. Mas em aplicações normais – não há problema.
Como bônus, o RV oferece, para dizer o mínimo, função integral organização de voz do espaço de trabalho. Isso é científico, e se for em russo, então com sua voz você pode não apenas iniciar aplicativos e gerenciar seu trabalho, mas também carregar outros utilitários a qualquer momento, alternar entre janelas, fechar programas ... Em outras palavras, Bobik no comando “Aport!” não só foge por um osso, mas no caminho também vai procurar leite na loja, jogar o lixo fora, pagar a conta do telefone e comprar flores para sua namorada.
Prós: Recursos exclusivos de controle de voz, suporte para macros complexas, facilidade de uso.
Desvantagens: Módulo de reconhecimento de fala fraco. Preço $ 50.
Resumo: O programa foi criado simplesmente para controle de voz de um computador. É uma pena que os desenvolvedores tenham sacrificado outros recursos importantes do utilitário.
Ditado 2004v. 4.4
Utilidade média. O mesmo caso em que parece não haver nada do que reclamar, mas não parece muito bom no contexto dos concorrentes. Ditado 2004 lida bem com o reconhecimento de fala, embora não possa competir, por exemplo, com o Dragon Naturally Speaking: este último atinge o lugar mais desprotegido no Dictation 2004 - a porcentagem de adivinhação correta de palavras. Com isso, o programa não dá certo, o treinamento complementar cura a doença, mas não completamente. Você pode dar cinco ao utilitário para gerenciar aplicativos, mas isso seria uma nota de diligência, e não de domínio do assunto, como acontece Realize a voz. Os desenvolvedores enfatizam que o programa está intimamente integrado ao Word, mas não percebemos isso - não é diferente de trabalhar com outros utilitários. Finalmente, o Dictation 2004 pode ser arranhado atrás das orelhas por ser capaz de reconhecer muito bem a fala de arquivos wav, mas o Dragon Naturally Speaking faz isso muito melhor. A única função exclusiva do Ditado é a capacidade de reconhecer fala diretamente de várias fontes externas (ditafone, reprodutor, central de música - dificilmente alguém precisará disso). Acontece que o Dictation 2004 é bom para todos, mas é uma pena dar “cinquenta copeques verdes” (US$ 50) por ele.
Prós: Capaz de reconhecer fala diretamente de vários dispositivos externos.
Desvantagens: Pontuações médias em todas as funções.
Resumo: Barato, mas não muito alegre. Um utilitário médio, um mouse cinza no mundo dos programas de reconhecimento de fala.
Gorynych PROF 3.0
"Gorynych" - desenvolvimento interno. Já pela capacidade de trabalhar com um programa excelente e poderoso, você pode colocá-lo em um pedestal. Mas sejamos objetivos. O utilitário é construído sobre dois módulos responsáveis ​​​​por reconhecer a fala ditada no microfone e por comandos para diversas aplicações. Testes rígidos mostraram que, infelizmente, Gorynych tem problemas com a língua russa - se fizermos analogias com programas estrangeiros e seu nível de proficiência em inglês, então o produto nacional funciona em algum lugar no nível Ditado 2004. Ou seja, está tudo ótimo, mas tropeços acontecem. Ponto importante- um bloco de autoaprendizagem está integrado ao utilitário: quanto mais você presta atenção em Gorynych, melhor ele o entende e fica menos indignado com sua pronúncia russa incorreta. Testamos a natureza do utilitário por apenas algumas horas e, durante esse tempo, como nos pareceu, o programa realmente se tornou mais compreensível. Talvez com uma comunicação mais longa os resultados sejam ainda melhores.
O teste das habilidades de “equipe” de “Gorynych” ocorreu sem problemas. O utilitário não pretende ser um sistema megaintegrado, apenas as funções básicas de gerenciamento de programas são implementadas - você não precisa escrever nenhuma macro complexa, mas o que você tem são cinco sólidos. Lançamentos, desligamentos de programas, chamadas para janelas adicionais - a fabulosa serpente aguentou tudo e se absteve de demonstrar nervosismo.
Na natureza, existem duas versões do insidioso Gorynych - leve (Light), vendido em uma embalagem de joias a um preço de cerca de US$ 5 (ideal para uso doméstico) e uma versão completa em caixa por US$ 49 (um exagero para funções domésticas). ).
Prós: Interface ergonômica em russo, função de autoaprendizagem, presença de uma versão leve e barata.
Desvantagens: Indicadores médios para todas as funções, mas apenas no contexto dos concorrentes estrangeiros, não existem análogos entre as concessionárias nacionais.
Resumo: Excelente programa de língua russa. Por falta de digno análogos domésticos- quase a única opção para quem não tem nenhuma simpatia pelo inglês.
O que esperar? Por que ter medo?
Apesar da relativa semelhança dos programas de “voz”, eles utilizam algoritmos diferentes para reconhecimento de fala, sua decodificação e exibição como texto. Normalmente, vários núcleos algorítmicos são integrados em um utilitário, que são responsáveis ​​​​por várias funções dos utilitários. Dependendo de qual dos componentes deste programa é programado com mais cuidado, o utilitário lida melhor com determinadas funções. Na maioria das vezes, os aplicativos de “voz” podem funcionar em duas áreas principais.
1) Reconhecimento de fala em russo ou inglês e conversão de voz em arquivo de texto. A função mais difícil de implementar - claro, para desenvolvedores. Infelizmente, ainda não existem programas que tenham essa habilidade com perfeição.
2) Controle de voz do computador. Algumas ações simples - ou não muito simples, mas em vários estágios - estão “associadas” a algum tipo de comando de voz. Depois disso, basta dizer a palavra ou frase desejada e o computador realizará imediatamente a operação correspondente.
Observe que mesmo as versões demo dos programas descritos no artigo ocupam pelo menos 50 MB. Isto se deve ao grande volume vocabulário” - para compreender a palavra falada, o utilitário já deve “conhecê-la”. Não espere que programas de “fala” rodem rapidamente em máquinas fracas. Para trabalhar confortavelmente com a maioria desses utilitários, você precisa de um computador totalmente moderno e boa qualidade microfone.

* * *
Em teoria você é experiente, cabe à prática. Abasteça-se de utilitários, instale, domine. O mercado de software de reconhecimento de voz é jovem, por isso os utilitários se comportam como crianças. Eles precisam ser cuidados, trocar as fraldas na hora certa, garantir que aprendam novas palavras a tempo (todos os programas possuem um módulo para aprender novas expressões), cuidar e cuidar. O que surgirá da distribuição baixada da Web ou comprada depende apenas de você. Se você não dedicar tempo suficiente para montar e treinar o programa, você crescerá como um menino obstinado e hooligan. Passe algumas horas estudando documentação, escalando menus, trabalhando com um microfone - cresça como um jovem diligente que o seguirá por toda parte e dirá: “ O que você quer, papai?! Mingau? Pepinos em conserva?”.

A fim de reconhecer fala e traduzi-lo de áudio ou vídeo para texto, existem programas e extensões (plugins) para navegadores. Mas por que tudo isso, se existe serviço on-lineé? Os programas devem ser instalados em um computador; além disso, a maioria dos programas de reconhecimento de fala está longe de ser gratuita.


Um grande número de plug-ins instalados no navegador retarda muito o seu trabalho e a velocidade de navegação na Internet. E os serviços sobre os quais hoje será discutido, totalmente gratuito e não requer instalação - entre, use e saia!

Neste artigo, veremos dois serviços on-line de tradução de fala para texto. Ambos funcionam com um princípio semelhante: você inicia a gravação (permite que o navegador acesse o microfone enquanto usa o serviço), fala no microfone (dita) e na saída você obtém um texto que pode ser copiado para qualquer documento no seu computador.

Speechpad.ru

Serviço de reconhecimento de fala online em russo. Tem instruções detalhadas para trabalhar em russo.

  • suporte para 7 idiomas (russo, ucraniano, inglês, alemão, francês, espanhol, italiano)
  • baixar para transcrever um arquivo de áudio ou vídeo (vídeos do YouTube são suportados)
  • tradução simultânea para outro idioma
  • suporte para entrada de voz de pontuação e alimentação de linha
  • barra de botões (alteração de maiúsculas e minúsculas, nova linha, aspas, colchetes, etc.)
  • disponibilidade de conta pessoal com histórico de registros (opção disponível após cadastro)
  • a presença de um plug-in para Google Chrome para inserção de texto por voz no campo de texto dos sites (chamado "Entrada de texto por voz - Speechpad.ru")

Ditado.io

O segundo serviço online de tradução de fala para texto. Um serviço estrangeiro que, entretanto, funciona muito bem com a língua russa, o que é extremamente surpreendente. A qualidade do reconhecimento de fala não é inferior ao Speechpad, mas falaremos mais sobre isso mais tarde.

A principal funcionalidade do serviço:

  • suporte para 30 idiomas, entre os quais há até húngaro, turco, árabe, chinês, malaio, etc.
  • reconhecimento automático da pronúncia de sinais de pontuação, quebras de linha, etc.
  • a capacidade de integração com as páginas de qualquer site
  • a presença de um plugin para Google Chrome (chamado "VoiceRecognition")

No reconhecimento de fala, o mais importante é precisamente qualidade da tradução fala em texto. Bons "pãezinhos" e oportunidades nada mais são do que uma boa vantagem. Então, do que ambos os serviços podem se orgulhar nesse aspecto?

Teste comparativo de serviços

Para o teste, escolheremos dois fragmentos de difícil reconhecimento que contêm palavras e frases raramente utilizadas na fala atual. Para começar, lemos um fragmento do poema "Crianças Camponesas" de N. Nekrasov.

Abaixo está resultado da tradução de fala em texto cada serviço (os erros estão marcados em vermelho):

Como você pode ver, ambos os serviços lidaram com o reconhecimento de fala com erros quase idênticos. O resultado é muito bom!

Agora, para teste, vamos pegar um trecho da carta do soldado do Exército Vermelho Sukhov (filme “Sol Branco do Deserto”):

Excelente resultado!

Como você pode ver, ambos os serviços lidam com o reconhecimento de fala de maneira bastante adequada - escolha qualquer um! Parece que eles até usam o mesmo motor - tiveram erros muito semelhantes de acordo com os resultados dos testes). Mas se você precisar de recursos adicionais, como enviar um arquivo de áudio/vídeo e traduzi-lo em texto (transcrição) ou tradução simultânea de texto sonoro para outro idioma, o Speechpad será a melhor escolha!


A propósito, foi assim que ele realizou a tradução simultânea de um fragmento do poema de Nekrasov para o inglês:

Pois bem, este é um breve vídeo de instrução para trabalhar com o Speechpad, gravado pelo próprio autor do projeto:

Amigos, gostaram deste serviço? Você conhece análogos melhores? Compartilhe suas impressões nos comentários.

Os fonogramas gravados com gravadores digitais de voz "Gnom R" e "Gnom 2M" atendem aos requisitos para fonogramas recebidos para exames fonoscópicos e são adequados para identificar uma pessoa pela voz e fala ...

Primeiro Vice-Chefe

O ditafone "Gnome 2M" tem sido usado repetidamente para gravar conferências e seminários em ambientes acústicos difíceis, as trilhas sonoras gravadas são de alta qualidade. A função de redução de ruído integrada permite melhorar a qualidade da reprodução de fonogramas ...

Engenheiro líder IPK BNTU

Instituto de Estudos Avançados e Reciclagem de Pessoal do BNTU

Durante o período de operação, o "Gnome R" se estabeleceu com lado positivo. Gravação de alta qualidade com dimensões mínimas, longa duração de gravação de som, rápida transferência de informações acumuladas da memória interna do gravador para o PC...

Oficial superior da 3ª divisão da sétima diretoria

Estado-Maior General das Forças Armadas da República da Bielorrússia

Os fonogramas gravados no sistema "Forget-Me-Not II" atendem aos requisitos dos complexos digitais multicanais para gravação de mensagens de voz por meio de canais de comunicação telefônica e são adequados para identificar uma pessoa por voz e fala...

Chefe do centro

Centro Estadual de Perícia Forense

Um número ilimitado de assinantes notificados, um grande número de tarefas processadas simultaneamente farão do Rupor um auxiliar indispensável no trabalho dos funcionários do departamento de crédito da agência nº 524 do Belarusbank ASB...

Diretor Adjunto - Chefe do Centro de Negócios de Varejo

Filial nº 524 JSC "ASB Belarusbank"

O sistema de notificação automática “Rupor” funcionava em linhas telefônicas analógicas e foi testado para notificar o pessoal. O sistema atendeu 100 assinantes, funcionou de forma estável e não exigiu manutenção constante...

Comissário militar interino

Comissariado Militar de Minsk

O sistema de gravação Forget-Me-Not II garante a recepção de mensagens de voz dos moradores, sua gravação de alta qualidade em um computador, a possibilidade de ouvir mensagens gravadas e inserir informações em um banco de dados de texto. O sistema de notificação Rupor notifica automaticamente os devedores...

Chefe do departamento ACS

UE "ZhREO do distrito soviético de Minsk"

O sistema Rupor permite a notificação de um grande número de assinantes em um curto espaço de tempo de acordo com os parâmetros estabelecidos com a disponibilização de um relatório sobre a notificação realizada, funciona de forma confiável, atende integralmente aos requisitos para tal ...

Diretor do Departamento de Negócios de Varejo

O sistema móvel de gravação e documentação de fala “Protocolo” inclui um gravador de voz digital “Gnome 2M” e um transcritor de computador “Caesar”. O ditafone "Gnome 2M" permite obter gravações de reuniões e reuniões de alta qualidade, e o transcritor "César" aumenta significativamente a velocidade de tradução de informações de áudio em um documento de texto...

Especialista Líder

Instituto de Estado e Direito da Academia de Ciências da República da Bielorrússia

Identificação por voz

EM mundo moderno há um interesse crescente nas tecnologias biométricas e nos sistemas biométricos de identificação pessoal, e esse interesse é bastante compreensível.

A identificação biométrica baseia-se no princípio de reconhecer e comparar as características únicas do corpo humano. As principais fontes das características biométricas de uma pessoa são as impressões digitais, a íris e a retina, a voz, o rosto, a assinatura, a marcha, etc. Esses identificadores biométricos pertencem a uma pessoa e são parte integrante dela. Eles não podem ser esquecidos, abandonados, perdidos em algum lugar.

Pode ser usado para identificação biométrica várias características e características humanas. Este artigo dá breve revisão como funcionam as tecnologias biométricas no exemplo de um sistema de reconhecimento de voz.

O valor da tecnologia de voz para a biometria foi comprovado repetidamente. No entanto, apenas alta qualidade implementação sistemas automáticos o reconhecimento do orador pode realmente colocar essas tecnologias em prática. Já existem sistemas semelhantes. Eles são usados ​​em sistemas de segurança, tecnologia bancária, comércio eletrônico e aplicação da lei.

A utilização de sistemas de reconhecimento de alto-falantes é a forma mais natural e econômica de resolver os problemas de acesso não autorizado a um computador ou sistemas de transmissão de informação, bem como problemas de controle de acesso multinível a redes ou recursos de informação.

Os sistemas de reconhecimento de locutores podem resolver dois problemas: identificar uma pessoa em uma determinada lista limitada de pessoas (identificação da personalidade) ou confirmar a identidade do locutor (verificação de identidade). A identificação e verificação de uma pessoa por voz são as direções de desenvolvimento da tecnologia de processamento de fala.

Arroz. 1 – Reconhecimento de alto-falante

A fala é um sinal resultante de transformações que ocorrem em diversos níveis: semântico, linguístico, articulatório e acústico. Como se sabe, o trato vocal serve como fonte de sinal de fala, que excita ondas sonoras em um meio de ar elástico. O trato vocal geralmente se refere ao órgão de produção da fala, localizado acima das cordas vocais. Como pode ser visto na Figura 2, o trato vocal consiste em laringofaringe, orofaringe, cavidade oral, nasofaringe e cavidade nasal.


Arroz. 2 – A estrutura do trato vocal humano

A voz de uma pessoa ocorre quando o ar passa dos pulmões, através da traquéia, para a laringe, passando pelas cordas vocais e depois para a faringe, boca e cavidade nasal. Quando uma onda sonora passa pelo trato vocal, seu espectro de frequência muda devido às vibrações do trato vocal. As vibrações do trato vocal são chamadas formantes. Os sistemas de verificação de locutor geralmente reconhecem as características distintivas do sinal de fala, que refletem a característica individual da atividade muscular do trato vocal do indivíduo.

Consideremos o sistema de verificação de alto-falantes com mais detalhes. A verificação da identidade por voz é a determinação se o falante é quem parece ser. Um usuário previamente cadastrado no sistema pronuncia seu identificador, que é um número de registro, senha ou frase. Com o reconhecimento baseado em texto, o sistema conhece a senha e “pede” ao usuário que a diga. A senha é exibida na tela e a pessoa fala no microfone. Com o reconhecimento independente de texto, a senha falada pelo usuário não corresponde à palavra de referência, ou seja, como senha, o usuário pode pronunciar uma palavra ou frase arbitrária. O sistema de verificação recebe o sinal de voz, processa-o e decide se aceita ou rejeita o identificador apresentado pelo utilizador. O sistema pode informar o usuário sobre o grau insuficiente de correspondência de sua voz com o padrão existente e solicitar que ele pronuncie informações adicionais para a tomada de decisão final.


Arroz. 3 – Interação humana com o sistema

O esquema de interação humana com o sistema de verificação de identidade por voz é mostrado na Figura 3. O usuário pronuncia no microfone o número que lhe é oferecido pelo sistema para que o sistema verifique se sua voz corresponde ao padrão armazenado no banco de dados do sistema. Via de regra, existe uma compensação entre a precisão do reconhecimento de voz e o tamanho da amostra de fala, ou seja, quanto mais longa for a amostra de fala, maior será a precisão do reconhecimento. Além da voz, eco e ruídos estranhos podem entrar no microfone.

Existem vários fatores que podem contribuir para a ocorrência de erros de verificação e identificação, por exemplo:

  • pronúncia ou leitura incorreta de uma palavra ou frase de senha;
  • estado emocional do locutor (estresse, proferir uma senha sob coação, etc.);
  • ambiente acústico difícil (ruído, interferência, ondas de rádio, etc.);
  • diferentes canais de comunicação (uso de diferentes microfones durante o registro e verificação do locutor);
  • resfriados;
  • mudanças naturais na voz.

Alguns deles podem ser eliminados, por exemplo, usando microfones melhores.

O processo de verificação da identidade por voz consiste em 5 etapas: recepção de um sinal de fala, parametrização ou características distintivas da voz, comparação da amostra de voz recebida com um padrão previamente estabelecido, tomada de decisão de passa/falha, treinamento ou atualização do modelo de referência. O esquema de verificação é mostrado na Figura 4.


Arroz. 4 - Esquema de verificação

Durante o cadastro, um novo usuário insere seu ID e, a seguir, diz uma palavra-chave ou frase diversas vezes, criando assim modelos. O número de repetições da senha pode variar para cada usuário ou pode ser constante para todos.

Para que o computador processe o sinal de fala, a onda sonora é convertida em um sinal analógico e depois em um sinal digital.

Na fase de extração dos recursos de voz, o sinal de fala é dividido em quadros sonoros separados, que são posteriormente convertidos em um modelo digital. Esses modelos são chamados de “impressões de voz”. A recém-recebida “impressão de voz” é comparada com o padrão previamente estabelecido. Para o reconhecimento da identidade do locutor, as características distintivas da voz mais importantes são as mais importantes, o que permitiria ao sistema reconhecer com precisão a voz de cada usuário individual.

Por fim, o sistema toma a decisão de admitir ou negar o acesso do usuário, dependendo da correspondência ou incompatibilidade de sua voz com o padrão estabelecido. Se o sistema comparar incorretamente a voz apresentada a ele com o padrão, ocorrerá um erro de “falsa tolerância” (FA). Se o sistema não reconheceu o recurso biométrico que corresponde ao padrão nele disponível, então se fala em erro de “falsa rejeição” (FR). Um erro de aceitação falsa cria uma falha de segurança, e um erro de rejeição falsa leva a uma usabilidade reduzida do sistema, que às vezes não reconhece uma pessoa na primeira vez. Uma tentativa de reduzir a probabilidade de ocorrência de um erro leva à ocorrência mais frequente de outro, portanto, dependendo dos requisitos do sistema, escolhe-se um determinado compromisso, ou seja, limite de decisão é definido.

Conclusão

Métodos de identificação por voz também são usados ​​na prática. A tecnologia de identificação pela voz da empresa permite organizar o acesso regulado dos usuários por meio de uma determinada senha aos recursos da empresa, serviços telefônicos e WEB. O uso da tecnologia pode aumentar significativamente a segurança dos sistemas e, ao mesmo tempo, simplificar o processo de identificação do usuário. A tecnologia Voice Key proporcionará alta confiabilidade e estabilidade do sistema, além de ajudar a melhorar a qualidade do atendimento ao cliente.

Todos os materiais postados neste site são permitidos para publicação e impressão em outros recursos e publicações impressas somente com a permissão por escrito da Speech Technologies LLC.

Postagens semelhantes