Não existe um aplicativo de transcrição perfeito, mas o Otter está chegando lá

O aplicativo de transcrição Otter está lançando um serviço premium na medida em que pretende se tornar o Dropbox de gravação de voz.

Não existe um aplicativo de transcrição perfeito, mas o Otter está chegando lá

Como jornalista, estou sempre procurando a melhor maneira de gravar e revisar minhas entrevistas sem gastar horas com a transcrição. Ultimamente, tenho me inclinado a usar o Otter.

O aplicativo gratuito, que foi lançado em ios , Android , e a teia em fevereiro, grava áudio e converte fala em texto em tempo real, usando algoritmos de reconhecimento de voz. Ele também sincroniza o áudio com o texto durante a reprodução, para que você possa tocar em qualquer palavra para ouvir exatamente o que estava sendo dito no momento. Embora os algoritmos de Otter não produzam transcrições perfeitas, são precisos o suficiente para ajudá-lo a escolher quais passagens merecem mais tempo para limpeza manual.

[Imagem: cortesia da AISense]



Na quarta-feira, a AISense, startup por trás do Otter, lançou uma versão premium do serviço. O uso gratuito agora é limitado a 10 horas de gravação por mês; os usuários podem pagar $ 10 por mês (ou $ 80 por ano, ou $ 3 por mês para estudantes) para aumentar o limite de gravação para 100 horas e adicionar algumas opções de exportação avançadas, incluindo exportação de áudio. A Otter também está lançando uma maneira de gravar e transcrever chamadas telefônicas em dispositivos Android - tanto para usuários gratuitos quanto pagos - e adicionar uma ferramenta para incorporar imagens na transcrição.

Ainda estou dividido entre confiar no Otter e continuar com meu método antigo de fazer anotações manuscritas junto com áudio sincronizado (atualmente com um iPad, Apple Pencil e Notability). Mas, com algumas melhorias, o Otter poderia oferecer o melhor dos dois mundos, e o preço da assinatura valeria a pena o tempo economizado.

preço das ações da lucid motors hoje

Como funciona a lontra

Quando você começa a usar o Otter, é solicitado a gravar uma amostra de sua voz, o que deve ajudar o app a distinguir entre você e outros alto-falantes. Você também pode importar contatos para que Otter possa compartilhar transcrições com outros colaboradores.

Embora alguns serviços de voz para texto exijam que você envie áudio pré-gravado, o aplicativo de Otter faz a gravação e começa a transcrever imediatamente, de modo que as palavras aparecem na tela conforme são faladas. (O texto fica temporariamente indisponível após o término da gravação, pois o Otter indexa a transcrição, processa palavras-chave e detalhes do alto-falante e compacta o áudio.) O aplicativo pode até mesmo distinguir entre os alto-falantes; se você marcar uma linha de diálogo com o nome de uma pessoa e clicar em um botão de revanche, Otter fará um bom trabalho ao aplicá-lo ao resto da transcrição.

[Imagem: cortesia da AISense]

Como você pode esperar, as transcrições baseadas em IA de Otter estão longe de ser perfeitas. Interpretações erradas são comuns e o aplicativo tem uma tendência estranha de dividir um trecho de diálogo em várias linhas, às vezes até no meio de uma frase. O Otter permite que você mesmo limpe o diálogo e pode reduzir a velocidade do áudio para ajudar nisso, mas minha sensação é que se você pretende transcrever uma conversa inteira com precisão perfeita, o Otter não será muito melhor do que o manual software de transcrição. O aplicativo é mais usado para capturar o básico de uma conversa, para que você possa escolher as melhores partes para revisar e limpar.

O que eu mais gostaria de ver do Otter, então, é a melhor maneira de marcar essas conversas em tempo real. Durante uma entrevista, frequentemente escrevo perguntas de acompanhamento, resumindo o tópico atual ou anotando respostas importantes. Embora o Otter ofereça uma barra de pesquisa e tente marcar algumas palavras-chave automaticamente, poder adicionar minhas próprias anotações tornaria a classificação na parede de texto ainda mais fácil.

Por enquanto, estou considerando uma abordagem híbrida. Como o Otter e o Notability podem gravar áudio ao mesmo tempo no meu iPad, pedi ao Otter para produzir uma transcrição escrita enquanto faço anotações em uma pequena janela do Notability na parte superior. (O Otter atualmente não oferece suporte a multitarefa Split View, o que permitiria que os dois aplicativos rodassem lado a lado.) Seria melhor, porém, ter todas as minhas notas e áudio em um só lugar.

O Dropbox da gravação de voz

AISense é uma startup apoiada por capital de risco - levantou uma rodada de US $ 10 milhões da Série A em novembro - então estou um tanto preocupado com sua viabilidade a longo prazo como um negócio voltado para o consumidor. Além do aplicativo independente, a empresa tem um acordo de licenciamento com a empresa de videoconferência Zoom para transcrever chamadas de vídeo e está buscando alguns outros negócios nas áreas empresarial e educacional. É razoável imaginar se Otter poderia eventualmente mudar para uso corporativo, vender-se para uma empresa corporativa ou se concentrar inteiramente no licenciamento da tecnologia.

[Imagem: cortesia da AISense]

Mas Sam Liang, fundador e CEO da AISense, e Seamus McAteer, gerente geral de receita e parcerias da empresa, afirmam que o lado do consumidor é uma parte importante do negócio. Eles traçam analogias frequentes entre sua startup - uma operação de 15 pessoas em Los Altos, Califórnia - com os unicórnios Dropbox e Slack, que ganham quase todo o seu dinheiro com o uso empresarial, mas reúnem dados e feedback valiosos ao disponibilizar seus produtos gratuitamente para os indivíduos. Eles também não mostram anúncios para seus usuários gratuitos.

Da mesma forma, o AISense espera que a grande maioria dos usuários do Otter não pague nada pelo serviço.

as pessoas trabalham no dia mlk

Acreditamos que estamos criando um novo aplicativo de definição de categoria, como o Dropbox, como o Slack, diz McAteer. E nós realmente estamos focados, como eles, em divulgar isso da forma mais ampla possível.

McAteer e Liang também afirmam que, como o Slack e o Dropbox, o AISense não exibe anúncios e apenas usa dados de transcrição anônimos para melhorar seu serviço. Esse tipo de segurança é fundamental para qualquer aplicativo, mas especialmente um como este, onde as gravações que você envia podem conter informações confidenciais ou dados pessoais confidenciais. Em março, após perguntas de ZDNet repórter Zack Whittaker, Otter atualizou sua política de privacidade para remover qualquer menção ao uso de dados de clientes para publicidade.

A empresa ainda pode acessar as gravações do usuário, no entanto, e se reserva o direito de compartilhar os dados do usuário para responder a solicitações legais e ordens judiciais. Os próprios usuários podem excluir esses dados, mas não se a polícia já tiver pedido à empresa para preservar seus registros. Os jornalistas que estão preocupados com os pedidos de registros de agências de aplicação da lei excessivamente zelosos provavelmente deveriam se limitar a escrever com caneta, papel e gravações offline.

Nós criptografamos tudo e garantimos que tudo esteja seguro e confidencial, e que o usuário seja proprietário de seus próprios dados, diz Liang. Se você excluí-lo, nós definitivamente o apagamos.

Para garantir um futuro para seus aplicativos de consumidor, o AISense trabalhará em sua IA de fala para texto principal e recursos adicionais de transcrição. Liang diz que ser capaz de anotar as transcrições está no roteiro (mas somente depois que a conversa terminar), e a empresa está procurando adicionar mais análises orientadas à IA às suas transcrições. Por exemplo, o aplicativo pode informar aos usuários sobre o que é uma conversa ou extrair itens de ação. Ainda este ano, o Otter também adicionará transcrições de chamadas para usuários do iPhone, embora o iOS restrições na gravação de chamadas diretas provavelmente exigirá uma solução alternativa, como mesclar a chamada com um terceiro que cuida da gravação.

Esses tipos de recursos podem dar ao Otter uma vantagem sobre gigantes da tecnologia como Google, Amazon e Microsoft. Enquanto Otter já prejudica algumas outras startups de autotranscrição, como Trint (US $ 15 por hora ou US $ 40 por mês) e Descript (US $ 10 por mês para os primeiros a adotar, mas com apenas 30 minutos de gravação gratuita), grandes empresas de tecnologia poderiam reduzir os preços até além disso, se eles fizeram da transcrição de voz de conversação uma prioridade. Atualmente, o Google oferece serviços de voz para texto para desenvolvedores , mas a US $ 0,024 por minuto, ou US $ 1,44 por hora após os primeiros 60 minutos, o custo rapidamente se torna muito maior do que uma assinatura do Otter.

Mas, novamente, Liang e McAteer estão ansiosos para se comparar ao Dropbox e ao Slack, que estão enfrentando a Big Tech.

Não estamos parados, diz McAteer. Esperamos que eles tenham uma oferta, assim como têm uma oferta hoje para armazenamento em nuvem, assim como têm uma oferta hoje para colaboração. Isso não impediu o Dropbox e o Slack de serem amplamente adotados como um jogo puro.