Transcrição em português brasileiro: precisão técnica em pt-BR

Quem testou várias ferramentas de transcrição automática nos últimos dois anos percebeu rápido: a precisão em inglês está em outro patamar do que em português brasileiro. A diferença não é capricho. É consequência de como esses modelos foram treinados, do volume disponível de áudio em cada idioma e da estrutura linguística do próprio português.

Esse post explica o que importa quando você avalia uma ferramenta para pt-BR, sem marketing e com critério técnico.

Por que pt-BR é mais difícil que inglês

Três fatores que poucos comentam:

1. Volume de áudio de treino disponível

Modelos de transcrição como Whisper, da OpenAI, foram treinados em centenas de milhares de horas de áudio. A maioria está em inglês. Português brasileiro entra com volume bem menor.

Resultado: o modelo aprende padrões em inglês com muito mais granularidade. Em pt-BR, ele captura o "esqueleto" da língua mas erra em detalhe (acento, regionalismo, jargão técnico).

2. Fonemas que não existem em inglês

Português brasileiro tem:

Vogais nasais ("ã", "õ", "em", "im", "um")
Distinção entre /e/ aberto e fechado ("avô" vs "avó")
Sons que variam por região ("R" do Rio é diferente do "R" de São Paulo é diferente do "R" do Sul)

Modelo treinado predominantemente em inglês não tem fineza para distinguir esses sons em todas as situações. O "ão" final é particularmente problemático.

3. Variação regional dentro do próprio Brasil

Sotaque carioca, paulista, gaúcho, nordestino. O mesmo aluno pode falar diferente do mesmo professor. Modelo precisa lidar com isso sem perder precisão.

Inglês americano também tem variação, mas o volume de treino compensa.

Como avaliar precisão na prática

A métrica oficial é WER (Word Error Rate), o percentual de palavras transcritas incorretamente. Em pt-BR, ferramentas competitivas hoje ficam:

Cenário	WER esperado
Áudio limpo, fala devagar, pt-BR neutro	3-6%
Aula universitária presencial, microfone razoável	8-15%
Aula online com áudio de qualidade	5-10%
Sala com eco, microfone distante	15-30%
Discussão em grupo sem moderação	25-50%

Para uso de estudante, WER abaixo de 10% é onde a transcrição vira útil. Acima de 15%, você passa mais tempo corrigindo do que escrevendo do zero.

O que separa modelo bom de modelo ruim em pt-BR

Cinco indicadores observáveis sem precisar olhar código:

Acentuação correta: "não" e "nao" são palavras diferentes para um modelo bom. Para um modelo ruim, vira a mesma coisa.
Terminologia técnica: medicina, direito, engenharia. Termo correto sem invenção criativa.
Pontuação consistente: vírgula no lugar de hesitação, ponto final no fim da ideia. Não é cosmético, ajuda na leitura.
Nomes próprios reconhecidos: nome de autor brasileiro, lei nacional, instituição brasileira. Modelo treinado em pt-BR pega isso, modelo treinado em inglês inventa.
Diarização aceitável: separa quem falou (professor, aluno, dois professores). Não é perfeita em ferramenta nenhuma ainda, mas razoável é diferente de inútil.

Teste prático: como avaliar uma ferramenta em 30 minutos

Antes de assinar qualquer ferramenta, faça este teste rápido:

Grave 3 minutos de áudio teste: você lendo um trecho de livro técnico da sua área em voz natural.
Suba na ferramenta: aguarde a transcrição.
Compare palavra por palavra: conte quantas palavras erradas. Divida pelo total. É seu WER aproximado.
Faça o mesmo teste com 3 ferramentas diferentes: você vai ver diferenças que marketing não conta.

Não confie em demo curada do site da ferramenta. Teste com o seu áudio, com a sua voz, na sua matéria.

Termos que destroem precisão em pt-BR

Cinco categorias de termo onde até modelo bom tropeça:

Termo técnico em latim

"In dubio pro reo", "habeas corpus", "ipso facto". Modelo treinado em inglês transcreve "in doobyo pro reo".

Sigla composta

"STF", "STJ", "OAB". Bom modelo entende. Modelo médio escreve "esse te éfi".

Nome de medicamento

"Losartana", "atenolol", "rosuvastatina". Em modelo ruim vira "lo sartana", "atenolol" com erro de acentuação.

Estrangeirismo aportuguesado

"Software" vs "softs ware", "design" vs "desáin", "marketing" vs "marketing". Pequenas variações fazem diferença.

Acrônimo de protocolo

"CHADS-VASc", "Framingham", "TIMI". Específicos demais para vocabulário geral.

Se a ferramenta acerta a maioria desses, ela está calibrada para pt-BR.

Por que modelo treinado especificamente em pt-BR ganha

Algumas ferramentas usam modelos genéricos multilíngues. Outras treinam ou ajustam para pt-BR especificamente. A diferença prática:

Modelo multilíngue: aprende padrão geral, funciona "ok" em vários idiomas.
Modelo ajustado para pt-BR: aprende as nuances acima, tem vocabulário rico em termos brasileiros, lida com sotaques regionais.

Para uso esporádico, multilíngue resolve. Para uso diário em conteúdo técnico, modelo ajustado entrega muito mais.

Custos: precisão tem preço?

Modelo bom em pt-BR não necessariamente é mais caro. O que importa é:

Custo por minuto transcrito: faixa de R$ 0,05 a R$ 0,30 nas ferramentas comerciais.
Plano fixo mensal: a partir de 20-30 horas/mês, plano fixo sai melhor.
Plano grátis útil: alguma ferramenta oferece 30 a 600 minutos grátis por mês. Suficiente pra testar.

Não cobre estudante uma fortuna. Mas cobre razoável o suficiente pra você comparar antes de assinar.

Integração com o resto do estudo

Transcrição em pt-BR não é o produto final. É insumo para:

Resumo em pt-BR (uma IA depois resume o texto)
Flashcards em SRS
Busca: ctrl+F na transcrição completa pra achar trecho específico
Chat com contexto: ferramentas como Lumio deixam você perguntar sobre o conteúdo da própria aula

Para esse fluxo todo funcionar, a transcrição precisa estar boa na entrada. Lixo na entrada vira lixo em tudo depois.

Privacidade e LGPD

Áudio de aula pode conter:

Dados pessoais do professor e dos colegas
Informação clínica (medicina) ou processual (direito)
Discussão privada que não era pra ser pública

A ferramenta que você usa processa esse áudio em servidores em algum lugar. Avalie:

Onde os dados são armazenados (Brasil, EUA, Europa?)
Política de retenção (quanto tempo a ferramenta guarda?)
Uso para treino de modelo (alguns processam pra treinar, outros não)

Não vale a praticidade se a privacidade for ruim.

O que vem em pt-BR nos próximos 12-24 meses

Três tendências honestas:

Modelos abertos em pt-BR vão ficar tão bons quanto comerciais: a comunidade brasileira está ativa nisso.
Diarização vai melhorar muito: hoje é o ponto mais fraco de transcrição automática.
Transcrição em tempo real com qualidade igual à offline: vai chegar.

Quem testa agora aprende as armadilhas. Quem espera a ferramenta perfeita perde 2 anos de prática.

Quer testar transcrição em pt-BR pensada pra estudante? O Lumio foi calibrado para aula universitária em português brasileiro, com termos médicos, jurídicos e de engenharia no vocabulário ativo. Teste em /signup — primeira semana sem cartão.