O Google está a promover o WAXAL, um conjunto de dados de voz de código aberto do Google Research Africa, que fala várias línguas nativas africanasO Google está a promover o WAXAL, um conjunto de dados de voz de código aberto do Google Research Africa, que fala várias línguas nativas africanas

Como a Google quer ensinar à IA as 2.000 línguas de África

2026/02/12 21:33
Leu 11 min

Quando Abdoulaye Diack, gestor de programas na Google Research, uma divisão da Google dedicada a fazer avançar o estado da arte em ciência da computação e a aplicar essas descobertas a problemas do mundo real, fala sobre as origens do WAXAL, um conjunto de dados de voz de código aberto da Google Research Africa, começa com uma única palavra. 

"WAXAL significa 'falar'", disse ele ao TechCabal, observando as suas raízes no Wolof, um idioma amplamente falado na região de Senegâmbia. 

O nome, escolhido em 2020 por um líder de pesquisa senegalês na Google, Moustaph Cisse, reflete uma verdade maior sobre a trajetória de IA de África: num continente com mais de 2.000 idiomas, a maioria deles falados em vez de escritos, a voz não é opcional; é o ponto de entrada.

Durante anos, a tecnologia digital centrou-se na literacia, teclados e texto. Mas em África, o idioma vive na conversação, através de mercados, quintas, clínicas e lares. A IA que não consegue analisar sotaques, entoação ou troca de código não pode servir significativamente a maioria dos africanos. O WAXAL pretende mudar isso. Em vez de se concentrar apenas na tradução de texto, o projeto está a criar a infraestrutura fundamental para IA de voz para voz em idiomas africanos de baixos recursos, centrado na construção de um vasto centro de alta qualidade de "matéria-prima" linguística.

"Ter uma IA que possa falar connosco no nosso idioma e compreender-nos, seja o nosso sotaque ou entoação, é realmente muito importante", disse Diack.

A desvantagem dos dados

O desafio começa com um desequilíbrio gritante. Mais de 50% de todos os websites estão em inglês e num punhado de idiomas ocidentais. Os mais de 2.000 idiomas de África mal aparecem nos conjuntos de dados digitais globais. A maioria está sub-representada online. Muitos não são escritos extensivamente. Alguns não são de todo padronizados.

Se os modelos de IA são treinados em texto digital, e o texto digital praticamente não existe para idiomas africanos, então o continente começa a corrida da IA numa desvantagem estrutural.

"Este não é um problema novo", disse Diack. "As pessoas na investigação estão conscientes desta enorme lacuna na falta de dados."

Sem dados, os modelos não podem ser treinados. Sem modelos treinados, os sistemas de IA ouvem mal, traduzem incorretamente ou ignoram populações inteiras. Diack relata uma frustração comum: falar com um sotaque africano francófono enquanto um sistema de anotações de IA luta para compreendê-lo. A tecnologia existe, mas não está ajustada ao contexto local.

Essa lacuna é o que o WAXAL quer fechar.

Construir uma base de voz

Lançado oficialmente em fevereiro de 2026, após três anos de desenvolvimento, o WAXAL produziu um dos maiores conjuntos de dados de voz para idiomas africanos até à data: mais de 11.000 horas de voz gravada de quase 2 milhões de gravações individuais, cobrindo 21 idiomas da África Subsaariana, incluindo Hausa, Yoruba, Luganda e Acholi.

Para além da recolha geral de voz, a Google disse ter investido mais de 20 horas de gravações de estúdio de alta qualidade para desenvolver vozes sintéticas de som natural para assistentes de voz. Estas gravações "premium de estúdio" são concebidas para fazer as respostas da IA soarem menos robóticas e mais culturalmente autênticas.

A Google estruturou a iniciativa como um modelo de parceria. Universidades como a Universidade de Makerere no Uganda e a Universidade do Gana lideraram grande parte da recolha de dados. Os parceiros locais mantêm a propriedade dos conjuntos de dados, que foram lançados como código aberto sob licenças que permitem uso comercial.

"Fornecemos principalmente orientação e financiamento", explicou Diack. "Todo este conjunto de dados não nos pertence. Pertence aos parceiros com quem trabalhamos."

A ambição não é apenas alimentar os próprios produtos da Google, mas semear um ecossistema.

Poucos dias após o lançamento, o conjunto de dados registou mais de 4.000 descarregamentos, um sinal precoce da adoção por investigadores e programadores, segundo Diack

Porque é que a voz importa 

A Google já oferece ferramentas de tradução em muitos idiomas. Então, porque começar do zero?

Porque a tradução não é voz.

A tradução automática tradicional baseia-se em "texto paralelo", frases escritas num idioma que estão alinhadas com os seus equivalentes noutro. Para idiomas de baixos recursos, tais corpora paralelos praticamente não existem. E mesmo quando a tradução funciona, não resolve o problema mais profundo: muitos africanos interagem com a tecnologia principalmente através da voz.

"Muitas pessoas na realidade não sabem ler e escrever no continente", disse Diack. "A voz é basicamente a porta de entrada para a tecnologia."

Imagine um agricultor em Kaduna a perguntar sobre previsões meteorológicas em Hausa. Ou uma mãe numa aldeia rural ganense a procurar conselhos nutricionais no seu idioma local. Os sistemas baseados em texto pressupõem literacia e ortografia padronizada. Os sistemas de voz devem navegar dialetos, calão, troca de código e padrões de fala atípicos.

No Gana, um projeto de reconhecimento de voz, a iniciativa UGSpeechData, produziu mais de 5.000 horas de dados de áudio. Essa iniciativa posteriormente permitiu o desenvolvimento de um chatbot de saúde materna a operar em idiomas locais. Também se estendeu ao trabalho sobre fala atípica, ajudando comunidades de indivíduos surdos e sobreviventes de AVC cujos padrões de fala frequentemente confundem os sistemas de IA convencionais.

"Os sistemas de IA não estão adaptados a isso", disse Diack. "Se tiver diferentes tipos de fala, é provável que o sistema não o compreenda."

Um campo concorrido

A Google não está sozinha nesta corrida.

A Masakhane, um coletivo de investigação de código aberto de base, construiu sistemas de tradução em mais de 45 idiomas africanos e desenvolveu o Lulu, um padrão de referência para avaliar modelos de idiomas africanos. A sua filosofia é comunidade em primeiro lugar e totalmente aberta.

A Lelapa AI da África do Sul, fundada por antigos investigadores da DeepMind, concentra-se em produtos comerciais de Processamento de Linguagem Natural (NLP) para empresas africanas. O seu modelo principal, Vulavula, capta dialetos e padrões de troca de código urbanos em isiZulu, Sesotho e Afrikaans. A Lelapa enfatiza conjuntos de dados de "verdade básica" e análise pesada de erros humanos, uma abordagem dispendiosa mas de alta fidelidade.

A Lesan AI na Etiópia construiu alguns dos sistemas de tradução mais precisos para Amárico, Tigrínia e Oromo, usando um modelo de humano no circuito para garantir nuances culturais.

O projeto No Language Left Behind (NLLB-200) da Meta adota uma abordagem de escala massiva, traduzindo em 200 idiomas, incluindo 55 africanos, usando aprendizagem zero-shot. A Microsoft, entretanto, integra idiomas africanos no Microsoft Translator e está a investir em conjuntos de dados agrícolas multimodais através de projetos como o Gecko.

A iniciativa African Next Voices financiada pela Fundação Gates foi lançada no final de 2025, produzindo 9.000 horas de dados de voz em 18 idiomas.

O ecossistema é diverso: coletivos de código aberto, startups comerciais, gigantes da tecnologia, financiadores filantrópicos. Cada um aborda o problema de forma diferente: escala versus profundidade, texto versus voz, aberto versus proprietário.

A distinção da Google reside na sua abordagem pesada em voz e orientada para o ecossistema.

Soberania versus paralisia

No entanto, o envolvimento de gigantes tecnológicos globais levanta inevitavelmente questões sobre soberania de dados e dependência.

Se a Google coordena o lançamento de conjuntos de dados de voz multilingues, isso cria dependência estrutural dos produtos Google? Os programadores locais poderiam tornar-se dependentes de ferramentas incorporadas no Gemini, Search ou Android?

Diack reconhece a tensão, mas adverte contra ficar tão conflituoso que nada é feito sobre a oportunidade que é apresentada. 

"O que é mais importante é que não sejamos deixados para trás", disse ele. "Definitivamente não quero que os meus dados sejam mal utilizados. Mas isto é sobre permitir que empreendedores, startups e investigadores trabalhem em dados que são realmente importantes."

Ele traça paralelos com parcerias entre universidades e empresas tecnológicas nos Estados Unidos e na Europa. A colaboração, argumenta, acelera a construção de capacidades. Já os investigadores envolvidos em projetos iniciais publicaram artigos e avançaram para funções de investigação global.

O modelo de licenciamento aberto é central para esse argumento. Os programadores podem construir produtos comerciais em cima dos conjuntos de dados WAXAL sem depender das APIs proprietárias da Google. A Google também lançou modelos de tradução de peso aberto como o Translate Gemma, que podem ser descarregados e ajustados independentemente.

Se esse equilíbrio satisfaz os críticos ainda está por ver. Mas a escala da lacuna linguística sugere que a inação pode trazer riscos maiores.

Infraestrutura: o pré-requisito silencioso

A IA de voz não existe isoladamente. Requer conectividade, largura de banda e infraestrutura de computação.

"Não se pode realmente treinar modelos de IA sem a infraestrutura certa", disse Diack.

A Google investiu em cabos submarinos, incluindo a chegada do cabo Equiano na Nigéria e noutros mercados africanos, para fortalecer a resiliência da banda larga. Cortes de fibra nos últimos anos expuseram a fragilidade das redes regionais. A infraestrutura redundante de alta capacidade é essencial não apenas para serviços de nuvem, mas também para centros de dados locais, um pilar fundamental da soberania digital.

O desenvolvimento de IA depende de três fundamentos: pessoas, dados e infraestrutura. A população jovem de África, projetada para representar uma grande parte dos utilizadores globais de IA nas próximas décadas, oferece uma vantagem demográfica. Mas sem investimento em capacidade de investigação e infraestrutura digital, o potencial demográfico não se traduzirá em liderança tecnológica.

O desafio da coordenação

Para evitar fragmentação, a Google mudou de parcerias universitárias isoladas para modelos de colaboração mais coordenados. Um desses esforços envolve trabalhar com o centro de idiomas da Masakhane e outras redes de voluntários para permitir que investigadores e startups solicitem financiamento e contribuam para conjuntos de dados partilhados.

"Se todos estamos a fazer a nossa própria coisa em todo o continente, não é eficaz", disse Diack. "Precisamos de um esforço concertado."

Até agora, o WAXAL cobriu 27 idiomas, incluindo quatro nigerianos. Alguns dos idiomas já cobertos incluem Acholi, Akan, Dagaare, Dagbani, Dholuo, Ewe, Fante, Fulani (Fula), Hausa, Igbo, Ikposo (Kposo), Kikuyu, Lingala, Luganda, Malgaxe, Masaaba, Nyankole, Rukiga, Shona, Soga (Lusoga), Suaíli e Yoruba. 

A ambição de abordar todos os mais de 2.000 idiomas africanos é aspiracional, talvez geracional.

"Esse é o meu sonho", disse Diack.

Mas a priorização importa. Ele aponta para a educação, agricultura e saúde como domínios críticos onde a IA de voz poderia fornecer impacto mensurável alinhado com objetivos de desenvolvimento sustentável.

A previsão meteorológica integrada na Google Search, melhorada através de iniciativas de investigação africanas, já demonstra efeitos globais indiretos. Projetos de deteção de doenças da mandioca como o PlantVillage Nuru, desenvolvido através de uma parceria entre a Penn State University, o Instituto Internacional de Agricultura Tropical (IITA) e o Grupo Consultivo sobre Investigação Agrícola Internacional (CGIAR), influenciaram a IA agrícola para além de África. Estes precedentes sugerem que as soluções construídas para África podem escalar globalmente.

O custo da IA indígena em primeiro lugar

Recolher dados de voz em ambientes de baixos recursos é dispendioso. Gravações de campo, transcrição, validação linguística e síntese de voz de qualidade de estúdio requerem financiamento sustentado.

O investimento da Google faz parte de uma mudança mais ampla da indústria de raspar texto disponível para investir em dados de voz originais. O modelo de verificação humano no circuito da Lelapa AI sublinha o custo da precisão. O conjunto de dados FLORES-200 da Meta dependeu de tradutores profissionais. As iniciativas de voz agrícola da Microsoft envolvem milhares de vídeos anotados.

A qualidade importa. As vozes sintéticas devem soar naturais. Os sistemas de reconhecimento devem lidar com a troca de código. A fala urbana frequentemente mistura inglês, idiomas locais e calão na mesma frase.

A IA africana não pode ser construída apenas através da automação; exigiria perícia cultural e linguística.

Para Diack, o sucesso não é medido apenas pela integração de produtos.

"Quero ver startups a aproveitar o conjunto de dados para fornecer serviços em idiomas locais", disse ele. "Quero ver investigadores a escrever artigos baseados nos nossos idiomas, não apenas em inglês."

Em última análise, porém, a porta que a Google está a construir deve levar a algum lugar tangível. Isso inclui produtos Google; Search, Gemini, assistentes de voz, que interagem fluentemente em Yoruba, Wolof, Hausa ou Luganda. Mas também inclui startups independentes a construir ferramentas de fintech, chatbots de saúde ou sistemas de consultoria agrícola.

Se algo, o futuro da IA de África depende de a voz se tornar uma força equalizadora ou outra oportunidade perdida. Se a fala permanecer não reconhecida pelos sistemas globais, milhares de milhões de palavras faladas diariamente em todo o continente permanecerão digitalmente invisíveis.

Oportunidade de mercado
Logo de native coin
Cotação native coin (NATIVE)
$0.00001672
$0.00001672$0.00001672
-5.69%
USD
Gráfico de preço em tempo real de native coin (NATIVE)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail [email protected] para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.