Google Reduz Memória da IA Sem Perda de Precisão—Mas Há um Senão

Em resumo

A Google afirmou que o seu algoritmo TurboQuant pode reduzir um grande estrangulamento de memória de IA em pelo menos seis vezes sem perda de precisão durante a inferência.
As ações de empresas de memória, incluindo Micron, Western Digital e Seagate, caíram após a circulação do documento.
O método comprime a memória de inferência, não os pesos do modelo, e foi testado apenas em benchmarks de investigação.

A Google Research publicou o TurboQuant na quarta-feira, um algoritmo de compressão que reduz um grande estrangulamento de memória de inferência em pelo menos 6x, mantendo perda zero de precisão.

O documento está previsto para apresentação na ICLR 2026, e a reação online foi imediata.

O CEO da Cloudflare, Matthew Prince, chamou-lhe o momento DeepSeek da Google. Os preços das ações de memória, incluindo Micron, Western Digital e Seagate, caíram no mesmo dia.

Então é real?

A eficiência de quantização é uma grande conquista por si só. Mas "perda zero de precisão" precisa de contexto.

O TurboQuant tem como alvo a cache KV—a porção de memória GPU que armazena tudo o que um modelo de linguagem precisa de recordar durante uma conversa.

À medida que as janelas de contexto crescem para milhões de tokens, essas caches expandem-se para centenas de gigabytes por sessão. Esse é o verdadeiro estrangulamento. Não é o poder de computação, mas a memória bruta.

Os métodos de compressão tradicionais tentam reduzir essas caches arredondando números para baixo—de floats de 32 bits para 16, para 8 para inteiros de 4 bits, por exemplo. Para compreender melhor, pense em reduzir uma imagem de 4K, para full HD, para 720p e assim por diante. É fácil perceber que é a mesma imagem no geral, mas há mais detalhe na resolução 4K.

O problema: têm de armazenar "constantes de quantização" extra ao lado dos dados comprimidos para evitar que o modelo fique estúpido. Essas constantes adicionam 1 a 2 bits por valor, erodindo parcialmente os ganhos.

O TurboQuant afirma que elimina esse overhead inteiramente.

Faz isso através de dois sub-algoritmos. O PolarQuant separa a magnitude da direção em vetores, e o QJL (Quantized Johnson-Lindenstrauss) pega no pequeno erro residual que sobra e reduz-o a um único bit de sinal, positivo ou negativo, com zero constantes armazenadas.

O resultado, segundo a Google, é um estimador matematicamente imparcial para os cálculos de atenção que impulsionam modelos transformer.

Em benchmarks usando Gemma e Mistral, o TurboQuant igualou o desempenho de precisão total sob compressão 4x, incluindo precisão de recuperação perfeita em tarefas needle-in-haystack até 104.000 tokens.

Para contextualizar por que esses benchmarks importam, expandir o contexto utilizável de um modelo sem perda de qualidade tem sido um dos problemas mais difíceis na implementação de LLM.

Agora, as letras pequenas.

"Perda zero de precisão" aplica-se à compressão de cache KV durante a inferência—não aos pesos do modelo. Comprimir pesos é um problema completamente diferente e mais difícil. O TurboQuant não toca nesses.

O que comprime é a memória temporária que armazena cálculos de atenção durante a sessão, o que é mais tolerante porque esses dados podem teoricamente ser reconstruídos.

Há também a lacuna entre um benchmark limpo e um sistema de produção que serve milhares de milhões de pedidos. O TurboQuant foi testado em modelos open-source—Gemma, Mistral, Llama—não na própria stack Gemini da Google em escala.

Ao contrário dos ganhos de eficiência do DeepSeek, que exigiram decisões arquiteturais profundas incorporadas desde o início, o TurboQuant não requer retreinamento ou ajuste fino e afirma ter overhead de execução negligenciável. Em teoria, integra-se diretamente nos pipelines de inferência existentes.

Essa é a parte que assustou o sector de hardware de memória—porque se funcionar em produção, cada grande laboratório de IA funciona de forma mais eficiente nas mesmas GPUs que já possui.

O documento vai para a ICLR 2026. Até que seja implementado em produção, o título de "perda zero" fica no laboratório.

Newsletter Daily Debrief

Comece todos os dias com as principais notícias neste momento, além de funcionalidades originais, um podcast, vídeos e muito mais.

Fonte: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss

Google Reduz Memória da IA Sem Perda de Precisão—Mas Há um Senão

Em resumo

Então é real?

Newsletter Daily Debrief

Você também pode gostar

Próxima Cripto a Explodir enquanto a CME Abre Futuros 24/7 e a Pré-venda da Pepeto Ultrapassa $8M

Isenção de Tokenização da SEC: Mudança Regulatória Revolucionária Poderá Chegar Dentro de Semanas

Visa lần đầu tham gia đề xuất quản trị blockchain Canton Network

Notícias em alta

Próxima Cripto a Explodir enquanto a CME Abre Futuros 24/7 e a Pré-venda da Pepeto Ultrapassa $8M

Isenção de Tokenização da SEC: Mudança Regulatória Revolucionária Poderá Chegar Dentro de Semanas

Visa lần đầu tham gia đề xuất quản trị blockchain Canton Network

Conflito no Médio Oriente representa riscos de inflação e económicos

Venice Token VVV tăng 14%, rào cản quan trọng tiếp theo là gì?

Preços das criptomoedas