Em resumo
- A Google afirmou que o seu algoritmo TurboQuant pode reduzir um grande estrangulamento de memória de IA em pelo menos seis vezes sem perda de precisão durante a inferência.
- As ações de empresas de memória, incluindo Micron, Western Digital e Seagate, caíram após a circulação do documento.
- O método comprime a memória de inferência, não os pesos do modelo, e foi testado apenas em benchmarks de investigação.
A Google Research publicou o TurboQuant na quarta-feira, um algoritmo de compressão que reduz um grande estrangulamento de memória de inferência em pelo menos 6x, mantendo perda zero de precisão.
O documento está previsto para apresentação na ICLR 2026, e a reação online foi imediata.
O CEO da Cloudflare, Matthew Prince, chamou-lhe o momento DeepSeek da Google. Os preços das ações de memória, incluindo Micron, Western Digital e Seagate, caíram no mesmo dia.
Então é real?
A eficiência de quantização é uma grande conquista por si só. Mas "perda zero de precisão" precisa de contexto.
O TurboQuant tem como alvo a cache KV—a porção de memória GPU que armazena tudo o que um modelo de linguagem precisa de recordar durante uma conversa.
À medida que as janelas de contexto crescem para milhões de tokens, essas caches expandem-se para centenas de gigabytes por sessão. Esse é o verdadeiro estrangulamento. Não é o poder de computação, mas a memória bruta.
Os métodos de compressão tradicionais tentam reduzir essas caches arredondando números para baixo—de floats de 32 bits para 16, para 8 para inteiros de 4 bits, por exemplo. Para compreender melhor, pense em reduzir uma imagem de 4K, para full HD, para 720p e assim por diante. É fácil perceber que é a mesma imagem no geral, mas há mais detalhe na resolução 4K.
O problema: têm de armazenar "constantes de quantização" extra ao lado dos dados comprimidos para evitar que o modelo fique estúpido. Essas constantes adicionam 1 a 2 bits por valor, erodindo parcialmente os ganhos.
O TurboQuant afirma que elimina esse overhead inteiramente.
Faz isso através de dois sub-algoritmos. O PolarQuant separa a magnitude da direção em vetores, e o QJL (Quantized Johnson-Lindenstrauss) pega no pequeno erro residual que sobra e reduz-o a um único bit de sinal, positivo ou negativo, com zero constantes armazenadas.
O resultado, segundo a Google, é um estimador matematicamente imparcial para os cálculos de atenção que impulsionam modelos transformer.
Em benchmarks usando Gemma e Mistral, o TurboQuant igualou o desempenho de precisão total sob compressão 4x, incluindo precisão de recuperação perfeita em tarefas needle-in-haystack até 104.000 tokens.
Para contextualizar por que esses benchmarks importam, expandir o contexto utilizável de um modelo sem perda de qualidade tem sido um dos problemas mais difíceis na implementação de LLM.
Agora, as letras pequenas.
"Perda zero de precisão" aplica-se à compressão de cache KV durante a inferência—não aos pesos do modelo. Comprimir pesos é um problema completamente diferente e mais difícil. O TurboQuant não toca nesses.
O que comprime é a memória temporária que armazena cálculos de atenção durante a sessão, o que é mais tolerante porque esses dados podem teoricamente ser reconstruídos.
Há também a lacuna entre um benchmark limpo e um sistema de produção que serve milhares de milhões de pedidos. O TurboQuant foi testado em modelos open-source—Gemma, Mistral, Llama—não na própria stack Gemini da Google em escala.
Ao contrário dos ganhos de eficiência do DeepSeek, que exigiram decisões arquiteturais profundas incorporadas desde o início, o TurboQuant não requer retreinamento ou ajuste fino e afirma ter overhead de execução negligenciável. Em teoria, integra-se diretamente nos pipelines de inferência existentes.
Essa é a parte que assustou o sector de hardware de memória—porque se funcionar em produção, cada grande laboratório de IA funciona de forma mais eficiente nas mesmas GPUs que já possui.
O documento vai para a ICLR 2026. Até que seja implementado em produção, o título de "perda zero" fica no laboratório.
Newsletter Daily Debrief
Comece todos os dias com as principais notícias neste momento, além de funcionalidades originais, um podcast, vídeos e muito mais.
Fonte: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss



