PANews meldde op 21 maart dat Tether de release aankondigde van een cross-platform BitNet LoRA fine-tuning framework in QVAC Fabric, waardoor optimalisaties mogelijk worden voor training en inference van Microsoft BitNet (1-bit LLM). Dit framework vermindert de rekenkracht- en geheugenvereisten aanzienlijk, waardoor modellen met miljarden parameters kunnen worden getraind en verfijnd op laptops, consumentenklasse GPU's en smartphones.
Deze oplossing is de eerste die fine-tuning van het BitNet-model op mobiele GPU's mogelijk maakt (inclusief Adreno, Mali en Apple Bionic). Tests tonen aan dat een 125M parametermodel in ongeveer 10 minuten kan worden verfijnd, een 1B model in ongeveer 1 uur, en het kan zelfs worden uitgebreid naar een 13B parametermodel op mobiele apparaten.

Verder ondersteunt het framework heterogene hardware zoals Intel, AMD en Apple Silicon, en bereikt voor het eerst 1-bit LLM LoRA fine-tuning op niet-NVIDIA apparaten. Qua prestaties bereikt het BitNet-model inference-snelheden die 2 tot 11 keer sneller zijn op mobiele GPU's dan op CPU's, terwijl het geheugengebruik met ongeveer 77,8% wordt verminderd in vergelijking met traditionele 16-bit modellen.
Tether verklaarde dat deze technologie het potentieel heeft om de afhankelijkheid van high-end rekenkracht en cloudinfrastructuur te doorbreken, de ontwikkeling van AI-training richting decentralisatie en lokalisatie te bevorderen, en een basis te bieden voor nieuwe toepassingsscenario's zoals federated learning.


