Qwen 3.5 Omni: Alibaba's AI-model kan nu horen, kijken en je stem klonen

In het kort

Alibaba's Qwen 3.5 Omni brengt echte realtime omnimodale AI naar de frontlinie.
Natieve audio-visuele verwerking verslaat aan elkaar geknoopte multimodale pipelines in snelheid en samenhang.
Stemkloning, semantische onderbreking en vibe-codering signaleren een verschuiving naar volledig interactieve AI-agents.

Alibaba heeft zojuist zijn meest ambitieuze AI-upgrade tot nu toe uitgebracht.

Het Qwen-team van het bedrijf bracht op zondag Qwen 3.5 Omni uit, een nieuwe versie van zijn "omnimodale" AI die tegelijkertijd tekst, afbeeldingen, audio en video verwerkt, en in realtime in 36 talen terugpraat, waardoor het model op hetzelfde slagveld wordt geplaatst als de nieuwste state-of-the-art AI-fundamentele modellen die momenteel beschikbaar zijn.

"Omni" is hier niet alleen maar een marketingbuzzword. De meeste AI-modellen waarmee je interacteert zijn voornamelijk tekst-in, tekst-uit systemen. Sommige verwerken afbeeldingen, sommige verwerken spraak. Qwen 3.5 Omni verwerkt ze allemaal native, tegelijkertijd, zonder de noodzaak om alles via tools van derden naar tekst te converteren.

Het nieuwe model komt in drie maten—Plus, Flash en Light—die allemaal een klein (naar de huidige maatstaven) contextvenster van 256.000 tokens ondersteunen. Het werd getraind op meer dan 100 miljoen uur aan audiovisuele gegevens—een schaal die het in een andere gewichtsklasse plaatst dan de meeste concurrenten.

Qwen 3.5 Omni is een evolutie van Qwen 3 Omni Flash, Alibaba's vorige omnimodale model dat in december 2025 werd uitgebracht. Die versie maakte al indruk met zijn vermogen om video en audio tegelijkertijd te verwerken—het kon instructies voor beeldbewerking verwerken waarbij meerdere visuele invoer op manieren werden gecombineerd die concurrenten niet konden—en streamde spraakresponsen met een latentie van slechts 234 milliseconden.

Het was ook het eerste model dat een alternatief voor Google's NotebookLM probeerde. Het bereikte iets, maar de kwaliteit was niet vergelijkbaar met het aanbod van Google.

Qwen 3.5 Omni neemt dat allemaal en voegt een langer contextvenster, betere redenering, een veel bredere taalbibliotheek en een reeks realtime-interactiefuncties toe die de vorige generatie niet had.

De belangrijkste upgrade is wat er gebeurt als je er daadwerkelijk mee praat. Qwen3.5-Omni ondersteunt nu semantische onderbreking: het kan het verschil zien tussen wanneer je midden in een zin "uh-huh" zegt en daadwerkelijk wilt onderbreken, zodat het niet halverwege een gedachte stopt elke keer dat iemand op de achtergrond hoest, waardoor gesproken interactie naadloozer verloopt.

Een nieuwe techniek genaamd ARIA, kort voor Adaptive Rate Interleave Alignment, lost ook een subtiele maar hardnekkige ergernis op: AI-systemen die cijfers of ongebruikelijke woorden vervormen bij het hardop lezen. ARIA synchroniseert dynamisch tekst en spraak om de output natuurlijk en nauwkeurig te houden.

Dan is er stemkloning. Gebruikers kunnen een spraakmonster uploaden en het model die stem laten aannemen in zijn reacties, een functie die Qwen direct in concurrentie brengt met ElevenLabs en andere toegewijde stemtools. We konden deze functie echter niet benaderen, omdat dit een functie is die, althans voorlopig, alleen via API beschikbaar is.

Op meertalige spraakstabiliteitsbenchmarks versloeg Qwen3.5 Omni-Plus ElevenLabs, GPT-Audio en Minimax in 20 talen. Het model ondersteunt nu ook realtime webzoeken, wat betekent dat het vragen kan beantwoorden over het laatste nieuws of live marktgegevens zonder te doen alsof het het al weet.

Het team benadrukt ook wat ze "Audio-Visual Vibe Coding" noemen, het model kan een schermopname of video van een codeertaak bekijken en functionele code schrijven puur op basis van wat het ziet en hoort, zonder dat er een tekstprompt nodig is. Het is een klein voorproefje van hoe AI-assistenten uiteindelijk binnen je workflow kunnen opereren in plaats van ernaast.

Om te begrijpen wat "omnimodaal" in de praktijk eigenlijk betekent, hebben we een snelle test uitgevoerd: we gaven zowel Qwen3.5-Omni als ChatGPT 5.4 in "denkende" modus dezelfde YouTube Short—een clip van Dastan President (Dastan is het moederbedrijf van Decrypt) en commentator Farokh die het laatste nieuws bespreken. Qwen 3.5 Omni verwerkte de video native en leverde in ongeveer een minuut een volledige analyse: wie er sprak, wat ze bespraken, en een inhoudelijk commentaar op het onderwerp gebaseerd op zijn eigen kennis van het vakgebied.

ChatGPT 5.4, dat niet omnimodaal is, moest het doen met wat het kreeg. Het haalde frames uit de video, voerde ze door een vision-model, gebruikte Whisper om de audio te transcriberen en paste een OCR-tool toe om ingebedde ondertitels te lezen—drie afzonderlijke processen aan elkaar genaaid om te benaderen wat Qwen3.5-Omni in één keer doet. Het resultaat duurde negen minuten, en dat is onder ideale omstandigheden: een goed verlichte video met heldere audio en ingebakken ondertitels. Echte content biedt zelden alle drie.

In onze snelle tests met meerdere invoer verwerkte het model ook prompts in het Spaans, Portugees en Engels zonder problemen—talen wisselen midden in een gesprek zonder context te verliezen.

Op standaardbenchmarks presteerde Qwen 3.5 Omni Plus beter dan Gemini 3.1 Pro op algemene audiobegrip-, redeneer- en vertaaltaken, en kwam ermee overeen op audiovisueel begrip. Spraakherkenning dekt nu 113 talen en dialecten—een stijging van 19 in de vorige generatie.

Dit is Alibaba's tweede grote AI-release in zes weken. In februari lanceerde het Qwen 3.5, een tekst-en-vision-model dat frontier-modellen evenaarde of versloeg op redeneer- en codeerbenchmarks—onderdeel van een reeks die ook Qwen Deep Research en een reeks tools omvatte die concurreren met OpenAI en Google. Qwen 3.5 Omni breidt dat momentum uit naar volledig multimodaal territorium, op een moment dat elk groot AI-lab racet om systemen te bouwen die het volledige spectrum van menselijke communicatie aankunnen—niet alleen woorden op een scherm.

Het model is nu beschikbaar via Alibaba Cloud's API en kan direct worden getest op Qwen Chat of via Hugging Face's online demo.

Daily Debrief Newsletter

Begin elke dag met de topnieuwsverhalen van nu, plus originele features, een podcast, video's en meer.

Bron: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni: Alibaba's AI-model kan nu horen, kijken en je stem klonen

In het kort

Daily Debrief Newsletter

Trending nieuws

Amerikaanse Senatoren Lanceren Nieuwe Wet ter Bevordering van Bitcoin Mining-Uitbreiding en Verankering van Strategische Bitcoin Reserve – Regulering Bitcoin Nieuws

Ran Neuner Stelt Bitcoin's Identiteit Ter Discussie, Crypto Narratief Verschuift

PhilWeb verkrijgt accreditatie voor gamingdiensten

Hoe Crypto te Kopen Met 150x Potentieel terwijl Pepeto Elke Fase Sneller Vult

Van babyboom naar ineenstorting: vruchtbaarheidscijfer van de Filipijnen daalt naar recordlaag in 2025

Cryptoprijzen