xAI käivitab Grok Speechi API-d, alahindades konkurente 60%
Zach Anderson 18. aprill 2026 kell 00:53
Elon Muski xAI teeb kättesaadavaks Grok Speech to Text ja Text to Speech API-d hinnaga 0,10 USD tunnis ning väidab madalaimaid vigade sagedusi ettevõtlusliku transkriptsiooni võrdlustes.
Elon Muski xAI andis 17. aprillil välja kaks eraldi heli-API-d, positsioneerides Grok speech-tehnoloogiat otsese konkurendina ElevenLabsile, Deepgramile ja AssemblyAI-le agressiivsete hindadega.
Grok Speech to Text API maksab 0,10 USD tunnis partii töötlemiseks ja 0,20 USD tunnis reaalajas voogedastuseks. Text to Speech maksab 4,20 USD miljoni sümboli kohta. Mõlemad kasutavad sama infrastruktuuri, mis toimib Tesla autodes ja Starlinki klienditoe süsteemis.
Võrdluste väited väärvad tähelepanu
xAI avaldatud sõnavigade määrad räägivad huvitavat lugu. Telefonikõnede entiteedide tuvastamisel – st nimed, kontonumbrid, kuupäevad – väidab Grok STT 5,0% vigade määra vastu ElevenLabsi 12,0%-le, Deepgrami 13,5%-le ja AssemblyAI 21,3%-le. See on oluline vahe, kui see püsib tootmiskeskkonnas.
Firma demonstreeris seda keerukas testjuhtumis: transkribeerides vali keeles olevaid nimesid nagu „Anghared Llewelyn Bowen“ ja „Oisin MacGiolla Phadraig“ koos laenuteabe andmetega. Grok tegi seda täpselt ilma ühegi veata. Võrdlustes osalenud mudelid eksisid häälduses ja kuupäevade vormistamises ebakohordiselt.
Video- ja podcasti transkriptsioonis on konkurents tihtsam – Grok ja ElevenLabs jagavad 2,4% vigade määra, samas kui Deepgram ja AssemblyAI jäädvustavad vastavalt 3,0% ja 3,2% vigade määraga.
Tehnilised funktsioonid arendajatele
Puhtast transkriptsioonist kaugemale ehitas xAI funktsioone, mida ettevõtluskliendid tegelikult vajavad: sõna tasemel ajatemplid, rääkijate eraldamine mitmes helikanalis ja 25+ keele tugi sujuva vahetusega.
Inverse Text Normalization (pööratud teksti normaliseerimine) teisendab automaatselt kõnes esinevad numbrid, kuupäevad ja valuutad õigesse vormi. „Neli üks neli viis viis viis üks kaks kolm neli“ muutub telefoninumbriks. „Kuus üheksakümmend üheksa“ muutub $6,99-ks. Väike detail, kuid see elimineerib järgtöötlemise probleemid.
Text to Speech sisaldab inline-siltu prosoodia kontrollimiseks – šepitsemine, naer, põhike, rõhutus, tempomuutused. Arendajad saavad lisada emotsionaalset nuanssi ilma keerulise helimärgistusega toimetlemata.
Strateegiline kontekst
See käivitus järgneb xAI X Corp omandamisele märtsis 2025 ja toimub sel ajal, mil firma laiendab oma infrastruktuuripartnerlusi. Kahe päeva enne API teatamist ilmusid uudised, et xAI plaanib pakkuda arvutusvõimsust AI-põhisele koodimisfirma Cursorile.
Colossus superarvuti, mis on töös alates detsembrist 2024, pakub taustasüsteemi jõudu. xAI näib monetiseerivat seda võimsust mitmes valdkonnas – ettevõtluslik AI, arendajatööriistad ja nüüd ka hääl-API-d.
Arendajatele, kes loovad häälagentuuri või transkriptsioonitööriistu, on hind oluliselt madalam kui olemasolevate mängijatega. Kas Grok täpsusväited püsivad reaalmaailmas ulatuslikus kasutuses, jääb avatuks küsimuseks. Dokumentatsioon ja määratud piirangud on saadaval xAI API konsoolis neile, kes soovivad seda testida.
Pildi allikas: Shutterstock- xai
- grok
- ai apis
- speech recognition
- elon musk








