- Microsoft predstavlja tri lastne modele umetne inteligence za prepisovanje, generiranje glasu in ustvarjanje slik, da bi zmanjšal odvisnost od OpenAI.
- MAI-Transcribe-1 podpira 25 jezikov in deluje približno 2.5-krat hitreje kot Microsoftova trenutna ponudba prepisovanja Azure Fast.
- MAI-Voice-1 lahko v približno eni sekundi ustvari 60 sekund prilagodljivega zvoka, medtem ko je MAI-Image-2 namenjen naprednemu ustvarjanju slik in videoposnetkov.
- Modeli se integrirajo v Microsoft Foundry, MAI Playground, Teams in Azure, z agresivnimi cenami in načrtom za velike mejne modele do leta 2027.

Microsoft dela jasen korak naprej večja avtonomija umetne inteligence z uvedbo treh lastnih temeljnih modelov, namenjenih prepisovanju, generiranju govora in ustvarjanju slik. Ta poteza kaže, da si podjetje želi globljega, multimodalnega sklada umetne inteligence, ki ga v celoti nadzoruje, čeprav ohranja tesno komercialno zavezništvo z OpenAI.
Ti novi sistemi, razviti v okviru Microsoft AI / MAI Superinteligence ekipe, so zasnovane tako, da se neposredno priključijo na izdelki, kot sta Teams in Azure pa tudi v interne platforme za eksperimentiranje. V praksi Microsoft postavlja temelje za dolgoročno strategijo, kjer lastni modeli pokrivajo vse večji delež vsakodnevnih delovnih obremenitev, pri čemer se zunanji modeli, kot so tisti iz OpenAI, rezervirajo za primere, ko prinašajo jasno, diferencirano vrednost.
Trije osnovni modeli, ki jih je razvil Microsoft, za prepisovanje, glas in slike
Predstavitev se vrti okoli treh ključnih modelov: MAI-Transcribe-1 za pretvorbo govora v besedilo, MAI-Voice-1 za pretvorbo besedila v govor in MAI-Image-2 za vizualno ustvarjanje. Skupaj tvorijo prvo, zelo vidno plast internega multimodalni sklad umetne inteligence ki lahko obdeluje besedilo, zvok in slike znotraj Microsoftovega ekosistema.
Namesto da bi se zanašal zgolj na velike, splošnonamenske modele, Microsoft stavi na sistemi, osredotočeni na naloge, ki so cenejši in hitrejši za običajne primere uporabe v podjetjih. Ta pristop je še posebej pomemben, saj število uporabnikov programa Copilot in funkcij, ki jih poganja umetna inteligenca v programih Office, Teams in Azure, nenehno narašča, stroški pa bi se sicer skoraj linearno povečevali z uporabo API-ja.
Modeli temeljev Tovrstni programi so usposobljeni na velikih in raznolikih naborih podatkov, da jih je kasneje mogoče prilagoditi širokemu naboru scenarijev. Tukaj to pomeni, da podpirajo vse od prepisovanja klicnih centrov in povzetkov sestankov do sintetičnih glasov, orodij za dostopnost in avtomatiziranih cevovodov za ustvarjanje vsebin.
MAI-Transcribe-1: hitrejša, večjezična pretvorba govora v besedilo za 25 jezikov
MAI-Transcribe-1 je Microsoftov novi mehanizem za pretvorbo govora v besedilo in eden osrednjih delov te uvedbe. Model podpira prepisovanje v 25 različni jeziki in je bila interno ocenjena kot približno 2.5-krat hitrejši od obstoječe ponudbe prepisovanja Azure Fast podjetja, ki je bila referenčna točka v njenem trenutnem portfelju.
Ta izboljšava učinkovitosti je pomembna, ker Delovne obremenitve pri transkripciji so zelo občutljive na zakasnitev, zlasti v scenarijih v realnem času, kot so podnapisi v živo, podpora strankam ali hibridni sestanki. Širša jezikovna pokritost je prav tako usklajena z Microsoftovo globalno prisotnostjo, kar multinacionalnim strankam olajša standardizacijo pri enem samem ponudniku namesto mešanja regionalnih orodij.
Z vidika izdelka Microsoft načrtuje neposredno povezavo MAI-Transcribe-1 v Microsoftove ekipe za obdelavo prepisov sestankov in podnapisov v živo. Sčasoma naj bi se isti mehanizem pojavil tudi pod pokrovom drugih orodij za produktivnost, tako da uporabniki opazijo boljšo hitrost in nižje stroške, ne da bi nujno opazili spremembo blagovne znamke.
Cenovno pozicioniranje je bilo agresivno: MAI-Transcribe-1 se začne pri približno 0.36 USD na uro obdelanega zvoka, številka, katere cilj je bil znižati cene primerljivih ponudb Googla in OpenAI, hkrati pa še vedno delovati na Microsoftovi lastni oblačni infrastrukturi.
MAI-Voice-1: ultra hitra pretvorba besedila v govor z glasovi po meri
Na strani generiranja zvoka, MAI-Voice-1 je Microsoftov novi model za pretvarjanje besedila v govorPo navedbah podjetja lahko proizvede približno 60 sekund zvoka v približno eni sekundi obdelave, kar je opazen skok za primere uporabe, kjer je odzivnost ključnega pomena.
Poleg surove hitrosti je ključna obljuba podpora za glasovi po meri, usklajeni z blagovno znamkoOrganizacije bodo lahko opredelile glasove, ki ustrezajo njihovi identiteti ali specifičnim primerom uporabe, od telefonskih linij za podporo in pogovornih agentov do gradiv za usposabljanje, podkastov in funkcij za dostopnost. Ta raven nadzora je vse pomembnejša, saj sintetični govor postaja vse pogostejši, poslušalci pa vse bolj zahtevni glede tona in jasnosti.
Microsoft cilja neposredno na MAI-Voice-1 razvijalci in podjetja, ki gradijo izdelke z veliko glasovno naravnanostjo: klicni centri, pomočniki v aplikacijah, orodja za učenje jezikov, medijske platforme ali katera koli storitev, ki potrebuje prilagodljivo pripovedovanje. S cenami od približno 22 dolarjev na milijon znakov, model naj bi bil finančno vzdržen tako pri majhnih kot zelo velikih količinah.
Z vidika infrastrukture se MAI-Voice-1 ponuja prek Azure API-ji, Microsoft Foundry in MAI Playground, kar ekipam omogoča hitro testiranje glasov in nato prehod na produkcijo brez menjave okolja. Ideja je poenostaviti celotno pot od eksperimentiranja do uvajanja znotraj Microsoftovega sklada.
MAI-Image-2: generiranje slik in videoposnetkov, integrirano v Microsoftov sklad
Tretji model, MAI-Image-2, osredotočen na ustvarjanje slik (in v nekaterih opisih videoposnetkov) iz besedilnih pozivovČeprav podjetje še ni razkrilo vseh tehničnih podrobnosti, model pozicionira kot vizualni dvojnik svojih besedilnih in zvočnih sistemov, katerega cilj je avtomatizirati ustvarjanje trženjskih sredstev, vizualnih prikazov izdelkov, scenarijev in drugih medijev.
Zanimivo je, da se je MAI-Image-2 prvič pojavil bolj tiho v Igrišče MAI, Microsoftovo eksperimentalno okolje za velike modele, že sredi marca. Trenutna objava formalizira njegovo vlogo kot del širšega Livarna in Azure ekosistem, kjer lahko podjetja do njega dostopajo kot do standardne komponente in ne le kot do čiste raziskovalne predstavitve.
Cenovna politika je spet strukturirana tako, da konkurira: podjetje navaja vstopno točko približno 5 $ na milijon vhodnih žetonov za besedilo in okoli 33 dolarjev na milijon izhodnih žetonov za ustvarjene slikeTe številke so predstavljene kot enakovredne ali nižje od podobnih ravni konkurenčnih ponudnikov, hkrati pa imajo koristi od Microsoftovega paketa za varnost in skladnost s predpisi za podjetja.
Primeri uporabe segajo od avtomatizirani ustvarjalni poteki dela in prilagojenih marketinških vizualnih elementov do hitrega izdelovanja prototipov za oblikovanje izdelkov. Za številne stranke, ki so že standardizirane za Azure, je ključna prodajna prednost ta, da lahko eksperimentirajo z ustvarjanjem slik, ne da bi pri tem najeli dodatnega zunanjega dobavitelja.
Integracija med Azure, Foundry, MAI Playground in Microsoft 365
Odločilni vidik te predstavitve je, kako tesno so novi modeli vpleteni v Microsoftove obstoječe platforme za oblak in produktivnostVsi trije sistemi – MAI-Transcribe-1, MAI-Voice-1 in MAI-Image-2 – se uvajajo prek Microsoft Foundry, okolje podjetja za dostop do in skaliranje temeljnih modelov.
Razvijalci lahko začnejo z Igrišče MAI, kjer so isti modeli izpostavljeni v bolj eksperimentalnem vmesniku. Ta nastavitev je namenjena zmanjšanju ovir za ekipe, ki želijo preizkusiti zmogljivosti, kot so transkripcija, sintetični glasovi ali vizualna generacija, ne da bi se takoj zavezale k popolni integraciji.
Na strani izdelka Microsoft že opozarja na Microsoftove ekipe kot zgodnji upravičenec. MAI-Transcribe-1 naj bi omogočal prepise in podnapise sestankov, medtem ko naj bi se MAI-Voice-1 in MAI-Image-2 sčasoma pojavila v različnih Izkušnje Copilota in Microsofta 365, tudi če končni uporabniki morda ne vidijo eksplicitne blagovne znamke modela.
Za podjetja je obljuba en sam, koherenten sklad kjer transkripcija, glas in slike obstajajo poleg jezikovnih modelov, podatkovnih storitev in analitike v storitvi Azure. To bi lahko poenostavilo skladnost s predpisi, varnostne preglede in upravljanje dobaviteljev v primerjavi z združevanjem več zunanjih ponudnikov umetne inteligence.
Cenovna strategija in konkurenca z OpenAI in Googlom
Poleg tehničnih specifikacij Microsoft veliko pozornosti posveča tudi cenovna konkurenčnostPodjetje te modele odkrito pozicionira kot alternative, ki se lahko kosajo s podobnimi ponudbami ali pa jih celo cenejšijo. OpenAI in Google, zlasti za dolgotrajno uporabo v velikih količinah.
Objavljene cenovne točke – 0.36 $ na zvočno uro za MAI-Transcribe-1, 22 dolarjev na milijon znakov za MAI-Voice-1 in 5 $ / 33 $ na milijon žetonov struktura za MAI-Image-2 – niso le tehnične podrobnosti. So del širšega sporočila, ki ga želi Microsoft videti kot stroškovno učinkovit ponudnik generativne umetne inteligence od začetka do konca in ne le preprodajalec partnerskih modelov.
Na trgu, kjer vse več organizacij vgrajuje umetno inteligenco v vsakodnevno poslovanje, cena na zahtevo lahko hitro postane strateška spremenljivkaZ lastnimi modeli lahko Microsoft natančno določi kompromis med stroški računanja, kompleksnostjo modela in cenami za uporabnike, namesto da bi zunanjim ponudnikom plačeval velike pribitke.
Obstaja tudi signalni učinek: z izpostavljanjem lastnih meril uspešnosti in cenovnih tabel Microsoft strankam dejansko sporoča, da jim ni več treba privzeto uporabljati modelov tretjih oseb za osnovne delovne obremenitve, kot so prepisovanje, govor in slike, če so že zavezane k Azure.
Mustafa Suleyman in vizija umetne inteligence, osredotočena na človeka
Trije novi modeli prihajajo iz ekip, združenih pod Microsoft AI / MAI Superinteligence, voden z Mustafa Sulejman, ki zdaj vodi Microsoft AI. Suleyman, znan po svojih prejšnjih vlogah v industriji umetne inteligence, je javno predstavil vizijo, ki jo opisuje kot "humanistična umetna inteligenca" ali umetna inteligenca, osredotočena na človeka.
V Microsoftovih sporočilih o lansiranju Suleyman poudarja, da so ti modeli zasnovani tako, da odražajo, kako ljudje dejansko komunicirajo, dajanje prednosti praktična uporabnost in varnostCilj je po njegovih besedah ustvariti sisteme, ki so manj abstraktni raziskovalni projekti in več orodij, ki se prilegajo vsakodnevnim delovnim procesom v službi in doma.
Prav tako je namignil, da je trenutna trojica modelov šele začetek širšega portfeljaMicrosoft namerava uvesti dodatne temeljne modele prek platforme Foundry in neposredno v izdelke, s čimer bo postopoma širil svoje interne zmogljivosti, ki presegajo govor in slike, da bi zajel več modalitet in bolj specializiranih nalog.
Ta načrt poudarja Microsoftovo namero, da ga ne bi videli le kot platformo za umetno inteligenco drugih ljudi, temveč kot graditelja lastnih naprednih modelov, ki se lahko kosajo s ponudbami dolgoletnih partnerjev, kot je OpenAI.
Preoblikovan odnos z OpenAI in cilj modela meje 2027
Eden najbolj občutljivih vidikov te strategije je, kako se nanaša na Odmevno partnerstvo Microsofta z OpenAIPodjetji ostajata tesno povezani: Microsoft je investiral več kot $ 13 milijarde v OpenAI gosti svoje modele na Azure in integrira sisteme, kot je GPT, v izdelke, kot je Copilot.
Vendar pa nedavna poročila kažejo na ponovna pogajanja o razmerju To daje Microsoftu več prostora za vzporedno izvajanje lastnih raziskav in linij izdelkov na področju umetne inteligence. Suleyman je ta premik opisal kot naraven razvoj, ne kot prelom – bolj podoben temu, da bi podjetje oblikovalo nekatere lastne čipe, hkrati pa še vedno kupovalo od zunanjih dobaviteljev.
Po poročanju Bloomberga in drugih medijev si Microsoft prizadeva imeti lastni obsežni modeli na mejni ravni, ki bodo delovali do približno leta 2027Novo napovedani sistemi so nekoliko višje od te ambicije: še niso pozicionirani kot splošni, vrhunski jezikovni modeli, temveč kot specializirane komponente, ki zmanjšujejo odvisnost od partnerskih API-jev za vsakodnevne delovne obremenitve.
V praksi to pomeni, da lahko Microsoft še naprej uporablja modele OpenAI, kot je GPT-5.4, kjer so smiselni, medtem ko postopoma zamenjava lastnih modelov kjer koli razmerje med stroški in učinkovitostjo ali strateški vidiki dajejo prednost notranji tehnologiji. Uporabniki lahko preprosto opazijo, da funkcije postanejo hitrejše ali cenejše, ko se ti prehodi dogajajo v ozadju.
Za širši trg umetne inteligence ta dvojna pot poudarja jasen trend: velika tehnološka podjetja iščejo ravnovesje med sodelovanjem in samozadostnostjo..., pri čemer uporabljajo zavezništva za hitro delovanje, hkrati pa gradijo lastne zmogljivosti, da se dolgoročno izognejo vezavi na enega samega dobavitelja.
S temi tremi modeli Microsoft dejansko postavlja zastavo: želi konkurirati na več ravneh sklada umetne inteligence – od infrastrukture in orodij do samih temeljnih modelov – hkrati pa pustiti prostor za partnerje, kot je OpenAI, kjer prinašajo edinstvene prednosti. Za stranke bi to lahko pomenilo več možnosti, ostrejše cene in postopen prehod na umetno inteligenco z blagovno znamko Microsoft, ki podpira znane izdelke in storitve.
