Zaraz pobrę treść artykułu i przygotuję dla Ciebie publikację.Mam artykuł. Przygotowuję publikację dla
Microsoft AI, laboratorium badawcze giganta technologicznego, ogłosiło we wtorek wdrożenie trzech modeli sztucznej inteligencji, które potrafią generować tekst, głos i obrazy. To wyraźny sygnał zamiaru Microsoftu, aby budować własny, kompletny stos narzędzi multimodalnych.
Trzy nowe modele na rynku
Zespół MAI Superintelligence, kierowany przez Mustafę Suleymania (szefa Microsoft AI), zaprezentował MAI-Transcribe-1, MAI-Voice-1 oraz MAI-Image-2. Każdy z nich adresuje inną potrzebę rynku.
MAI-Transcribe-1 to model transkrypcji mowy. Pracuje w 25 różnych językach i twierdzi się, że jest 2,5 razy szybszy od dotychczasowego Azure Fast. MAI-Voice-1 generuje audio — użytkownicy mogą wytworzyć 60 sekund nagrania w zaledwie sekundę i stworzyć osobliwy głos. MAI-Image-2 zaś pracuje z wideo.
Ceny są kluczowe:
- MAI-Transcribe-1 zaczyna się od 0,36 dolarów za godzinę
- MAI-Voice-1 kosztuje od 22 dolarów za milion znaków
- MAI-Image-2 od 5 dolarów za milion tokenów (input tekstowy) i 33 dolary za milion tokenów (output obrazy)
Konkurencja się zaostrza
Ogłoszenie Microsoftu jest kolejnym posunięciem w zbrojeniach sztucznej inteligencji. Gigant rywalizuje z Google’em i OpenAI na froncie modeli fundacyjnych, jednocześnie będąc partnerem OpenAI i inwestując miliardy w tę współpracę.
To dziwna pozycja: Microsoft buduje własne narzędzia, a jednocześnie napędzany jest technologią konkurentów. Suleyman przyznał, że niedawna renegocjacja umowy z OpenAI pozwoliła mu całkowicie zaangażować się w badania superinteligencji. Trudno wyobrazić sobie głośniejszy sygnał wysłany do OpenAI i świata.
Microsoft twierdzi, że jego modele są tańsze od rozwiązań Google’a i OpenAI. To fakt godny uwagi, ale trzeba pamiętać, że konkurencja ceny to złudny zwycięzca na rynku zdominowanym przez innowacyjność. Czy rzeczywiście istnieje przestrzeń dla trzech (lub więcej) großych graczy malejących modele fundacyjne? Czy to będzie podobne do rynku chipów, gdzie Microsoft kupuje od Nvidii mimo produkcji własnych rozwiązań? Wiele pytań, niewiele certyfikowanych odpowiedzi. Kluczowe będzie, czy te modele przełożą się na rzeczywiste zastosowania biznesowe, które użytkownicy będą chcieć faktycznie wykorzystywać. Dopiero wtedy będziemy wiedzieć, czy to krok strategiczny, czy zbyt opóźniona próba wyrównania dystansu.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Historia MAI-Image-2
MAI-Image-2 nie jest całkowicie nowy. Model ten zadebiutował na MAI Playground, testowym środowisku dla modeli językowych, 19 marca. Teraz wszystkie trzy modele są dostępne na Microsoft Foundry, a transkrypcja i modele głosu działają również w MAI Playground.
Humanistyczne AI czy ekspansja mocy?
Suleyman opisuje wizję Microsoftu w prosty sposób: „At Microsoft AI, we’re building Humanist AI. We have a distinct view when creating our AI models — putting humans at the center, optimizing for how people actually communicate, training for practical use” (tłumaczenie: „W Microsoft AI budujemy Humanistyczne AI. Mamy odrębny pogląd na tworzenie modeli sztucznej inteligencji — stawiamy ludzi w centrum, optymalizujemy dla tego, jak ludzie rzeczywiście komunikują się, trenujemy dla praktycznego zastosowania”).
To piękne słowa. Ale warto czytać je razem z faktami: Microsoft inwestuje już ponad 13 miliardów dolarów w OpenAI, hostuje modele OpenAI w swoich produktach, a jednocześnie buduje własne rozwiązania. To strategia dywersyfikacji na niespotykaną skalę.
Jeśli chodzi o chipy, podejście Microsoftu jest podobne. Producent własne rozwiązania, ale kupuje również od Nvidii i AMD. W świecie sztucznej inteligencji chce robić to samo: być wszędzie, kontrolować własny stack techniczny, nie zależeć od żadnego jednego gracza.
Co z tego wynika? Nie wiadomo. Ale jeden wniosek jest pewny: wyścig trwa, a pole bitwy rośnie.
