Wyobraź sobie rozmowę z asystentem AI, który nie czeka, aż skończyłeś mówić. Który reaguje w locie, przerwie ci, jeśli powiedziałeś coś błędnego, i jednocześnie przeszukuje sieć, zanim jeszcze zdążyłeś dokończyć pytanie. Dokładnie taki model zapowiedziało właśnie Thinking Machines Lab, startup założony przez Mirę Murati, byłą dyrektorkę techniczną OpenAI.
Kluczowe fakty:
- Thinking Machines Lab, startup założony przez Mirę Murati (byłą dyrektor techniczną OpenAI), zapowiedział model TML-Interaction-Small o czasie reakcji 0,40 sekundy – szybszy od modeli OpenAI (1,18 s) i Google (0,57 s).
- Model wykorzystuje technologię "full duplex", działając w 200-milisekundowych odcinkach zwanych "micro-turns", co pozwala mu jednocześnie słuchać i mówić bez czekania na zakończenie wypowiedzi użytkownika.
- System składa się z 276 miliardów parametrów w architekturze MoE z 12 miliardami aktywnych parametrów, a jego szersze udostępnienie planowane jest na koniec 2026 roku.
Koniec z kolejkowaniem wypowiedzi
Dotychczas każdy model AI działał według tej samej logiki: ty mówisz, on słucha, on odpowiada, ty słuchasz. Prosta, przewidywalna kolejka. Thinking Machines chce to rozbić i zastąpić czymś, co firma nazywa „interaction models”, czyli modelem interakcji.
Chodzi o rozwiązanie techniczne znane jako „full duplex”, czyli komunikacja dwukierunkowa w czasie rzeczywistym, tak jak ma to miejsce podczas rozmowy telefonicznej. Model przetwarza to, co mówisz, i jednocześnie generuje odpowiedź. Nie czeka. Nie zamiera. Działa.
Firma ogłosiła swój model o nazwie TML-Interaction-Small i chwali się imponującymi wynikami: czas reakcji wynosi 0,40 sekundy, czyli mniej więcej tyle, ile zajmuje naturalna odpowiedź w rozmowie między ludźmi. Dla porównania, najszybsze modele OpenAI i Google w tym samym teście osiągają odpowiednio 1,18 s i 0,57 s.
Co ten model potrafi?
Lista deklarowanych możliwości robi wrażenie:
- Płynne zarządzanie dialogiem bez żadnego osobnego komponentu do wykrywania, kiedy skończyłeś mówić
- Przerywanie w odpowiednim momencie, np. gdy powiesz coś błędnego podczas pisania kodu
- Jednoczesne mówienie i słuchanie, co otwiera np. możliwość tłumaczenia na żywo z języka obcego
- Reagowanie na obrazy w czasie rzeczywistym, czyli model „widzi” co się dzieje i komentuje bez pytania
- Wyszukiwanie w sieci równolegle z rozmową i wplatanie wyników w bieżącą rozmowę
W praktyce oznacza to, że zamiast wydawać polecenia i czekać, można po prostu rozmawiać, tak jak z człowiekiem po drugiej stronie ekranu.
Technologia, która żyje w czasie rzeczywistym
Kluczowym elementem jest architektura oparta na tzw. „micro-turns”, czyli 200-milisekundowych odcinkach, w których model jednocześnie przetwarza wejście i generuje wyjście. Nie ma sztucznych granic między turami. Model wie, kiedy milczysz, kiedy się wahasz, kiedy mówisz do kogoś innego, nie do niego.
To zasadnicza różnica wobec istniejących rozwiązań, które do obsługi dialogu używają zewnętrznych komponentów, tzw. „harness”, czyli dodatkowego oprogramowania doklejonego do modelu w celu emulowania prawdziwej rozmowy. Thinking Machines twierdzi, że te systemy z góry skazane są na ograniczenia, bo nigdy nie będą tak inteligentne jak sam model.
W firmowym wpisie badawczym Thinking Machines Lab podsumowało to jasno:
„For interactivity to scale with intelligence, it must be part of the model itself. With this approach, scaling a model makes it smarter and a better collaborator.” / „Żeby interaktywność mogła rosnąć razem z inteligencją, musi być częścią samego modelu. Przy takim podejściu, skalowanie modelu sprawia, że staje się on mądrzejszy i lepszym współpracownikiem.”
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
To, co zapowiada Thinking Machines Lab, brzmi jak zmiana, na którą wielu z nas czekało. Modele AI coraz lepiej odpowiadają, ale rzadko kiedy naprawdę „rozmawiają”. Jeśli pełna dwukierunkowość rzeczywiście działa tak jak w zapowiedziach, to może to być krok w stronę bardziej naturalnej, mniej frustrującej współpracy z AI. Ale mam też pytania. Jak zachowa się taki model w środowiskach o słabszym połączeniu internetowym? Sam Thinking Machines przyznaje, że przy niestabilnej sieci doświadczenie znacząco się pogarsza. A co z bezpieczeństwem? Rozmowy w czasie rzeczywistym, wielogodzinne sesje, automatyczne reakcje na obraz i dźwięk, to zupełnie nowy obszar ryzyka, który sam startup dopiero zaczyna eksplorować. Wyniki benchmarków są obiecujące. Ale benchmark to nie jest codzienna praca.
Model, który przyszedł z nowego miejsca
Warto przypomnieć kontekst. Mira Murati opuściła OpenAI we wrześniu 2024 roku i niemal natychmiast zabrała się za budowę własnego laboratorium. Thinking Machines Lab zebrało ogromne środki na start, a temat „jak rozmawiać z AI” wybrała jako swój główny obszar badań.
To nieprzypadkowe. Murati spędziła lata na obserwowaniu, jak modele językowe stają się coraz bardziej inteligentne, ale interfejsy pozostają w tyle. Obecne systemy, jak sama firma przyznaje, wypychają człowieka z procesu, bo nie ma w nim miejsca na bieżące poprawki, na zmianę zdania w połowie zdania, na żywą, dynamiczną wymianę.
W firmowym wpisie badawczym pada zresztą ciekawe porównanie: wyobraź sobie, że musisz rozwiązać ważny spór przez e-mail, zamiast powiedzieć to twarzą w twarz. Właśnie tak działają dziś modele AI.
Na razie to badanie, nie produkt
Thinking Machines nie wypuszcza jeszcze modelu do powszechnego użytku. Firma planuje „ograniczony research preview” w ciągu najbliższych kilku miesięcy, a szersze udostępnienie zapowiadane jest na koniec 2026 roku.
Sam model, TML-Interaction-Small, to 276 miliardów parametrów w architekturze MoE (Mixture of Experts) z 12 miliardami aktywnych parametrów przy danym zapytaniu. Firma pracuje już nad większymi wersjami, ale przyznaje, że są na razie zbyt wolne, by spełniać wymogi działania w czasie rzeczywistym.
Benchmarki wyglądają zachęcająco. Pytanie, czy realne doświadczenie będzie nadążać za obietnicami, pozostaje otwarte do czasu, gdy faktycznie będzie można to sprawdzić.
