Anthropic nigdy nie opublikowało żadnego technicznego opracowania na temat Claude Mythosa. Nie przeszkodziło to jednak badaczom w próbach odtworzenia tego, co może kryć się pod maską jednego z najbardziej tajemniczych modeli w branży.
OpenMythos, czyli hipoteza zapisana w kodzie
Na GitHubie pojawił się projekt o nazwie OpenMythos, stworzony przez Kye Gomeza. To nie jest wyciek, nie jest to też fine-tune ani destylacja modelu Anthropica. To coś innego: rekonstrukcja architektury zbudowana od podstaw w PyTorchu, oparta wyłącznie na recenzowanych publikacjach naukowych i rozumowaniu przez analogię. Gomez stawia konkretną tezę i zapisuje ją w postaci działającego kodu. A falsyfikowalna hipoteza w świecie open source to już całkiem sporo.
Wpis ogłaszający projekt pojawił się na platformie X:
Introducing OpenMythos
An open-source, first-principles theoretical reconstruction of Claude Mythos, implemented in PyTorch.
The architecture instantiates a looped transformer with a Mixture-of-Experts (MoE) routing mechanism, enabling iterative depth via weight sharing and… pic.twitter.com/YLvCid6CAr
— Kye Gomez (swarms) (@KyeGomezB) April 19, 2026
Looped Transformer, czyli głębokość zamiast rozmiaru
Serce projektu to twierdzenie, że Claude Mythos należy do klasy architektur zwanych Recurrent-Depth Transformers (RDT), znanych też jako Looped Transformers. W standardowym transformerze, takim jak GPT, LLaMA czy Mistral, dane przechodzą przez kolejne, unikalne warstwy, z których każda ma własne wagi. Więcej możliwości to zwykle więcej warstw i więcej parametrów.
RDT działa inaczej. Zamiast stosu unikalnych warstw, ten sam zestaw wag jest stosowany iteracyjnie, wielokrotnie w ramach jednego forward pass. Głębokość rozumowania nie wynika z liczby przechowywanych parametrów, ale z liczby iteracji wykonywanych w czasie inferencji. Można to porównać do pisania szkicu, który się następnie wielokrotnie poprawia, zamiast przepisywania go za każdym razem od nowa przez inną osobę.
Struktura OpenMythos składa się z trzech bloków: Prelude, Recurrent Block i Coda. Pierwsze i ostatnie uruchamiane są dokładnie raz. Recurrent Block, czyli właściwy rdzeń obliczeniowy, jest zapętlany do T=16 razy. Na każdym kroku pętli stan ukryty jest aktualizowany, a zakodowane wejście z Prelude jest ponownie wstrzykiwane, aby zapobiec dryfowaniu reprezentacji w stosunku do oryginalnego sygnału wejściowego.
Komentarz redakcji
OpenMythos to projekt, który wypada śledzić z mieszaniną podziwu i sceptycyzmu. Z jednej strony to przykład tego, co open source potrafi najlepiej: społeczność nie czeka na łaskę Anthropica i sama próbuje odpowiedzieć na pytania, które korporacja celowo pozostawia bez odpowiedzi. To zdrowe. Falsyfikowalna hipoteza zapisana w kodzie jest wartościowsza niż tysiąc spekulacji na Twitterze. Z drugiej strony musimy być ostrożni w interpretacji. Nie wiemy, czy Claude Mythos faktycznie jest RDT. Projekt Gomeza to konstrukt teoretyczny, nie dowód. Istnieje realne ryzyko, że środowisko open source zbuduje całą narrację wokół architektury, która może nie mieć nic wspólnego z oryginałem. Otwarte pytanie brzmi: czy Anthropic kiedykolwiek ujawni szczegóły techniczne Mythosa i zweryfikuje lub obali takie rekonstrukcje? Przezroczystość w tej kwestii byłaby korzystna dla całej branży.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
MoE, Multi-Latent Attention i problem stabilności
Wewnątrz Recurrent Block standardowa warstwa feedforward zastąpiona jest przez Mixture-of-Experts (MoE) wzorowaną na projekcie DeepSeekMoE. Mechanizm działa na zasadzie dużej puli wyspecjalizowanych ekspertów, z których w danym momencie aktywowana jest tylko niewielka część, uzupełniona o stały zestaw „wspólnych ekspertów” absorbujących ogólne wzorce. Co istotne, router wybiera inny podzbiór ekspertów na każdym kroku pętli, więc mimo współdzielenia wag bazowych każda iteracja jest obliczeniowo odrębna.
Mechanizm uwagi oparty jest na Multi-Latent Attention z DeepSeek-V2, który zamiast pełnych tensorów kluczy i wartości cache’uje skompresowaną reprezentację o niskiej randze. Rezultat to 10-20-krotna redukcja zużycia pamięci KV przy wdrożeniu produkcyjnym.
Trenowanie modeli pętlowych historycznie bywało niestabilne. OpenMythos rozwiązuje problem eksplodującego stanu ukrytego, pożyczając z architektury Parcae ograniczenie LTI (Linear Time-Invariant), które gwarantuje stabilność niezależnie od warunków trenowania. Odwrotny problem, czyli „nadmierne myślenie” modelu po zbyt wielu iteracjach, adresuje mechanizm Adaptive Computation Time (ACT), który dynamicznie decyduje, kiedy dany token powinien przestać być przetwarzany.
770M parametrów dorównuje 1,3B
Kluczowa teza dotycząca efektywności pochodzi z pracy Parcae (Prairie et al., 2026). Autorzy pokazują empirycznie, że model RDT o 770 milionach parametrów dorównuje jakością standardowemu transformerowi o 1,3 miliarda parametrów, trenowanemu na tych samych danych. Innymi słowy, mniej więcej połowa parametrów przy porównywalnej skuteczności. Skalowanie odbywa się przez zwiększenie liczby iteracji w czasie inferencji, nie przez rozbudowę samego modelu.
Implikacje są poważne. Standardowe założenie branży, że liczy się przede wszystkim rozmiar modelu trenowanego na etapie pre-trainingu, może wymagać rewizji. Oś skalowania przesuwa się w kierunku głębokości rozumowania w czasie inferencji.
Co konkretnie dostarcza projekt
OpenMythos oferuje cztery rzeczy:
- w pełni konfigurowalną implementację PyTorch architektury RDT z MoE i Multi-Latent Attention,
- stabilne wstrzykiwanie rekurencyjne oparte na ograniczeniu LTI,
- depth-wise adaptery LoRA, które wprowadzają zróżnicowane zachowanie na każdym kroku pętli,
- reprodukowalny punkt startowy do badania dynamiki looped transformerów.
Czy Claude Mythos faktycznie jest RDT? Tego nie wiemy i prawdopodobnie jeszcze długo nie dowiemy się oficjalnie. Ale OpenMythos daje społeczności badawczej coś, czego dotąd nie było: konkretny, uruchamialny model hipotezy dla klasy architektur, która w literaturze jest wyraźnie niedoreprezentowana i która może wskazywać zupełnie inną drogę ku wydajnym systemom AI niż bezkrytyczne powiększanie modeli.
