OpenMythos: społeczność AI próbuje rozgryźć architekturę Claude'a Mythosa od zera

0:00

Anthropic nigdy nie opublikowało żadnego technicznego opracowania na temat Claude Mythosa. Nie przeszkodziło to jednak badaczom w próbach odtworzenia tego, co może kryć się pod maską jednego z najbardziej tajemniczych modeli w branży.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

OpenMythos, czyli hipoteza zapisana w kodzie

Na GitHubie pojawił się projekt o nazwie OpenMythos, stworzony przez Kye Gomeza. To nie jest wyciek, nie jest to też fine-tune ani destylacja modelu Anthropica. To coś innego: rekonstrukcja architektury zbudowana od podstaw w PyTorchu, oparta wyłącznie na recenzowanych publikacjach naukowych i rozumowaniu przez analogię. Gomez stawia konkretną tezę i zapisuje ją w postaci działającego kodu. A falsyfikowalna hipoteza w świecie open source to już całkiem sporo.

Wpis ogłaszający projekt pojawił się na platformie X:

Introducing OpenMythos

An open-source, first-principles theoretical reconstruction of Claude Mythos, implemented in PyTorch.

The architecture instantiates a looped transformer with a Mixture-of-Experts (MoE) routing mechanism, enabling iterative depth via weight sharing and… pic.twitter.com/YLvCid6CAr

— Kye Gomez (swarms) (@KyeGomezB) April 19, 2026

Looped Transformer, czyli głębokość zamiast rozmiaru

Serce projektu to twierdzenie, że Claude Mythos należy do klasy architektur zwanych Recurrent-Depth Transformers (RDT), znanych też jako Looped Transformers. W standardowym transformerze, takim jak GPT, LLaMA czy Mistral, dane przechodzą przez kolejne, unikalne warstwy, z których każda ma własne wagi. Więcej możliwości to zwykle więcej warstw i więcej parametrów.

RDT działa inaczej. Zamiast stosu unikalnych warstw, ten sam zestaw wag jest stosowany iteracyjnie, wielokrotnie w ramach jednego forward pass. Głębokość rozumowania nie wynika z liczby przechowywanych parametrów, ale z liczby iteracji wykonywanych w czasie inferencji. Można to porównać do pisania szkicu, który się następnie wielokrotnie poprawia, zamiast przepisywania go za każdym razem od nowa przez inną osobę.

Struktura OpenMythos składa się z trzech bloków: Prelude, Recurrent Block i Coda. Pierwsze i ostatnie uruchamiane są dokładnie raz. Recurrent Block, czyli właściwy rdzeń obliczeniowy, jest zapętlany do T=16 razy. Na każdym kroku pętli stan ukryty jest aktualizowany, a zakodowane wejście z Prelude jest ponownie wstrzykiwane, aby zapobiec dryfowaniu reprezentacji w stosunku do oryginalnego sygnału wejściowego.

Komentarz redakcji

OpenMythos to projekt, który wypada śledzić z mieszaniną podziwu i sceptycyzmu. Z jednej strony to przykład tego, co open source potrafi najlepiej: społeczność nie czeka na łaskę Anthropica i sama próbuje odpowiedzieć na pytania, które korporacja celowo pozostawia bez odpowiedzi. To zdrowe. Falsyfikowalna hipoteza zapisana w kodzie jest wartościowsza niż tysiąc spekulacji na Twitterze. Z drugiej strony musimy być ostrożni w interpretacji. Nie wiemy, czy Claude Mythos faktycznie jest RDT. Projekt Gomeza to konstrukt teoretyczny, nie dowód. Istnieje realne ryzyko, że środowisko open source zbuduje całą narrację wokół architektury, która może nie mieć nic wspólnego z oryginałem. Otwarte pytanie brzmi: czy Anthropic kiedykolwiek ujawni szczegóły techniczne Mythosa i zweryfikuje lub obali takie rekonstrukcje? Przezroczystość w tej kwestii byłaby korzystna dla całej branży.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

MoE, Multi-Latent Attention i problem stabilności

Wewnątrz Recurrent Block standardowa warstwa feedforward zastąpiona jest przez Mixture-of-Experts (MoE) wzorowaną na projekcie DeepSeekMoE. Mechanizm działa na zasadzie dużej puli wyspecjalizowanych ekspertów, z których w danym momencie aktywowana jest tylko niewielka część, uzupełniona o stały zestaw „wspólnych ekspertów” absorbujących ogólne wzorce. Co istotne, router wybiera inny podzbiór ekspertów na każdym kroku pętli, więc mimo współdzielenia wag bazowych każda iteracja jest obliczeniowo odrębna.

Mechanizm uwagi oparty jest na Multi-Latent Attention z DeepSeek-V2, który zamiast pełnych tensorów kluczy i wartości cache’uje skompresowaną reprezentację o niskiej randze. Rezultat to 10-20-krotna redukcja zużycia pamięci KV przy wdrożeniu produkcyjnym.

Trenowanie modeli pętlowych historycznie bywało niestabilne. OpenMythos rozwiązuje problem eksplodującego stanu ukrytego, pożyczając z architektury Parcae ograniczenie LTI (Linear Time-Invariant), które gwarantuje stabilność niezależnie od warunków trenowania. Odwrotny problem, czyli „nadmierne myślenie” modelu po zbyt wielu iteracjach, adresuje mechanizm Adaptive Computation Time (ACT), który dynamicznie decyduje, kiedy dany token powinien przestać być przetwarzany.

770M parametrów dorównuje 1,3B

Kluczowa teza dotycząca efektywności pochodzi z pracy Parcae (Prairie et al., 2026). Autorzy pokazują empirycznie, że model RDT o 770 milionach parametrów dorównuje jakością standardowemu transformerowi o 1,3 miliarda parametrów, trenowanemu na tych samych danych. Innymi słowy, mniej więcej połowa parametrów przy porównywalnej skuteczności. Skalowanie odbywa się przez zwiększenie liczby iteracji w czasie inferencji, nie przez rozbudowę samego modelu.

Implikacje są poważne. Standardowe założenie branży, że liczy się przede wszystkim rozmiar modelu trenowanego na etapie pre-trainingu, może wymagać rewizji. Oś skalowania przesuwa się w kierunku głębokości rozumowania w czasie inferencji.

Co konkretnie dostarcza projekt

OpenMythos oferuje cztery rzeczy:

w pełni konfigurowalną implementację PyTorch architektury RDT z MoE i Multi-Latent Attention,
stabilne wstrzykiwanie rekurencyjne oparte na ograniczeniu LTI,
depth-wise adaptery LoRA, które wprowadzają zróżnicowane zachowanie na każdym kroku pętli,
reprodukowalny punkt startowy do badania dynamiki looped transformerów.

Czy Claude Mythos faktycznie jest RDT? Tego nie wiemy i prawdopodobnie jeszcze długo nie dowiemy się oficjalnie. Ale OpenMythos daje społeczności badawczej coś, czego dotąd nie było: konkretny, uruchamialny model hipotezy dla klasy architektur, która w literaturze jest wyraźnie niedoreprezentowana i która może wskazywać zupełnie inną drogę ku wydajnym systemom AI niż bezkrytyczne powiększanie modeli.

Oceń artykuł

Średnia: 4.9 (14 ocen)

OpenMythos: społeczność AI próbuje rozgryźć architekturę Claude’a Mythosa od zera

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

LeCun kontra Amodei: „Dario nie wie absolutnie nic o rynku pracy”

Centra danych zasilane falami oceanu. Czy Panthalassa rozwiąże energetyczny problem AI?

Siemens grozi ominięciem Europy przy inwestycjach w AI. Regulacje blokują miliardowe plany

LeCun kontra Amodei: „Dario nie wie absolutnie nic o rynku pracy”

Centra danych zasilane falami oceanu. Czy Panthalassa rozwiąże energetyczny problem AI?

Siemens grozi ominięciem Europy przy inwestycjach w AI. Regulacje blokują miliardowe plany

AI radzi osobom z autyzmem unikać ludzi. Nowe badanie ujawnia stereotypy w modelach językowych

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

LeCun kontra Amodei: „Dario nie wie absolutnie nic o rynku pracy”

Centra danych zasilane falami oceanu. Czy Panthalassa rozwiąże energetyczny problem AI?

Siemens grozi ominięciem Europy przy inwestycjach w AI. Regulacje blokują miliardowe plany

AI radzi osobom z autyzmem unikać ludzi. Nowe badanie ujawnia stereotypy w modelach językowych

AIport.pl - o nas

OpenMythos: społeczność AI próbuje rozgryźć architekturę Claude’a Mythosa od zera

OpenMythos, czyli hipoteza zapisana w kodzie

Looped Transformer, czyli głębokość zamiast rozmiaru

Komentarz redakcji

MoE, Multi-Latent Attention i problem stabilności

770M parametrów dorównuje 1,3B

Co konkretnie dostarcza projekt

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas