Naukowcy z MIT i Broad Institute opracowali framework oparty na sztucznej inteligencji, który zmienia sposób, w jaki badamy stany komórek. Zamiast analizować każdy pomiar osobno, system automatycznie rozróżnia, które informacje są wspólne dla różnych metod pomiarowych, a które są unikalne dla konkretnej techniki.
Brzmi technicznie? Bo jest. Ale konsekwencje mogą być ogromne – szczególnie w badaniach nad rakiem, chorobą Alzheimera czy cukrzycą.
Problem, który hamował biologów od lat
Wyobraźcie sobie, że próbujecie zrozumieć jeden obiekt, ale każde narzędzie, którym go mierzycie, pokazuje wam coś innego. Komórka jest właśnie takim obiektem. Można mierzyć ekspresję genów, morfologię chromatyny, aktywność białek – i każda z tych metod powie nam coś innego o tym samym stanie komórki.
Do tej pory naukowcy albo analizowali te dane osobno (wolno i nieefektywnie), albo łączyli je w jeden worek, tracąc informację o tym, skąd konkretna dana pochodzi. Istniejące modele machine learningowe traktowały wszystkie modalności jednakowo – co było uproszczeniem zbyt dużym, żeby było użyteczne.
Nowy system, opisany w „Nature Computational Science”, działa jak diagram Venna. Ma wspólną przestrzeń reprezentacji dla danych, które pokrywają się między modalności, oraz osobne przestrzenie dla danych unikalnych dla każdej z nich.
„When we study cells, one measurement is often not sufficient, so scientists develop new technologies to measure different aspects of cells. While we have many ways of looking at a cell, at the end of the day we only have one underlying cell state. By putting the information from all these measurement modalities together in a smarter way, we could have a fuller picture of the state of the cell” – mówi główna autorka pracy, Xinyi Zhang.
Co to oznacza w praktyce?
Kilka rzeczy naraz:
- Badacz wrzuca dane z komórek i od razu dostaje informację, które z nich są wspólne dla różnych metod pomiarowych, a które unikalne
- System pomaga zdecydować, którą modalność warto mierzyć, a którą można przewidzieć modelem
- W testach na rzeczywistych danych single-cell framework poprawnie rozróżnił aktywność genów mierzoną przez transkryptomikę i dostępność chromatyny
- Zidentyfikował też, która metoda najlepiej wykrywa marker uszkodzeń DNA w komórkach nowotworowych
To ostatnie ma bezpośrednie przełożenie kliniczne. Wiedząc, która technika „widzi” dany marker, lekarz-badacz może wybrać właściwe narzędzie diagnostyczne, zamiast robić wszystkie możliwe testy po kolei.
Głos redakcji
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Przyznam, że tego typu badania budzą we mnie mieszane uczucia – i mówię to z pełnym szacunkiem dla naukowców z MIT. Z jednej strony, pomysł jest elegancki i rozwiązuje realny problem, który faktycznie spowalniał biologów od lat. Automatyczne rozróżnianie informacji wspólnych od unikalnych w danych multimodalnych to krok, który może przyspieszyć wiele badań klinicznych.
Z drugiej strony, warto zadać pytanie: czy naprawdę jesteśmy gotowi przekazać tak kluczowe decyzje – które modalności mierzyć, które pomijać – systemowi, którego interpretacja nadal jest ograniczona? „Interpretable information” to dopiero cel na przyszłość, jak przyznają sami autorzy. Tymczasem w badaniach nad rakiem czy Alzheimerem pomyłka w wyborze metody pomiarowej może kosztować lata pracy.
Nie twierdzę, że to zły kierunek. Twierdzę, że pytanie „czy możemy ufać modelowi w doborze modalności?” powinno być zadawane głośno, zanim framework trafi do codziennej praktyki klinicznej.
Dwa kroki szkolenia i diagram Venna
Jednym z bardziej interesujących aspektów technicznym jest dwuetapowa procedura trenowania modelu. To właśnie ona pomaga systemowi radzić sobie ze złożonością decyzji o tym, co jest „wspólne”, a co „unikalne” – bo granica bywa nieoczywista.
Tradycyjne autoenkodery miały jeden model na każdą modalność, każdy uczył się własnej reprezentacji. Tutaj mamy hybrydę: część współdzielona i części specyficzne dla każdej modalności. Po trenowaniu model generalizuje – radzi sobie z danymi, których wcześniej nie widział.
Caroline Uhler, profesor MIT i seniorowa autorka pracy, ujmuje to wprost: „It is not sufficient to just integrate the information from all these modalities. We can learn a lot about the state of a cell if we carefully compare the different modalities to understand how different components of cells regulate each other.”
Co dalej?
Zespół planuje rozszerzać interpretowalność wyników i testować framework na szerszym zakresie pytań klinicznych. Finansowanie zapewniły między innymi NIH, AstraZeneca i MIT-IBM Watson AI Lab – co samo w sobie mówi coś o tym, kto widzi potencjał komercyjny w tym podejściu.
Praca ukazała się w „Nature Computational Science” 25 lutego 2026 roku.
