Google DeepMind opublikowało wczoraj materiał opisujący projekt AI Pointer, czyli koncepcję głębokiej przebudowy kursora myszy. Zwykły wskaźnik na ekranie ma stać się kontekstowym asystentem AI, zasilanym przez model Gemini, który rozumie nie tylko gdzie wskazuje użytkownik, ale przede wszystkim co i dlaczego.
Kluczowe fakty:
- Google DeepMind opracowało AI Pointer – koncepcję przebudowy kursora myszy w kontekstowego asystenta AI zasilanego przez model Gemini. System ma rozumieć nie tylko gdzie wskazuje użytkownik, ale także co i dlaczego.
- Zasady AI Pointer są już wdrażane w przeglądarce Chrome i nowym laptopie Googlebook, gdzie użytkownicy mogą wskazać fragment strony i zapytać Gemini o konkretny element. Eksperymenty w wersji demo są dostępne w Google AI Studio.
- Technologia opiera się na czterech filarach: zachowaniu rytmu pracy bez przełączania okien, automatycznym przechwytywaniu kontekstu wizualnego, rozumieniu naturalnych skrótów językowych oraz zamianie pikseli w interaktywne obiekty.
Kursor, który nie ewoluował od dekad
Przez ponad pół wieku kursor na ekranie komputera pełnił jedno zadanie: wskazywał pozycję. Niezależnie od tego, czy byliśmy w 1984 roku, czy w 2024, logika była ta sama. Klikasz, wskazujesz, przesuwasz.
Google DeepMind twierdzi, że to już za mało.
Projekt AI Pointer wychodzi z prostej obserwacji: większość dzisiejszych narzędzi AI żyje w swoim własnym oknie. Użytkownik musi przerywać pracę, wychodzić z kontekstu, kopiować treści, wklejać do chatbota, czekać na odpowiedź, wracać. DeepMind nazywa to wprost „AI detours”, czyli zbędnymi wycieczkami do AI w trakcie pracy.
Ich odpowiedź na ten problem jest elegancka: zamiast ciągnąć użytkownika do AI, niech AI przyjdzie do użytkownika, tam gdzie właśnie pracuje.
Cztery zasady nowego interfejsu
Badacze z DeepMind opisali cztery filary, na których opiera się AI Pointer:
- Maintain the flow („Zachowaj rytm pracy”) – asystent AI ma być dostępny we wszystkich aplikacjach jednocześnie, bez konieczności przełączania okien. Wskazujesz PDF, prosisz o wypunktowane streszczenie, wklejasz je wprost do maila.
- Show and tell („Pokaż i powiedz”) – kursor automatycznie przechwytuje kontekst wizualny i semantyczny wokół wskaźnika. System „widzi” co jest pod kursorem, bez potrzeby ręcznego opisywania tego w prompcie.
- Embrace the power of „This” and „That” („Wykorzystaj moc wskazywania”) – w codziennych rozmowach ludzie mówią skrótami: „przenieś to tutaj”, „co to znaczy?”, „napraw tamto”. AI Pointer ma rozumieć tę naturalną skrótowość w połączeniu z gestem wskazywania.
- Turn pixels into actionable entities („Zamień piksele w obiekty”) – zdjęcie notatki na kartce staje się interaktywną listą zadań; zatrzymana klatka z vlogiem podróżniczego staje się linkiem do rezerwacji restauracji z tego ujęcia.
Wideo demonstracyjne
Kiedy to trafi do realnych produktów?
I tutaj zaczyna się ciekawa część. Google nie mówi o odległej przyszłości.
Firma ogłosiła, że zasady AI Pointer są już wdrażane w przeglądarce Chrome oraz w nowym laptopie Googlebook. W Chrome użytkownicy mogą już teraz wskazać kursorem fragment strony i zapytać Gemini o ten konkretny element. W Googlebooku pojawi się wkrótce funkcja Magic Pointer. Eksperymenty w wersji demo są dostępne w Google AI Studio już teraz.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: To jeden z tych pomysłów, które brzmią oczywistością dopiero po tym, jak ktoś je pokaże. Oczywiście, że kursor powinien rozumieć kontekst. Oczywiście, że AI nie powinna wymagać od nas przerywania pracy i otwierania nowego okna. Z drugiej strony mam jedno pytanie, które zawsze zadaję przy tego rodzaju „seamless integration”: kto decyduje o tym, co system uznaje za kontekst? Jeśli kursor stale „widzi” ekran i rozumie jego zawartość, to pojawia się kwestia prywatności danych, które nigdy nie trafiły do żadnego okna wyszukiwania, a mimo to były przetwarzane. To nie jest powód, żeby odrzucić tę technologię, bo jej potencjał jest naprawdę duży. Ale to jest dokładnie ten moment, kiedy warto zadać te pytania, zanim technologia wejdzie do masowego użytku.
Pointer jako kierunek, nie tylko produkt
Warto zauważyć, że DeepMind nie prezentuje tu gotowego produktu. Prezentuje zasady projektowania interfejsów AI na kolejne lata. I to jest może ważniejszy sygnał niż sam kursor.
Branża od miesięcy szuka odpowiedzi na fundamentalne pytanie: jak AI ma wchodzić w interakcję z człowiekiem przy komputerze, żeby było to naturalne, a nie frustrujące? Asystenci tekstowi okazali się użyteczni, ale wymagają nauki promptowania. Agenty wykonujące autonomiczne zadania budzą wątpliwości co do kontroli. AI Pointer proponuje coś pomiędzy: człowiek prowadzi, AI rozumie i reaguje.
Pełne dema eksperymentalne dostępne są pod adresem Google AI Studio, gdzie można samodzielnie przetestować możliwości wskaźnika przy edycji obrazów i wyszukiwaniu miejsc na mapie.
Czy to rzeczywiście przyszłość interakcji człowiek-komputer? Na odpowiedź poczekamy, aż te funkcje wyjdą poza laboratorium.
