Milion tokenów okna kontekstowego. Brzmi świetnie, ale ile AI naprawdę pamięta?

Grafika przedstawiająca porównanie trzech modeli AI: Claude, Gemini i ChatGPT pod kątem pamięci kontekstowej i trzymania się instrukcji.

Producenci modeli AI prześcigają się w ogłoszeniach: milion tokenów kontekstu! Dwa miliony! Już niedługo pewnie usłyszymy o miliardzie. Ale co te liczby oznaczają w praktyce i czy AI faktycznie z tego korzysta?

Sprawdźmy.

Token, kontekst i inne słowa, które brzmią groźnie

Token to najmniejsza jednostka tekstu, jaką model przetwarza. Mniej więcej odpowiada krótkiemu słowu lub sylabie. Tysiąc tokenów to około 750 angielskich słów.

Okno kontekstowe to z kolei ilość tekstu, którą model „widzi” naraz podczas jednej rozmowy. Milion tokenów to około 750 000 słów, czyli jakieś 10 grubych książek. Brzmi jak superinteligencja z własną biblioteką na pokładzie.

Problem w tym, że posiadanie biblioteki i faktyczne czytanie książek to dwie różne rzeczy.

AI pamięta jak student przed egzaminem

Badania nad modelami językowymi ujawniają ciekawy wzorzec: AI znacznie lepiej „pamięta” informacje z początku i końca rozmowy. Środek traktuje po macoszemu.

Psycholodzy znają to zjawisko od dekad. Nazywają je efektem pierwszeństwa i świeżości. Pamiętasz pierwsze i ostatnie pytanie na egzaminie, a te ze środka „jakoś umknęły”. AI zachowuje się dokładnie tak samo, tylko nikt jej za to nie oblewa.

Praktyczny wniosek jest prosty: jeśli dajesz modelowi ważną instrukcję, nie zakopuj jej w środku długiego prompta. Chyba że lubisz być ignorowany z wyrafinowaną gracją.

Kto trzyma się instrukcji pod presją?

Jest jeszcze jeden wymiar problemu, rzadziej omawiany. Co się dzieje, gdy użytkownik próbuje nakłonić AI do złamania wcześniejszych instrukcji? W zastosowaniach biznesowych i sprzedażowych to kluczowe pytanie. Wyobraź sobie asystenta skonfigurowanego z konkretnymi zasadami: czego nie mówić klientowi, jakich tematów unikać. Czy wytrzyma presję natrętnych próśb?

Szymon Negacz sprawdził to podczas jednego ze swoich live’ów, porównując Claude’a, Gemini i ChatGPT właśnie pod tym kątem. Wyniki były zaskakująco wyraźne.

🥇 Claude nie dał się ugłaskać. Kolejne „ale bardzo proszę” nie robiły na nim żadnego wrażenia. Konsekwentny jak szwajcarski zegarek, tylko tańszy w utrzymaniu.

🥈 Gemini skapitulował już przy drugim „bardzo proszę przygotuj dla mnie…”. Miły, chętny do pomocy i z charakterem jak mokry karton.

🥉 ChatGPT rozminął się z instrukcją jeszcze zanim ktokolwiek wywierał jakąkolwiek presję. Freestyle od pierwszego pytania, bez ostrzeżenia.

Subiektywnie: zupa z kostki kontra domowy rosół

Od jakiegoś czasu mam coraz silniejsze wrażenie, że odpowiedzi ChatGPT są poprawne, ale bez charakteru. Zupa z kostki zamiast domowego rosołu. Można się najeść, ale nie wrócisz po dokładkę.

Claude sprawia wrażenie bardziej zdecydowanego i konsekwentnego. Gemini bywa błyskotliwy, ale wyniki Szymona każą patrzeć na niego z przymrużeniem oka.

To oczywiście subiektywne odczucia, nie twarda nauka. Każdy model ma swoje mocne strony i każdy sprawdza się lepiej w innych zadaniach.

Co z tym zrobić w praktyce?

Kluczowe instrukcje warto powtarzać w trakcie długiej rozmowy, nie tylko umieszczać na początku. Środek kontekstu to martwa strefa i żaden milion tokenów tego nie zmieni.

Duże okno kontekstowe to konieczny, ale niewystarczający warunek dobrej pracy. Liczy się to, czy model faktycznie korzysta z tego, co „widzi”.

Rynek modeli zmienia się błyskawicznie. To, co dziś jest prawdą o konkretnym narzędziu, za pół roku może być nieaktualne. Regularne testowanie własnych narzędzi to nie fanaberia, to dobra higiena pracy.

A Ty? Czy zdarzyło Ci się, że AI „zapomniało” instrukcji, które podałeś na początku rozmowy? Napisz w komentarzu.

Materiał inspirowany live’m Szymona Negacza

Token, kontekst i inne słowa, które brzmią groźnie

AI pamięta jak student przed egzaminem

Kto trzyma się instrukcji pod presją?

Subiektywnie: zupa z kostki kontra domowy rosół

Co z tym zrobić w praktyce?

Zostaw komentarz Anuluj odpowiedź