Masz za mało tokenów w Claude Code? Zanim kupisz droższy pakiet, przeczytaj to

Serwery Claude Code są coraz bardziej oblegane. Limity, szczególnie mocno odczuwalne w godzinach szczytu, potrafią urwać pracę w połowie zadania. Frustrujące? Bez wątpienia. Konieczne? Niekoniecznie.

W ciągu kilku dni trafiłem na dwa filmy o tym samym problemie. Jeden nagrał Jono Catliff (12 zasad oszczędzania kontekstu), drugi Eliot Prince (14 sposobów na limity użycia). Obejrzałem oba i wyciągnąłem to, co najważniejsze. Możliwe, że wcale nie musisz dopłacać.

Skąd bierze się problem? Dwa rodzaje limitów

Zanim przejdziemy do rozwiązań, warto zrozumieć, z czym właściwie walczymy. Są dwa osobne problemy i często myli się je ze sobą.

Okno kontekstowe to ilość informacji, którą Claude może przetworzyć w jednej rozmowie. Większość planów to 200 000 tokenów na czat. Każda wiadomość, każda odpowiedź, każdy plik i każde wywołanie narzędzia zjada kawałek tego budżetu. Kiedy kontekst się zapełnia, Claude zaczyna „zapominać” wcześniejsze części rozmowy i obniża jakość odpowiedzi.

Limit sesji to coś innego. To ograniczenie ilości pracy, jaką możesz wykonać w bloku 5 godzin. Anthropic niedawno zaktualizował te limity i dodatkowo obniżył efektywną przepustowość w godzinach szczytu (rano i wczesnym popołudniem). W skrócie: tokeny w godzinach szczytu „nie idą tak daleko” jak poza nimi.

Dobra wiadomość: obie przypadłości mają te same lekarstwa.

Zrozum, co zjada twój kontekst

Zanim cokolwiek zoptymalizujesz, musisz wiedzieć, co tak naprawdę pożera twoje tokeny. W Claude Code wpisz:

/context

To polecenie otwiera coś w rodzaju pulpitu zużycia i pokazuje dokładnie, które elementy (pamięć, pliki, narzędzia MCP, historia rozmowy) ile zajmują. Często okazuje się, że winowajca jest zupełnie inny, niż myślałeś.

Tier 1: Szybkie wygrane (bez żadnych kosztów)

1. Wybierz właściwy model do zadania

To jeden z najważniejszych, a jednocześnie najczęściej pomijanych dźwigni.

Opus to nie codzienny pracownik. To drogi specjalista, którego wzywasz do najtrudniejszych spraw. Przy wpisaniu samego „hej” Opus zużywa już 9% okna kontekstowego. Haiku przy tym samym zapytaniu? Niecałe 6%. Różnica przez cały projekt robi się ogromna.

Praktyczna zasada:

Haiku: proste pytania, formatowanie, krótkie podsumowania
Sonnet: codzienna praca, kod, analizy
Opus: planowanie architektury, złożone debugowanie, najtrudniejsze problemy

Uwaga na drugą stronę medalu: Haiku nie zawsze jest tańszy w sensie efektywnym. Jeśli do przeanalizowania dużego pliku potrzebuje pięciu podejść tam i z powrotem, a Sonnet poradzi sobie w jednym, bilans może być odwrotny. Eliot Prince porównuje to do przewożenia ludzi w godzinach szczytu. Jeden duży pociąg jest często tańszy niż tuzin motorowerów.

2. Posprzątaj CLAUDE.md

Ten plik ładuje się przy każdym zapytaniu. Każde zbędne zdanie to tokeny, które płacisz wielokrotnie przez cały projekt.

Jono Catliff pokazał to bezpośrednio: CLAUDE.md z 910 liniami zużywał 45% okna kontekstowego już przy pierwszym zapytaniu. Plik z 33 liniami: 41%. Różnica 4% przy każdej wiadomości, przez cały projekt, przy każdym nowym czacie. Rachunki szybko rosną.

Cel: trzymaj CLAUDE.md poniżej 500 słów. Zostawiaj tylko to, czego Claude naprawdę potrzebuje za każdym razem. Resztę przenoś do osobnych plików-referencji i ładuj na żądanie.

Dodaj też do CLAUDE.md jedną ważną instrukcję:

„Gdy kontekst przekroczy 50%, zasugeruj rozpoczęcie nowej rozmowy lub użycie subagentów dla niezależnych zadań.”

Niech Claude sam aktywnie pilnuje własnego zużycia.

3. Referencje zamiast wklejania

To jeden z prostszych tricków, a oszczędności są konkretne.

Masz transkrypt o 30 000 linii? Jeśli wkleisz go bezpośrednio do czatu, zżera 71% okna kontekstowego. Jeśli zapiszesz go jako plik i poprosisz Claude, żeby go wczytał przez referencję: 38%. Niemal o połowę mniej, za darmo.

Ten sam mechanizm działa przy wszelkich dużych dokumentach. Zamiast wklejać treść, wskazuj plik. Markdown zamiast PDF czy DOCX. Claude trawi tekst szybciej i taniej. Można to nazwać jego „językiem miłości” 😅.

4. Wyłącz nieużywane narzędzia MCP

Każdy aktywny konektor MCP (Slack, Airtable, inne integracje) zajmuje miejsce w kontekście, nawet jeśli w danej sesji w ogóle go nie używasz. Trzy serwery MCP to już odczuwalny overhead przy każdym zapytaniu. Przy 20-30 konektorach sytuacja potrafi być poważna.

Gdzie to sprawdzić? W Claude Code wpisz /claude mcp list, żeby zobaczyć wszystkie aktywne połączenia. Niepotrzebne usuń przez claude.ai/settings/connectors.

Tier 2: Praca mądrzej, nie głębiej

5. Buduj skills zamiast upychać wszystko w CLAUDE.md

Skills to osobne pliki z instrukcjami dla konkretnych zadań. Zamiast ładować cały kontekst przy każdym zapytaniu, Claude ładuje tylko opis danego skill’a (kilka zdań), a pełną treść czyta dopiero wtedy, gdy faktycznie jest mu potrzebna.

Przykład: masz skill do tworzenia postów na LinkedIn i osobny do odpowiadania na maile. Podczas pracy nad postem Claude nie musi wiedzieć nic o mailach. I nie wie, dopóki nie zawołasz tego drugiego.

Wynik z praktyki: skill z pełną zawartością 457 linii ładowany tylko przez opis zajmował 25% kontekstu. Te same dane wbite na stałe do CLAUDE.md: 31% przy każdej wiadomości.

6. Referencje do plików zamiast pliki wklejone w pliki

Podobna zasada działa wewnątrz samych skills. Masz kilka plików referencyjnych (ton komunikacji, banned phrases, szablony)? Nie wbijaj ich do każdego skill’a na sztywno. Wskazuj je jako referencje do wczytania na żądanie.

Przykład ze skrzeczącą rzeczywistością: skill z wbudowanymi 3 plikami referencyjnymi kontra skill z samymi wskazówkami „sprawdź ten plik, jeśli potrzebujesz” to różnica między 31% a 25% kontekstu przy każdym wywołaniu.

7. Utrzymuj pamięć Claude’a w porządku

Claude Code może przechowywać wspomnienia o tobie i twoich projektach między sesjami. Brzmi świetnie, ale te wpisy też zajmują kontekst.

Sprawdź, co tam siedzi:

„Please check all my memories that you have about me in Claude Code.”

Może się okazać, że Claude pamięta projekt z dema sprzed kilku miesięcy, który dawno stracił znaczenie. Usuń to, co niepotrzebne.

Tier 3: Kiedy kontekst eksploduje mimo wszystko

8. Używaj /compact zamiast zaczynać od nowa

Gdy kontekst dojdzie do 90-100%, masz dwie opcje. Nowy czat (tracisz cały kontekst) albo /compact (Claude sam streszcza historię do krótkiego podsumowania i możesz działać dalej, zachowując najważniejsze wątki).

Możesz też podpowiedzieć, co ma zachować:

/compact Zachowaj informacje o strukturze bazy danych i ostatnich decyzjach architektonicznych.

9. Użyj subagentów przy dużych zadaniach

Przy bardzo rozbudowanych zadaniach zamiast jednego wątku, który szybko się przepełnia, poproś Claude o spawanie subagentów. Każdy dostaje 1/3 zadania i własne okno kontekstowe.

Przykład: „Przetworz ten folder z plikami. Użyj subagentów: jeden do ekstrakcji pytań, drugi do action items, trzeci do decyzji.”

Każdy subagent działa niezależnie, żaden nie jest przeciążony.

Tier 4: Triki z limitami sesji

10. Pracuj poza godzinami szczytu

W godzinach szczytu (dla Polski to mniej więcej 14:00-20:00, bo pokrywa się z peak hours GMT) każdy token „jest droższy” efektywnie. Ciężkie zadania zaplanuj na rano lub późny wieczór. Nie zawsze da radę, ale jeśli masz zaplanowane automatyczne przetwarzanie, to już jest sens.

11. Trick z resetem sesji

Twoje 5-godzinne okno sesji nie startuje, gdy się logujesz. Startuje, gdy wyślesz pierwszą wiadomość.

Możesz to wykorzystać: wyślij banalną wiadomość kilka godzin przed właściwą pracą (np. „Dzień dobry, zaraz zaczniemy.”). Okno ruszy, a ty wróć do pracy, gdy masz ok. godziny do jego zamknięcia. Efektywnie możesz uzyskać dwa pełne bloki robocze z jednego dnia.

Czego unikać

Kilka pułapek, w które łatwo wpaść:

Zbyt długie custom instructions. Tysiąc słów instrukcji to tysiąc słów czytanych przy każdej wiadomości. Cięcie do 300-500 słów boli raz, ale procentuje przez cały projekt.

Zostawianie śmieciowych plików w projektach. Claude może przypadkowo zacząć je analizować nawet jeśli nie prosisz. Raz na jakiś czas wysprzątaj projekt z plików, których już nie używasz.

Używanie Opusa do wszystkiego. Kuszące, bo wyniki są świetne. Ale 5x droższy model przy pytaniach, z którymi poradzi sobie Sonnet, to przepalanie budżetu bez powodu.

Rozmawianie o różnych tematach w jednym oknie czatu. Każdy nowy temat dokłada kontekst niezwiązany z aktualnym zadaniem. Nowe zadanie, nowy czat.

Szybka checklista

Zanim otworzysz nową sesję:

Jaki model pasuje do tego zadania?
Czy CLAUDE.md jest krótsza niż 500 słów?
Czy pliki mam jako referencje, nie wklejone treści?
Czy wyłączyłem nieużywane MCP?
Czy pamięć Claude’a nie jest zapełniona starymi projektami?

W trakcie sesji:

Wpisuję /context gdy coś idzie wolno
Używam /compact zamiast restartować czat
Dla dużych zadań proszę o subagentów

Podsumowanie

Żadna z tych metod nie kosztuje ani grosza. Razem potrafią zmniejszyć zużycie kontekstu o ponad 50% i praktycznie wyeliminować problem dobijania do limitów przy codziennej pracy.

Prawdziwy bottleneck rzadko leży w wielkości planu. Częściej siedzi w nawykach: zbyt długim CLAUDE.md, wklejaniu zamiast referencji, zostawionym Opusie tam, gdzie wystarczyłby Sonnet.

Zanim dopłacisz, sprawdź, ile tokenów marnujesz.

Jeśli chcesz zobaczyć te techniki na żywo, oba filmy znajdziesz na YouTube:
How I Save Over 50% Claude Code Context, Jono Catliff
Why Claude Keeps Hitting Usage Limits, Eliot Prince

Zdecydowanie warto obejrzeć.