Seria modeli o1/o3 od OpenAI wprowadza 'thinking before answering' — model poświęca czas na reasoning przed odpowiedzią. Wyniki w matematyce i kodowaniu są spektakularne.
Standardowe LLM generują każdy token auto-regresywnie, bez możliwości 'cofnięcia się'. Modele reasoning robią to inaczej: w ukrytym łańcuchu myśli (chain-of-thought) model planuje, sprawdza błędy i koryguje podejście zanim wypluje odpowiedź. OpenAI o3 osiąga 87.5% na ARC-AGI benchmark (vs.
25% GPT-4), wyniki olimpiadowe w matematyce i kodowaniu. Koszt: modele reasoning są 5-20x droższe w użyciu i wolniejsze. Kiedy warto? Gdy poprawność jest krytyczna (analiza prawna, medyczna, finansowa), gdy zadanie wymaga wieloetapowego planowania, gdy błąd jest kosztowny.
Kiedy nie warto? Proste klasyfikacje, generowanie treści marketingowych, chat. Deepseek R1 (open source) udowodnił, że reasoning nie musi być drogi — chińska firma opublikowała model dorównujący o1-preview za frakcję kosztów.