Nowe modele GPT-4.1 AI firmy OpenAI skupiają się na kodowaniu

OpenAI wprowadza nową rodzinę modeli GPT-4.1 OpenAI ogłosiło w poniedziałek premierę nowej serii modeli o nazwie GPT-4.1. Tak, dokładnie "4.1" — jakby dotychczasowa nomenklatura firmy nie była już wystarczająco zagmatwana. Trzy wersje modeli W skład nowej rodziny wchodzą: GPT-4.1, GPT-4.1 mini oraz GPT-4.1 nano. Według OpenAI, wszystkie modele szczególnie dobrze radzą sobie z programowaniem i […]

OpenAI wprowadza nową rodzinę modeli GPT-4.1

OpenAI ogłosiło w poniedziałek premierę nowej serii modeli o nazwie GPT-4.1. Tak, dokładnie "4.1" — jakby dotychczasowa nomenklatura firmy nie była już wystarczająco zagmatwana.

Trzy wersje modeli

W skład nowej rodziny wchodzą: GPT-4.1, GPT-4.1 mini oraz GPT-4.1 nano. Według OpenAI, wszystkie modele szczególnie dobrze radzą sobie z programowaniem i precyzyjnym wykonywaniem instrukcji. Są dostępne przez API OpenAI, ale nie przez interfejs ChatGPT. To modele multimodalne, które mogą przetwarzać do 1 miliona tokenów naraz, co odpowiada około 750 000 słów (więcej niż zawiera powieść "Wojna i pokój").

Rywalizacja na rynku modeli programistycznych

Premiera GPT-4.1 zbiega się z intensyfikacją działań konkurentów OpenAI, takich jak Google i Anthropic, w dziedzinie zaawansowanych modeli programistycznych. Ostatnio wydany model Google'a, Gemini 2.5 Pro (również obsługujący 1 milion tokenów), osiąga wysokie wyniki na popularnych testach kodowania. Podobnie jak modele Claude 3.7 Sonnet od Anthropic czy zaktualizowany model V3 chińskiego startupu DeepSeek.

Ambicje OpenAI

Wiele firm technologicznych, w tym OpenAI, dąży do stworzenia modeli AI zdolnych do wykonywania złożonych zadań inżynierii oprogramowania. Jak powiedziała CFO Sarah Friar podczas ubiegłomiesięcznego szczytu technologicznego w Londynie, OpenAI ma ambitny plan stworzenia "agentowego inżyniera oprogramowania". Firma twierdzi, że jej przyszłe modele będą w stanie programować kompletne aplikacje od początku do końca, zajmując się również testowaniem jakości, wykrywaniem błędów i pisaniem dokumentacji.

GPT-4.1 to krok w tym kierunku.

Optymalizacja pod kątem rzeczywistych zastosowań

Przedstawiciel OpenAI w rozmowie z TechCrunch wyjaśnił: "Zoptymalizowaliśmy GPT-4.1 pod kątem rzeczywistego użycia, bazując na bezpośrednich opiniach, aby poprawić obszary najważniejsze dla developerów: kodowanie frontendowe, ograniczenie zbędnych modyfikacji, niezawodne stosowanie formatów, przestrzeganie struktury odpowiedzi, spójne wykorzystanie narzędzi i więcej. Te ulepszenia pozwalają programistom tworzyć agenty znacznie lepiej radzące sobie z rzeczywistymi zadaniami inżynierii oprogramowania."

Wydajność i ceny

OpenAI twierdzi, że pełna wersja GPT-4.1 przewyższa modele GPT-4o i GPT-4o mini w testach kodowania, w tym SWE-bench. GPT-4.1 mini i nano są bardziej wydajne i szybsze, choć kosztem pewnej dokładności. GPT-4.1 nano to najszybszy i najtańszy model w historii firmy.

Cennik:
GPT-4.1: $2 za milion tokenów wejściowych, $8 za milion tokenów wyjściowych
GPT-4.1 mini: $0.40/$1.60 za milion tokenów
GPT-4.1 nano: $0.10/$0.40 za milion tokenów

Wyniki testów

W wewnętrznych testach OpenAI, GPT-4.1 (który może generować jednorazowo 32 768 tokenów w porównaniu do 16 384 w GPT-4o) osiągnął wynik między 52% a 54.6% na SWE-bench Verified. To nieco poniżej wyników Google'a (63.8% dla Gemini 2.5 Pro) i Anthropic (62.3% dla Claude 3.7 Sonnet) w tym samym teście.

W innym badaniu, Video-MME, mierzącym zdolność modelu do "rozumienia" treści wideo, GPT-4.1 osiągnął 72% dokładności w kategorii "długie filmy bez napisów".

Ograniczenia modelu

Mimo dobrych wyników testowych i bardziej aktualnej bazy wiedzy (do czerwca 2024), nawet najlepsze obecne modele mają trudności z zadaniami, które nie sprawiają problemów ekspertom. Liczne badania pokazują, że modele generujące kod często nie potrafią naprawić, a nawet wprowadzają nowe luki bezpieczeństwa i błędy.

OpenAI przyznaje też, że GPT-4.1 staje się mniej niezawodny (bardziej podatny na błędy) przy większej liczbie tokenów wejściowych. W teście OpenAI-MRCR dokładność modelu spadła z około 84% przy 8 000 tokenów do 50% przy 1 milionie tokenów. Firma zauważa również, że GPT-4.1 bywa bardziej "dosłowny" niż GPT-4o, czasem wymagając bardziej precyzyjnych instrukcji.