Codex firmy OpenAI jest częścią nowej grupy narzędzi do kodowania agentowego

OpenAI wprowadza Codex – nowy system programowania W zeszły piątek OpenAI zaprezentował nowy system o nazwie Codex, który potrafi wykonywać skomplikowane zadania programistyczne na podstawie poleceń w języku naturalnym. Dzięki temu rozwiązaniu OpenAI dołącza do grona firm rozwijających tzw. agentyczne narzędzia kodujące, które dopiero zaczynają zdobywać popularność. Ewolucja narzędzi do kodowania z AI Od GitHub […]

OpenAI wprowadza Codex – nowy system programowania

W zeszły piątek OpenAI zaprezentował nowy system o nazwie Codex, który potrafi wykonywać skomplikowane zadania programistyczne na podstawie poleceń w języku naturalnym. Dzięki temu rozwiązaniu OpenAI dołącza do grona firm rozwijających tzw. agentyczne narzędzia kodujące, które dopiero zaczynają zdobywać popularność.

Ewolucja narzędzi do kodowania z AI

Od GitHub Copilot po współczesne rozwiązania takie jak Cursor czy Windsurf, większość asystentów programistycznych opartych na sztucznej inteligencji działa jak bardzo zaawansowana forma autouzupełniania. Zwykle są zintegrowane ze środowiskami programistycznymi (IDE), a użytkownicy pracują bezpośrednio z kodem generowanym przez AI. Jednak możliwość po prostu zlecenia zadania i powrotu po jego wykonaniu była dotąd trudna do osiągnięcia.

Nowe agentyczne narzędzia, takie jak Devin, SWE-Agent, OpenHands oraz wspomniany Codex OpenAI, mają działać w taki sposób, że użytkownik nie musi nawet widzieć kodu. Ich celem jest funkcjonowanie jak menedżer zespołu inżynierskiego – przydzielanie zadań przez systemy takie jak Asana czy Slack i sprawdzanie wyników po ich wykonaniu.

Dla zwolenników zaawansowanej sztucznej inteligencji to kolejny logiczny krok w automatyzacji coraz większej części pracy programistycznej.

Od ręcznego kodowania do autonomicznych agentów

„Na początku ludzie pisali kod, wprowadzając każdy znak ręcznie” – wyjaśnia Kilian Lieret, badacz z Princeton i członek zespołu SWE-Agent. „GitHub Copilot był pierwszym produktem, który zaoferował prawdziwe autouzupełnianie, czyli drugi etap. Nadal jesteś zaangażowany w proces, ale czasem możesz skorzystać ze skrótu.”

Celem systemów agentycznych jest wyjście poza środowiska programistyczne – zamiast tego użytkownik zgłasza problem, a agent samodzielnie go rozwiązuje. „Przenosimy działanie na poziom zarządzania, gdzie po prostu przydzielam zgłoszenie błędu, a bot próbuje go naprawić w pełni autonomicznie” – dodaje Lieret.

To ambitny cel, ale jak dotąd trudny do osiągnięcia.

TechCrunch Sessions: AI – wydarzenie branżowe

Dołącz do nas na TechCrunch Sessions: AI

Zarezerwuj miejsce na nasze wiodące wydarzenie poświęcone sztucznej inteligencji, z prelegentami z OpenAI, Anthropic i Cohere. Przez ograniczony czas bilety kosztują jedynie 292 USD za cały dzień eksperckich wykładów, warsztatów i wartościowych spotkań networkingowych.

Berkeley, CA | 5 czerwca

ZAREJESTRUJ SIĘ TERAZ

Wyzwania i krytyka

Po tym, jak Devin stał się ogólnodostępny pod koniec 2024 roku, spotkał się z ostrą krytyką na YouTube, a także z bardziej wyważoną oceną ze strony wczesnego klienta Answer.AI. Ogólne wrażenie było podobne do doświadczeń programistów pracujących z wcześniejszymi narzędziami AI: z powodu dużej liczby błędów nadzorowanie modeli wymagało tyle samo pracy, co samodzielne wykonanie zadania. (Mimo trudności związanych z wprowadzeniem Devina, inwestorzy dostrzegli potencjał – w marcu Cognition AI, firma stojąca za Devinem, podobno pozyskała setki milionów dolarów przy wycenie 4 mld USD.)

Nawet zwolennicy tej technologii ostrzegają przed całkowicie samodzielnym kodowaniem, postrzegając nowe agentyczne rozwiązania raczej jako elementy procesu rozwoju nadzorowanego przez ludzi.

„Obecnie, i pewnie jeszcze przez jakiś czas, człowiek musi interweniować podczas przeglądu kodu, aby sprawdzić, co zostało napisane” – mówi Robert Brennan, CEO All Hands AI, odpowiedzialnego za OpenHands. „Widziałem już kilka osób, które wpędziły się w kłopoty, automatycznie zatwierdzając każdy fragment kodu wygenerowany przez agenta. To szybko wymyka się spod kontroli.”

Problem halucynacji i wiarygodności

Kolejnym wyzwaniem są tzw. halucynacje. Brennan wspomina przypadek, w którym agent OpenHands, zapytany o API wydane po zakończeniu zbierania danych treningowych, wymyślił szczegóły nieistniejącego interfejsu. All Hands AI pracuje nad systemami wykrywającymi takie błędy, ale nie ma na to prostego rozwiązania.

Jednym z najlepszych sposobów oceny postępów w agentycznym programowaniu są rankingi SWE-Bench, gdzie modele są testowane pod kątem rozwiązywania nierozstrzygniętych problemów z repozytoriów GitHub. OpenHands zajmuje obecnie pierwsze miejsce w zweryfikowanym rankingu, rozwiązując 65,8% zadań. OpenAI twierdzi, że jeden z modeli Codex (codex-1) osiąga lepszy wynik – 72,1%, ale nie został on jeszcze potwierdzony niezależnie.

Wyzwania na przyszłość

Wiele osób w branży technologicznej obawia się, że wysokie wyniki w benchmarkach nie zawsze przekładają się na w pełni autonomiczne kodowanie. Jeśli agentyczne rozwiązania radzą sobie tylko z trzema na cztery problemy, będą wymagały znacznego nadzoru ludzkich programistów – szczególnie w przypadku złożonych systemów wieloetapowych.

Podobnie jak w przypadku innych narzędzi AI, oczekuje się, że ulepszenia podstawowych modeli będą postępować, umożliwiając agentom kodującym stanie się bardziej niezawodnymi narzędziami. Kluczowe jednak będzie rozwiązanie problemów takich jak halucynacje i inne kwestie związane z wiarygodnością.

„Myślę, że istnieje pewien efekt bariery dźwięku” – mówi Brennan. „Pytanie brzmi: ile zaufania można przekazać agentom, aby rzeczywiście odciążyły nas w codziennej pracy?”