OpenAI wprowadza Codex – nowy system programowania
W zeszły piątek OpenAI zaprezentował nowy system o nazwie Codex, który potrafi wykonywać skomplikowane zadania programistyczne na podstawie poleceń w języku naturalnym. Dzięki temu rozwiązaniu OpenAI dołącza do grona firm rozwijających tzw. agentyczne narzędzia kodujące, które dopiero zaczynają zdobywać popularność.
Ewolucja narzędzi do kodowania z AI
Od GitHub Copilot po współczesne rozwiązania takie jak Cursor czy Windsurf, większość asystentów programistycznych opartych na sztucznej inteligencji działa jak bardzo zaawansowana forma autouzupełniania. Zwykle są zintegrowane ze środowiskami programistycznymi (IDE), a użytkownicy pracują bezpośrednio z kodem generowanym przez AI. Jednak możliwość po prostu zlecenia zadania i powrotu po jego wykonaniu była dotąd trudna do osiągnięcia.
Nowe agentyczne narzędzia, takie jak Devin, SWE-Agent, OpenHands oraz wspomniany Codex OpenAI, mają działać w taki sposób, że użytkownik nie musi nawet widzieć kodu. Ich celem jest funkcjonowanie jak menedżer zespołu inżynierskiego – przydzielanie zadań przez systemy takie jak Asana czy Slack i sprawdzanie wyników po ich wykonaniu.
Dla zwolenników zaawansowanej sztucznej inteligencji to kolejny logiczny krok w automatyzacji coraz większej części pracy programistycznej.
Od ręcznego kodowania do autonomicznych agentów
„Na początku ludzie pisali kod, wprowadzając każdy znak ręcznie” – wyjaśnia Kilian Lieret, badacz z Princeton i członek zespołu SWE-Agent. „GitHub Copilot był pierwszym produktem, który zaoferował prawdziwe autouzupełnianie, czyli drugi etap. Nadal jesteś zaangażowany w proces, ale czasem możesz skorzystać ze skrótu.”
Celem systemów agentycznych jest wyjście poza środowiska programistyczne – zamiast tego użytkownik zgłasza problem, a agent samodzielnie go rozwiązuje. „Przenosimy działanie na poziom zarządzania, gdzie po prostu przydzielam zgłoszenie błędu, a bot próbuje go naprawić w pełni autonomicznie” – dodaje Lieret.
To ambitny cel, ale jak dotąd trudny do osiągnięcia.
TechCrunch Sessions: AI – wydarzenie branżowe
Dołącz do nas na TechCrunch Sessions: AI
Zarezerwuj miejsce na nasze wiodące wydarzenie poświęcone sztucznej inteligencji, z prelegentami z OpenAI, Anthropic i Cohere. Przez ograniczony czas bilety kosztują jedynie 292 USD za cały dzień eksperckich wykładów, warsztatów i wartościowych spotkań networkingowych.
Berkeley, CA | 5 czerwca
Wyzwania i krytyka
Po tym, jak Devin stał się ogólnodostępny pod koniec 2024 roku, spotkał się z ostrą krytyką na YouTube, a także z bardziej wyważoną oceną ze strony wczesnego klienta Answer.AI. Ogólne wrażenie było podobne do doświadczeń programistów pracujących z wcześniejszymi narzędziami AI: z powodu dużej liczby błędów nadzorowanie modeli wymagało tyle samo pracy, co samodzielne wykonanie zadania. (Mimo trudności związanych z wprowadzeniem Devina, inwestorzy dostrzegli potencjał – w marcu Cognition AI, firma stojąca za Devinem, podobno pozyskała setki milionów dolarów przy wycenie 4 mld USD.)
Nawet zwolennicy tej technologii ostrzegają przed całkowicie samodzielnym kodowaniem, postrzegając nowe agentyczne rozwiązania raczej jako elementy procesu rozwoju nadzorowanego przez ludzi.
„Obecnie, i pewnie jeszcze przez jakiś czas, człowiek musi interweniować podczas przeglądu kodu, aby sprawdzić, co zostało napisane” – mówi Robert Brennan, CEO All Hands AI, odpowiedzialnego za OpenHands. „Widziałem już kilka osób, które wpędziły się w kłopoty, automatycznie zatwierdzając każdy fragment kodu wygenerowany przez agenta. To szybko wymyka się spod kontroli.”
Problem halucynacji i wiarygodności
Kolejnym wyzwaniem są tzw. halucynacje. Brennan wspomina przypadek, w którym agent OpenHands, zapytany o API wydane po zakończeniu zbierania danych treningowych, wymyślił szczegóły nieistniejącego interfejsu. All Hands AI pracuje nad systemami wykrywającymi takie błędy, ale nie ma na to prostego rozwiązania.
Jednym z najlepszych sposobów oceny postępów w agentycznym programowaniu są rankingi SWE-Bench, gdzie modele są testowane pod kątem rozwiązywania nierozstrzygniętych problemów z repozytoriów GitHub. OpenHands zajmuje obecnie pierwsze miejsce w zweryfikowanym rankingu, rozwiązując 65,8% zadań. OpenAI twierdzi, że jeden z modeli Codex (codex-1) osiąga lepszy wynik – 72,1%, ale nie został on jeszcze potwierdzony niezależnie.
Wyzwania na przyszłość
Wiele osób w branży technologicznej obawia się, że wysokie wyniki w benchmarkach nie zawsze przekładają się na w pełni autonomiczne kodowanie. Jeśli agentyczne rozwiązania radzą sobie tylko z trzema na cztery problemy, będą wymagały znacznego nadzoru ludzkich programistów – szczególnie w przypadku złożonych systemów wieloetapowych.
Podobnie jak w przypadku innych narzędzi AI, oczekuje się, że ulepszenia podstawowych modeli będą postępować, umożliwiając agentom kodującym stanie się bardziej niezawodnymi narzędziami. Kluczowe jednak będzie rozwiązanie problemów takich jak halucynacje i inne kwestie związane z wiarygodnością.
„Myślę, że istnieje pewien efekt bariery dźwięku” – mówi Brennan. „Pytanie brzmi: ile zaufania można przekazać agentom, aby rzeczywiście odciążyły nas w codziennej pracy?”