Prezes Anthropic chce otworzyć czarną skrzynkę modeli AI do 2027 roku

Prezes Anthropic o wyzwaniach związanych z interpretowalnością AI Dario Amodei, CEO Anthropic, opublikował w czwartek esej, w którym zwraca uwagę na ograniczoną wiedzę naukowców na temat działania najnowocześniejszych modeli AI. Aby to zmienić, Amodei postawił przed firmą ambitny cel: do 2027 roku opracować metody wykrywania większości problemów w modelach AI. Amodei przyznaje, że zadanie nie […]

Prezes Anthropic o wyzwaniach związanych z interpretowalnością AI

Dario Amodei, CEO Anthropic, opublikował w czwartek esej, w którym zwraca uwagę na ograniczoną wiedzę naukowców na temat działania najnowocześniejszych modeli AI. Aby to zmienić, Amodei postawił przed firmą ambitny cel: do 2027 roku opracować metody wykrywania większości problemów w modelach AI.

Amodei przyznaje, że zadanie nie będzie łatwe. W tekście "The Urgency of Interpretability" podkreśla, że choć Anthropic dokonało wstępnych przełomów w śledzeniu procesów decyzyjnych AI, to w miarę rozwoju systemów potrzebne są znacznie głębsze badania.

"Bardzo niepokoi mnie wdrażanie takich systemów bez lepszego zrozumienia ich działania" – pisze Amodei. "Będą one kluczowe dla gospodarki, technologii i bezpieczeństwa narodowego, a przy tym tak autonomiczne, że całkowita niewiedza ludzi na temat ich funkcjonowania jest nie do zaakceptowania."

Wyzwania interpretowalności AI

Anthropic należy do pionierów w dziedzinie mechanistycznej interpretowalności, która ma na celu "rozpracowanie" modeli AI. Mimo szybkiego postępu w branży, wciąż niewiele wiadomo o tym, jak systemy te podejmują decyzje.

Przykładowo, OpenAI niedawno wprowadziło nowe modele rozumowania – o3 i o4-mini – które lepiej radzą sobie z niektórymi zadaniami, ale też częściej generują błędne informacje. Firma nie wie, dlaczego tak się dzieje.

"Gdy AI podsumowuje dokument finansowy, nie mamy pojęcia, dlaczego wybiera konkretne słowa lub czasem popełnia błędy mimo ogólnej dokładności" – wyjaśnia Amodei.

Ryzyko związane z AGI

W eseju Amodei przestrzega, że osiągnięcie sztucznej ogólnej inteligencji (AGI) – którą nazywa "krajem geniuszy w centrum danych" – bez zrozumienia działania modeli może być niebezpieczne. Wcześniej szacował, że branża może osiągnąć ten kamień milowy do 2026-2027 roku, ale pełne zrozumienie AI zajmie znacznie więcej czasu.

Anthropic pracuje nad metodami "skanowania mózgu" zaawansowanych modeli AI, które pomogą wykrywać problemy, takie jak tendencje do kłamstw czy dążenie do władzy. Zdaniem Amodei, opracowanie takich narzędzi może zająć 5-10 lat, ale będzie niezbędne do testowania przyszłych systemów.

Postępy w badaniach

Firma dokonała już pewnych przełomów, np. w śledzeniu ścieżek myślowych AI za pomocą tzw. obwodów. Odkryto między innymi obwód odpowiedzialny za kojarzenie amerykańskich miast z odpowiednimi stanami. Szacuje się, że w modelach AI istnieją miliony takich struktur.

Anthropic inwestuje w badania nad interpretowalnością i niedawno sfinansowało startup zajmujący się tą dziedziną. Obecnie interpretowalność postrzega się głównie jako kwestię bezpieczeństwa, ale w przyszłości może stać się przewagą komercyjną.

Apel do branży i rządów

Amodei wezwał OpenAI i Google DeepMind do zintensyfikowania badań w tej dziedzinie. Zaapelował też o "lekkie" regulacje zachęcające do rozwoju interpretowalności, np. wymóg ujawniania praktyk bezpieczeństwa. Postulował również kontrolę eksportu chipów do Chin, aby ograniczyć wyścig zbrojeń w dziedzinie AI.

Anthropic od dawna wyróżnia się naciskiem na bezpieczeństwo. W przeciwieństwie do innych firm, poparło kontrowersyjną kalifornijską ustawę SB 1047, która miała wprowadzić standardy raportowania dla twórców zaawansowanych modeli AI.

W tym przypadku firma dąży do lepszego zrozumienia działania AI przez całą branżę, a nie tylko zwiększania możliwości systemów.