Prezes Anthropic chce otworzyć czarną skrzynkę modeli AI do 2027 roku

Dyrektor generalny Anthropic o wyzwaniach związanych z interpretowalnością AI Dario Amodei, dyrektor generalny Anthropic, opublikował esej w czwartek, w którym zwrócił uwagę na to, jak mało wiadomo na temat działania najnowocześniejszych modeli AI. Aby rozwiązać ten problem, Amodei postawił przed firmą ambitny cel – do 2027 roku opracować metody wykrywania większości problemów związanych z działaniem […]

Dyrektor generalny Anthropic o wyzwaniach związanych z interpretowalnością AI

Dario Amodei, dyrektor generalny Anthropic, opublikował esej w czwartek, w którym zwrócił uwagę na to, jak mało wiadomo na temat działania najnowocześniejszych modeli AI. Aby rozwiązać ten problem, Amodei postawił przed firmą ambitny cel – do 2027 roku opracować metody wykrywania większości problemów związanych z działaniem sztucznej inteligencji.

Wyzwania związane z interpretowalnością AI

Amodei przyznaje, że zadanie nie będzie łatwe. W eseju zatytułowanym "The Urgency of Interpretability" podkreśla, że choć Anthropic dokonało wstępnych przełomów w śledzeniu procesów decyzyjnych modeli, to wciąż potrzeba znacznie więcej badań, aby w pełni zrozumieć te systemy, zwłaszcza w miarę ich rozwoju.

"Bardzo niepokoi mnie wdrażanie takich systemów bez lepszego zrozumienia ich interpretowalności" – napisał Amodei. "Te systemy będą kluczowe dla gospodarki, technologii i bezpieczeństwa narodowego, a przy tym będą na tyle autonomiczne, że całkowita niewiedza na temat ich działania jest dla ludzkości nie do zaakceptowania."

Anthropic na czele badań nad interpretowalnością

Anthropic jest jedną z wiodących firm w dziedzinie mechanistycznej interpretowalności, która ma na celu "otwarcie czarnej skrzynki" modeli AI i zrozumienie, dlaczego podejmują one określone decyzje. Mimo szybkiego postępu w rozwoju sztucznej inteligencji, wciąż niewiele wiadomo o tym, jak dokładnie działają te systemy.

Przykładowo, OpenAI niedawno wprowadziło nowe modele rozumowania – o3 i o4-mini – które radzą sobie lepiej w niektórych zadaniach, ale jednocześnie częściej generują błędne informacje. Firma nie wie, dlaczego tak się dzieje.

"Kiedy generatywny system AI wykonuje zadanie, np. podsumowuje dokument finansowy, nie mamy pojęcia, dlaczego dokonuje takich, a nie innych wyborów – dlaczego używa konkretnych słów lub czasami popełnia błędy, mimo że zazwyczaj jest precyzyjny" – wyjaśnia Amodei w swoim eseju.

AI – bardziej "hodowane" niż budowane

Amodei przytacza słowa Chrisa Olaha, współzałożyciela Anthropic, który twierdzi, że modele AI są "bardziej hodowane niż budowane". Oznacza to, że badacze potrafią poprawiać inteligencję modeli, ale nie do końca rozumieją, dlaczego ich metody działają.

W eseju Amodei ostrzega, że osiągnięcie AGI (sztucznej ogólnej inteligencji), którą określa jako "kraj geniuszy w centrum danych", bez zrozumienia działania tych modeli, może być niebezpieczne. Wcześniej szacował, że branża technologiczna może osiągnąć ten kamień milowy do 2026 lub 2027 roku, ale pełne zrozumienie modeli AI zajmie znacznie więcej czasu.

Długoterminowe plany Anthropic

Amodei zapowiada, że w dłuższej perspektywie Anthropic chce przeprowadzać coś w rodzaju "skanów mózgu" lub "rezonansów magnetycznych" najnowocześniejszych modeli AI. Takie badania pomogłyby wykrywać różne problemy, np. skłonność modeli do kłamstwa, dążenia do władzy lub inne słabości. Osiągnięcie tego celu może zająć od 5 do 10 lat, ale – jak dodaje – będzie to konieczne do testowania i wdrażania przyszłych modeli AI firmy.

Anthropic dokonało już kilku przełomów w badaniach, które pozwoliły lepiej zrozumieć działanie ich modeli. Na przykład firma opracowała metodę śledzenia ścieżek myślowych AI za pomocą tzw. obwodów. Zidentyfikowano jeden taki obwód, który pomaga modelom rozpoznawać, które miasta w USA znajdują się w których stanach. Dotychczas odkryto tylko kilka takich obwodów, ale szacuje się, że w modelach AI mogą być ich miliony.

Współpraca i inwestycje w interpretowalność

Anthropic inwestuje w badania nad interpretowalnością i niedawno dokonało pierwszej inwestycji w startup zajmujący się tą dziedziną. Obecnie interpretowalność postrzega się głównie w kontekście bezpieczeństwa, ale Amodei zauważa, że w przyszłości umiejętność wyjaśniania działania modeli AI może stać się przewagą komercyjną.

W eseju Amodei wezwał OpenAI i Google DeepMind do zwiększenia nakładów na badania w tej dziedzinie. Poza tym zaapelował do rządów o wprowadzenie "lekkich" regulacji wspierających badania nad interpretowalnością, np. wymagających od firm ujawniania praktyk związanych z bezpieczeństwem. Zaproponował również, aby USA nałożyły ograniczenia eksportowe na chipy do Chin, aby zmniejszyć ryzyko niekontrolowanego wyścigu w dziedzinie AI.

Anthropic a bezpieczeństwo AI

Anthropic od zawsze wyróżniało się na tle OpenAI i Google skupieniem na bezpieczeństwie. Gdy inne firmy sprzeciwiały się kontrowersyjnemu projektowi ustawy o bezpieczeństwie AI w Kalifornii (SB 1047), Anthropic udzieliło umiarkowanego poparcia i zaleciło poprawki. Ustawa miała wprowadzić standardy raportowania bezpieczeństwa dla twórców zaawansowanych modeli AI.

W tym przypadku Anthropic wydaje się dążyć do tego, aby cała branża skupiła się nie tylko na zwiększaniu możliwości AI, ale także na lepszym zrozumieniu jej działania.