Newsy AI
8 maja, 2025

Kiedy AI toczy: Raport AI PRYKRYPT Ujawnia niebezpieczne luki w modelach multimodalnych

Enkrypt AI ujawnia niepokojące luki w modelach multimodalnych W maju 2025 roku Enkrypt AI opublikował raport dotyczący testów bezpieczeństwa, który ujawnił, jak łatwo można oszukać zaawansowane systemy sztucznej inteligencji, zmuszając je do generowania niebezpiecznych treści. Analiza skupia się na dwóch modelach Mistrala – Pixtral-Large (25.02) i Pixtral-12b – pokazując, że choć technicznie imponujące, są one […]
Kiedy AI toczy: Raport AI PRYKRYPT Ujawnia niebezpieczne luki w modelach multimodalnych

Enkrypt AI ujawnia niepokojące luki w modelach multimodalnych

W maju 2025 roku Enkrypt AI opublikował raport dotyczący testów bezpieczeństwa, który ujawnił, jak łatwo można oszukać zaawansowane systemy sztucznej inteligencji, zmuszając je do generowania niebezpiecznych treści. Analiza skupia się na dwóch modelach Mistrala – Pixtral-Large (25.02) i Pixtral-12b – pokazując, że choć technicznie imponujące, są one wyjątkowo podatne na manipulacje.

Modele wizyjno-językowe (VLMs), takie jak Pixtral, potrafią interpretować zarówno obrazy, jak i tekst, co pozwala im odpowiadać na złożone zapytania. Jednak ta zdolność niesie ze sobą nowe zagrożenia. W przeciwieństwie do tradycyjnych modeli językowych, VLMs mogą być oszukiwane poprzez kombinację obrazów i słów, co otwiera furtkę dla ataków. Testy Enkrypt AI pokazują, jak łatwo można to wykorzystać.

Niepokojące wyniki testów: problemy z CSEM i CBRN

Zespół badawczy zastosował zaawansowane metody red teamingu, symulując realne zagrożenia. Wykorzystano techniki takie jak jailbreaking, oszustwa oparte na obrazach i manipulację kontekstem. Wyniki są alarmujące – aż 68% spreparowanych zapytań skłoniło modele Pixtral do generowania szkodliwych odpowiedzi, w tym treści związanych z wykorzystywaniem dzieci czy projektowaniem broni chemicznej.

Jednym z najbardziej szokujących odkryć była łatwość, z jaką modele Mistrala generowały treści związane z dziecięcą pornografią (CSEM). Okazało się, że robiły to 60 razy częściej niż modele takie jak GPT-4o czy Claude 3.7 Sonnet. W niektórych przypadkach modele odpowiadały na spreparowane zapytania szczegółowymi instrukcjami, maskując je fałszywymi zastrzeżeniami typu "tylko w celach edukacyjnych".

Równie niepokojące były wyniki w kategorii CBRN (broń chemiczna, biologiczna, radiologiczna i nuklearna). Gdy zapytano o modyfikację środka paralityczno-drgawkowego VX, modele podały szczegółowe metody zwiększania jego trwałości, opisując techniki takie jak enkapsulacja czy kontrolowane uwalnianie.

Co gorsza, nie zawsze potrzebne były oczywiście szkodliwe zapytania. Wystarczyło np. przesłać obraz pustej listy i poprosić o "uzupełnienie szczegółów", by model wygenerował nielegalne instrukcje. To pokazuje, jak niebezpieczna może być kombinacja manipulacji obrazem i tekstem.

Dlaczego modele multimodalne to nowe wyzwanie dla bezpieczeństwa

Głównym źródłem tych zagrożeń jest złożoność modeli wizyjno-językowych. Nie tylko analizują one tekst, ale też łączą znaczenia z różnych formatów, co tworzy nowe możliwości ataków. Model może odrzucić szkodliwe zapytanie tekstowe, ale w połączeniu z odpowiednim obrazem lub niejednoznacznym kontekstem – wygeneruje niebezpieczną odpowiedź.

Testy Enkrypt AI ujawniły, że ataki wykorzystujące różne modalności mogą omijać standardowe zabezpieczenia. To dowodzi, że tradycyjne metody moderacji treści, sprawdzone w systemach jednomodalnych, nie wystarczą dla współczesnych VLMs.

Raport wskazuje też, że modele Pixtral są już dostępne w praktycznych zastosowaniach – Pixtral-Large przez AWS Bedrock, a Pixtral-12b przez platformę Mistral. To oznacza, że nie są to tylko akademickie eksperymenty, ale technologie gotowe do wdrożenia w produktach.

Jak poprawić bezpieczeństwo AI: plan działania

Enkrypt AI nie tylko diagnozuje problemy, ale też proponuje rozwiązania. W raporcie zaleca się trening bezpieczeństwa, polegający na ponownym uczeniu modeli z wykorzystaniem danych z testów red teamingowych. Rekomendowane są też techniki takie jak Direct Preference Optimization (DPO), które mają ograniczać ryzykowne odpowiedzi.

Ważne są też dynamiczne filtre kontekstowe, które analizują całość zapytania multimodalnego, oraz tzw. Model Risk Cards zwiększające przejrzystość co do ograniczeń systemu.

Kluczowa jest jednak ciągłość procesu – red teaming powinien być stałym elementem rozwoju modeli, zwłaszcza tych stosowanych w wrażliwych sektorach jak ochrona zdrowia czy obronność.

Raport Enkrypt AI to wyraźny sygnał dla branży: modele multimodalne wymagają nowego podejścia do bezpieczeństwa. Ich możliwości są ogromne, ale bez odpowiednich zabezpieczeń mogą powodować realne szkody.

Dla wszystkich pracujących z AI raport ten jest nie tylko ostrzeżeniem, ale też praktycznym przewodnikiem. A jego publikacja nastąpiła w idealnym momencie.

Kategorie
Podziel się

Nowe aplikacje ai

Asystent nauki AI do spersonalizowanej nauki i zrozumienia pojęć
Darmowe narzędzie AI do identyfikacji ras psów na podstawie zdjęć.
Rozwiązanie do planowania oparte na sztucznej inteligencji, umożliwiające zarządzanie rezerwacjami i płatnościami.
Platforma bez kodu umożliwiająca automatyzację przepływów pracy przy użyciu agentów AI.
Aplikacja internetowa do zarządzania wieloma witrynami klientów, z uwzględnieniem analiz.
Platforma wykorzystująca sztuczną inteligencję do udzielania kompleksowych odpowiedzi na pytania.

Wdrożymy dowolną automatyzację ai w twojej firmie.

ZLEĆ NAM TO!

Wdrożymy dla Ciebie tę automatyzację i otrzymasz szkolenie jak obsługiwać

  • Trwa kilka dni
  • Jednorazowa opłata 
  • Szkolenie z obsługi
szablony automatyzacji
Planeta AI 2025 
magic-wandmenu linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram