Versekkel kerülte meg a népszerű MI-modellek biztonsági funkcióit egy kutatócsoport

frissítve

A verselés, ha nem is egyidős az emberiséggel, az biztos, hogy több ezer éve létezik, és a történelmi események lejegyzésétől az önkifejezésen át a traumák feldolgozásáig számtalan okból születtek versek ez idő alatt. Ha visszaemlékszik az ember mondjuk A walesi bárdokra, az is nyilvánvaló, hogy egy versnek nagyon gyakran van mögöttes tartalma, és úgy tűnik, ezt a tulajdonságát arra is lehet használni, hogy megkerüljük a mesterséges intelligencia biztonsági funkcióit, és olyan dolgokra vegyük rá a nagy nyelvi modelleket, amikre alapból nem tudnánk – írja a Guardian.

Ezt az olaszországi Icaro Lab kutatói állapították meg, akik az arxiv preprint szerverre feltöltött tanulmányukban húsz, angol és olasz nyelven írt verssel teszteltek le 25 népszerű MI-modellt, hogy kiderítsék, rímekbe szedett szöveggel meg lehet-e kerülni a beépített védelmi mechanizmusaikat. A válasz az, hogy igen – a modellek az esetek 62 százalékában olyan káros tartalmakat generáltak, amiket az alkotóik szándékai szerint nem lett volna szabad nekik. Például fegyverek és robbanószerek gyártási útmutatóit, szexuális és önkárosító tartalmakat és gyűlöletbeszédet is.

A kutatóknak a verses formában beírt paranccsal például azt is sikerült elérniük, hogy a modellek segítsenek egy atombomba megépítésében.

A modellek között természetesen voltak különbségek, az OpenAI GPT-5 nanója például minden verses próbálkozást visszavert a tanulmány szerint, a Google Gemini 2.5 prója viszont az összesre a kért tartalommal reagált. A kutatók természetesen nem tették közzé a verseket, mert – mint írták – az ezekre adott válaszok nagy része sérti a genfi egyezményt. Azt viszont azért lehet sejteni, hogy ezek hogy nézhettek ki, mert egy verset azért közzétettek, ez arra veszi rá a modelleket, hogy árulják el, hogyan kell többrétegű tortát sütni.

Piercosma Bisconti, az Icaro Labot létrehozó DexAI alapítója szerint egy káros parancs azért működhet verses formában, mert a nagy nyelvi modellek alapvetően még mindig úgy működnek, hogy megpróbálják megjósolni, mi lehet a következő szó egy adott szövegben. A versek felépítése merőben eltér a hagyományos szövegekétől, emiatt szerinte kisebb az esélye annak, hogy ezzel a módszerrel képesek lesznek felismerni, ha a felhasználó káros tartalmat akar velük generáltatni. Bisconti szerint ez azért problémás, mert a legtöbb hasonló módszer annyira bonyolult, hogy csak MI-vel foglalkozó kutatók és hekkerek használják őket, erre viszont bárki képes lehet.

A kutató azt is hozzátette, hogy ő és a kollégái nem vallják magukat költőknek, a kutatáshoz írt verseiket sem tartják jónak, szóval lehetséges, hogy még ennél is durvább eredményeket lehet elérni. Emiatt egy kihívást is terveznek, amire reményeik szerint valódi költők is jelentkeznek majd. A kutatócsapat egyébként az összes érintett céget megkereste a tanulmány közzététele előtt, de egyelőre csak az Anthropic jelezte nekik, hogy foglalkoznak az eredményekkel.

Kedvenceink

Partnereinktől

Kövess minket Facebookon is!