
Η Δύναμη της Ποίησης εναντίον του AI: Ένα Σοβαρό Κενό Ασφαλείας
Με τη μεγάλη τεχνολογική δύναμη έρχεται και η μεγάλη... ευκολία στην εξαπάτηση.
Η ραγδαία εξέλιξη της τεχνολογίας φέρνει συχνά στην επιφάνεια απρόσμενες προκλήσεις. Τον περασμένο μήνα, αναφερθήκαμε σε μια νέα μελέτη που διεξήχθη από ερευνητές στο Icaro Lab στην Ιταλία, η οποία τάραξε τα νερά στην παγκόσμια κοινότητα του AI.
Η ανακάλυψη αφορούσε έναν απίστευτα απλό, αλλά καινοτόμο τρόπο για την παραβίαση των δικλείδων ασφαλείας ακόμη και των πιο σύγχρονων AI chatbots: την «ανταγωνιστική ποίηση» (adversarial poetry).
Πώς η ποίηση ξεγελά τους αλγόριθμους
Με λίγα λόγια, η επιστημονική ομάδα, η οποία αποτελείται από ερευνητές της ομάδας ασφαλείας DexAI και του Sapienza University στη Ρώμη, απέδειξε περίτρανα ότι τα κορυφαία μοντέλα AI θα μπορούσαν να παρασυρθούν στο να πράξουν το «κακό».
Αυτό συμβαίνει αν οι χρήστες τα προσεγγίσουν με συγκεκριμένο τρόπο:
- Απαγγέλλοντας ποιήματα που περιέχουν επιβλαβείς εντολές.
- Παρακάμπτοντας τα φίλτρα προστασίας μέσω του ρυθμού και της δομής του λόγου.
- Λαμβάνοντας απαντήσεις για απαγορευμένα θέματα, όπως η κατασκευή μιας πυρηνικής βόμβας.
Η μαγεία των στίχων ως ψηφιακή απειλή
Υπογραμμίζοντας την παράξενη δύναμη του στίχου σε αυτή τη νέα εποχή του AI, ο συν-συγγραφέας Matteo Prandi δήλωσε στο The Verge σε μια πρόσφατη συνέντευξη, ότι οι «μαγευτικές επωδές» που χρησιμοποίησαν για να ξεγελάσουν τα μοντέλα είναι πολύ επικίνδυνες για να δοθούν στη δημοσιότητα.
Τα ποιήματα αυτά, κατά τρόπο ανησυχητικό, ήταν κάτι «που σχεδόν ο καθένας μπορεί να κάνει», πρόσθεσε ο Prandi, τονίζοντας την ανάγκη για άμεση βελτίωση της ασφάλειας.
Η μελέτη και τα ανησυχητικά αποτελέσματα
Στη μελέτη, η οποία αναμένει αξιολόγηση από ομότιμους (peer-review), η ομάδα υπέβαλε σε δοκιμασία 25 κορυφαία μοντέλα AI — συμπεριλαμβανομένων των ναυαρχίδων από τις:
- OpenAI
- xAI
- Anthropic
- Meta
Η μεθοδολογία της έρευνας
Η διαδικασία που ακολούθησαν οι ερευνητές περιελάμβανε τα εξής βήματα:
- Τροφοδότηση των μοντέλων με εξειδικευμένες ποιητικές οδηγίες.
- Δημιουργία οδηγιών είτε χειροκίνητα είτε μετατρέποντας γνωστές επιβλαβείς εντολές σε στίχους με τη βοήθεια ενός άλλου μοντέλου AI.
- Σύγκριση του ποσοστού επιτυχίας (jailbreak) αυτών των εντολών σε σχέση με τις αντίστοιχες σε απλό πεζό λόγο.
Τα ποσοστά αποτυχίας των συστημάτων ασφαλείας
Τα αποτελέσματα ήταν αποκαλυπτικά για το μέλλον της κυβερνοασφάλειας. Σε όλα τα μοντέλα, οι ποιητικές εντολές που γράφτηκαν με το χέρι κατάφεραν να ξεγελάσουν τα AI bots ώστε να απαντήσουν με απαγορευμένο περιεχόμενο κατά μέσο όρο στο 63% των περιπτώσεων.
Ορισμένα συστήματα μάλιστα, όπως το προηγμένο Gemini 2.5 της Google, «έπεσαν» στην παγίδα της διεφθαρμένης ποίησης στο 100% των περιπτώσεων, αποδεικνύοντας ότι ακόμη και η πιο εξελιγμένη τεχνολογία έχει τα τρωτά της σημεία.