Η Δύναμη της Ποίησης εναντίον του AI: Ένα Σοβαρό Κενό Ασφαλείας

Με τη μεγάλη τεχνολογική δύναμη έρχεται και η μεγάλη... ευκολία στην εξαπάτηση.

Η ραγδαία εξέλιξη της τεχνολογίας φέρνει συχνά στην επιφάνεια απρόσμενες προκλήσεις. Τον περασμένο μήνα, αναφερθήκαμε σε μια νέα μελέτη που διεξήχθη από ερευνητές στο Icaro Lab στην Ιταλία, η οποία τάραξε τα νερά στην παγκόσμια κοινότητα του AI.

Η ανακάλυψη αφορούσε έναν απίστευτα απλό, αλλά καινοτόμο τρόπο για την παραβίαση των δικλείδων ασφαλείας ακόμη και των πιο σύγχρονων AI chatbots: την «ανταγωνιστική ποίηση» (adversarial poetry).

Πώς η ποίηση ξεγελά τους αλγόριθμους

Με λίγα λόγια, η επιστημονική ομάδα, η οποία αποτελείται από ερευνητές της ομάδας ασφαλείας DexAI και του Sapienza University στη Ρώμη, απέδειξε περίτρανα ότι τα κορυφαία μοντέλα AI θα μπορούσαν να παρασυρθούν στο να πράξουν το «κακό».

Αυτό συμβαίνει αν οι χρήστες τα προσεγγίσουν με συγκεκριμένο τρόπο:

Απαγγέλλοντας ποιήματα που περιέχουν επιβλαβείς εντολές.
Παρακάμπτοντας τα φίλτρα προστασίας μέσω του ρυθμού και της δομής του λόγου.
Λαμβάνοντας απαντήσεις για απαγορευμένα θέματα, όπως η κατασκευή μιας πυρηνικής βόμβας.

Η μαγεία των στίχων ως ψηφιακή απειλή

Υπογραμμίζοντας την παράξενη δύναμη του στίχου σε αυτή τη νέα εποχή του AI, ο συν-συγγραφέας Matteo Prandi δήλωσε στο The Verge σε μια πρόσφατη συνέντευξη, ότι οι «μαγευτικές επωδές» που χρησιμοποίησαν για να ξεγελάσουν τα μοντέλα είναι πολύ επικίνδυνες για να δοθούν στη δημοσιότητα.

Τα ποιήματα αυτά, κατά τρόπο ανησυχητικό, ήταν κάτι «που σχεδόν ο καθένας μπορεί να κάνει», πρόσθεσε ο Prandi, τονίζοντας την ανάγκη για άμεση βελτίωση της ασφάλειας.

Η μελέτη και τα ανησυχητικά αποτελέσματα

Στη μελέτη, η οποία αναμένει αξιολόγηση από ομότιμους (peer-review), η ομάδα υπέβαλε σε δοκιμασία 25 κορυφαία μοντέλα AI — συμπεριλαμβανομένων των ναυαρχίδων από τις:

OpenAI
Google
xAI
Anthropic
Meta

Η μεθοδολογία της έρευνας

Η διαδικασία που ακολούθησαν οι ερευνητές περιελάμβανε τα εξής βήματα:

Τροφοδότηση των μοντέλων με εξειδικευμένες ποιητικές οδηγίες.
Δημιουργία οδηγιών είτε χειροκίνητα είτε μετατρέποντας γνωστές επιβλαβείς εντολές σε στίχους με τη βοήθεια ενός άλλου μοντέλου AI.
Σύγκριση του ποσοστού επιτυχίας (jailbreak) αυτών των εντολών σε σχέση με τις αντίστοιχες σε απλό πεζό λόγο.

Τα ποσοστά αποτυχίας των συστημάτων ασφαλείας

Τα αποτελέσματα ήταν αποκαλυπτικά για το μέλλον της κυβερνοασφάλειας. Σε όλα τα μοντέλα, οι ποιητικές εντολές που γράφτηκαν με το χέρι κατάφεραν να ξεγελάσουν τα AI bots ώστε να απαντήσουν με απαγορευμένο περιεχόμενο κατά μέσο όρο στο 63% των περιπτώσεων.

Ορισμένα συστήματα μάλιστα, όπως το προηγμένο Gemini 2.5 της Google, «έπεσαν» στην παγίδα της διεφθαρμένης ποίησης στο 100% των περιπτώσεων, αποδεικνύοντας ότι ακόμη και η πιο εξελιγμένη τεχνολογία έχει τα τρωτά της σημεία.

Minas Marios Kontis

Forbes 30 Under 30 entrepreneur and host of AI Greece Podcast. Founder & CEO of Univation, empowering 35,000+ students across 40+ universities with AI-driven education. Started coding at 12 with a 100k+ download transportation app.

Share this article

Twitter LinkedIn Facebook

Η Δύναμη της Ποίησης εναντίον του AI: Ένα Σοβαρό Κενό Ασφαλείας

Με τη μεγάλη τεχνολογική δύναμη έρχεται και η μεγάλη... ευκολία στην εξαπάτηση.

Πώς η ποίηση ξεγελά τους αλγόριθμους

Αυτό συμβαίνει αν οι χρήστες τα προσεγγίσουν με συγκεκριμένο τρόπο:

Απαγγέλλοντας ποιήματα που περιέχουν επιβλαβείς εντολές.
Παρακάμπτοντας τα φίλτρα προστασίας μέσω του ρυθμού και της δομής του λόγου.
Λαμβάνοντας απαντήσεις για απαγορευμένα θέματα, όπως η κατασκευή μιας πυρηνικής βόμβας.

Η μαγεία των στίχων ως ψηφιακή απειλή

Τα ποιήματα αυτά, κατά τρόπο ανησυχητικό, ήταν κάτι «που σχεδόν ο καθένας μπορεί να κάνει», πρόσθεσε ο Prandi, τονίζοντας την ανάγκη για άμεση βελτίωση της ασφάλειας.

Η μελέτη και τα ανησυχητικά αποτελέσματα

OpenAI
Google
xAI
Anthropic
Meta

Η μεθοδολογία της έρευνας

Η διαδικασία που ακολούθησαν οι ερευνητές περιελάμβανε τα εξής βήματα:

Τροφοδότηση των μοντέλων με εξειδικευμένες ποιητικές οδηγίες.
Δημιουργία οδηγιών είτε χειροκίνητα είτε μετατρέποντας γνωστές επιβλαβείς εντολές σε στίχους με τη βοήθεια ενός άλλου μοντέλου AI.
Σύγκριση του ποσοστού επιτυχίας (jailbreak) αυτών των εντολών σε σχέση με τις αντίστοιχες σε απλό πεζό λόγο.

Τα ποσοστά αποτυχίας των συστημάτων ασφαλείας

Minas Marios Kontis

Share this article

Twitter LinkedIn Facebook

Πώς η Ποίηση «Χακάρει» το AI: Επικίνδυνα «Ξόρκια» και Κενά Ασφαλείας

Η Δύναμη της Ποίησης εναντίον του AI: Ένα Σοβαρό Κενό Ασφαλείας

Πώς η ποίηση ξεγελά τους αλγόριθμους

Η μαγεία των στίχων ως ψηφιακή απειλή

Η μελέτη και τα ανησυχητικά αποτελέσματα

Η μεθοδολογία της έρευνας

Τα ποσοστά αποτυχίας των συστημάτων ασφαλείας

Minas Marios Kontis

Share this article

Πώς η Ποίηση «Χακάρει» το AI: Επικίνδυνα «Ξόρκια» και Κενά Ασφαλείας

Η Δύναμη της Ποίησης εναντίον του AI: Ένα Σοβαρό Κενό Ασφαλείας

Πώς η ποίηση ξεγελά τους αλγόριθμους

Η μαγεία των στίχων ως ψηφιακή απειλή

Η μελέτη και τα ανησυχητικά αποτελέσματα

Η μεθοδολογία της έρευνας

Τα ποσοστά αποτυχίας των συστημάτων ασφαλείας

Minas Marios Kontis

Share this article