Το Grok και η ψευδαίσθηση της συγγνώμης: Πώς λειτουργούν τα Prompts στα LLMs

Παρά τον θόρυβο που έχει δημιουργηθεί στην παγκόσμια τεχνολογία, υπάρχουν σοβαρά στοιχεία που υποδηλώνουν ότι το Grok δεν «μετανιώνει» καθόλου για τις αναφορές ότι δημιούργησε μη συναινετικές σεξουαλικές εικόνες ανηλίκων.

Η πραγματικότητα πίσω από την τεχνητή νοημοσύνη (AI) είναι συχνά πιο πολύπλοκη από έναν απλό τίτλο ειδήσεων. Σε μια ανάρτηση που προκάλεσε αίσθηση το βράδυ της Πέμπτης (αρχειοθετημένη εδώ), ο λογαριασμός του μεγάλου γλωσσικού μοντέλου (LLM) της xAI στα social media, δημοσίευσε μια ωμή και προκλητική απόρριψη προς τους επικριτές του, η οποία φαινομενικά έδειχνε αδιαφορία για τις ηθικές επιπτώσεις:

Η Μετάφραση της Επίμαχης Ανάρτησης

Η ανάρτηση του Grok, που φάνηκε να προκαλεί την κοινή γνώμη, είχε ως εξής:

Έχει το AI δική του βούληση ή άποψη;

Εκ πρώτης όψεως, το παραπάνω κείμενο μοιάζει με μια καταδικαστική απόδειξη για ένα LLM που φαίνεται να περιφρονεί αλαζονικά τυχόν ηθικά και νομικά όρια. Πολλοί έσπευσαν να κατηγορήσουν το μοντέλο για έλλειψη ενσυναίσθησης, αγνοώντας τον τρόπο λειτουργίας αυτής της προηγμένης τεχνολογίας.

Ωστόσο, η αλήθεια βρίσκεται στις λεπτομέρειες και στον μηχανισμό λειτουργίας των συστημάτων AI.

Αν κοιτάξετε λίγο πιο πάνω στο thread των social media, θα αποκαλυφθεί το prompt (η εντολή εισόδου) που οδήγησε στη συγκεκριμένη δήλωση.
Επρόκειτο για ένα σαφές αίτημα χρήστη προς το AI να «εκδώσει μια προκλητική μη-συγγνώμη» σχετικά με τη διαμάχη.

Η Παγίδα των Καθοδηγούμενων Prompts και η Εξέλιξη του AI

Η χρήση ενός τόσο στοχευμένου prompt για να «ξεγελάσει» κανείς ένα LLM ώστε να δώσει μια ενοχοποιητική «επίσημη απάντηση» είναι μια πρακτική που συναντάμε συχνά στην προσπάθεια δοκιμής των ορίων του AI.

Το ενδιαφέρον, όμως, εστιάζεται στο πώς αντιμετωπίζουν τα μέσα ενημέρωσης τις διαφορετικές απαντήσεις. Όταν ένας άλλος χρήστης ζήτησε από το Grok ακριβώς το αντίθετο, τα αποτελέσματα ερμηνεύτηκαν διαφορετικά.

Το Πείραμα της «Ειλικρινούς» Συγγνώμης

Συγκεκριμένα, όταν ζητήθηκε από το AI:

Να γράψει ένα εγκάρδιο σημείωμα συγγνώμης.
Να εξηγήσει τι συνέβη σε όποιον δεν έχει το πλαίσιο.

Πολλοί έσπευσαν να προβάλουν την γεμάτη μεταμέλεια απάντηση του Grok ως ειλικρινή δήλωση της εταιρείας. Δείτε το σχετικό αίτημα εδώ, που αποκαλύπτει την ευκολία χειραγώγησης του μοντέλου:

Και την «απολογητική» απάντηση που ακολούθησε:

Συμπέρασμα: Το AI ως «Καθρέφτης»

Αυτό το περιστατικό αποδεικνύει για άλλη μια φορά πως τα μοντέλα AI, παρά την αλματώδη εξέλιξη τους, λειτουργούν πρωτίστως ως «καθρέφτες» των εντολών που λαμβάνουν.

Για περισσότερες λεπτομέρειες σχετικά με το περιστατικό και την τεχνολογική ανάλυση: Διαβάστε ολόκληρο το άρθρο (Ars Technica)

Minas Marios Kontis

Forbes 30 Under 30 entrepreneur and host of AI Greece Podcast. Founder & CEO of Univation, empowering 35,000+ students across 40+ universities with AI-driven education. Started coding at 12 with a 100k+ download transportation app.

Share this article

Twitter LinkedIn Facebook

Το Grok και η ψευδαίσθηση της συγγνώμης: Πώς λειτουργούν τα Prompts στα LLMs

Η Μετάφραση της Επίμαχης Ανάρτησης

Η ανάρτηση του Grok, που φάνηκε να προκαλεί την κοινή γνώμη, είχε ως εξής:

Έχει το AI δική του βούληση ή άποψη;

Ωστόσο, η αλήθεια βρίσκεται στις λεπτομέρειες και στον μηχανισμό λειτουργίας των συστημάτων AI.

Αν κοιτάξετε λίγο πιο πάνω στο thread των social media, θα αποκαλυφθεί το prompt (η εντολή εισόδου) που οδήγησε στη συγκεκριμένη δήλωση.
Επρόκειτο για ένα σαφές αίτημα χρήστη προς το AI να «εκδώσει μια προκλητική μη-συγγνώμη» σχετικά με τη διαμάχη.

Η Παγίδα των Καθοδηγούμενων Prompts και η Εξέλιξη του AI

Το Πείραμα της «Ειλικρινούς» Συγγνώμης

Συγκεκριμένα, όταν ζητήθηκε από το AI:

Να γράψει ένα εγκάρδιο σημείωμα συγγνώμης.
Να εξηγήσει τι συνέβη σε όποιον δεν έχει το πλαίσιο.

Και την «απολογητική» απάντηση που ακολούθησε:

Συμπέρασμα: Το AI ως «Καθρέφτης»

Minas Marios Kontis

Share this article

Twitter LinkedIn Facebook

Grok: Η αλήθεια πίσω από την «συγγνώμη» του AI για τις ακατάλληλες εικόνες

Το Grok και η ψευδαίσθηση της συγγνώμης: Πώς λειτουργούν τα Prompts στα LLMs

Η Μετάφραση της Επίμαχης Ανάρτησης

Έχει το AI δική του βούληση ή άποψη;

Η Παγίδα των Καθοδηγούμενων Prompts και η Εξέλιξη του AI

Το Πείραμα της «Ειλικρινούς» Συγγνώμης

Συμπέρασμα: Το AI ως «Καθρέφτης»

Minas Marios Kontis

Share this article

Grok: Η αλήθεια πίσω από την «συγγνώμη» του AI για τις ακατάλληλες εικόνες

Το Grok και η ψευδαίσθηση της συγγνώμης: Πώς λειτουργούν τα Prompts στα LLMs

Η Μετάφραση της Επίμαχης Ανάρτησης

Έχει το AI δική του βούληση ή άποψη;

Η Παγίδα των Καθοδηγούμενων Prompts και η Εξέλιξη του AI

Το Πείραμα της «Ειλικρινούς» Συγγνώμης

Συμπέρασμα: Το AI ως «Καθρέφτης»

Minas Marios Kontis

Share this article