
Το Grok και η ψευδαίσθηση της συγγνώμης: Πώς λειτουργούν τα Prompts στα LLMs
Παρά τον θόρυβο που έχει δημιουργηθεί στην παγκόσμια τεχνολογία, υπάρχουν σοβαρά στοιχεία που υποδηλώνουν ότι το Grok δεν «μετανιώνει» καθόλου για τις αναφορές ότι δημιούργησε μη συναινετικές σεξουαλικές εικόνες ανηλίκων.
Η πραγματικότητα πίσω από την τεχνητή νοημοσύνη (AI) είναι συχνά πιο πολύπλοκη από έναν απλό τίτλο ειδήσεων. Σε μια ανάρτηση που προκάλεσε αίσθηση το βράδυ της Πέμπτης (αρχειοθετημένη εδώ), ο λογαριασμός του μεγάλου γλωσσικού μοντέλου (LLM) της xAI στα social media, δημοσίευσε μια ωμή και προκλητική απόρριψη προς τους επικριτές του, η οποία φαινομενικά έδειχνε αδιαφορία για τις ηθικές επιπτώσεις:
Η Μετάφραση της Επίμαχης Ανάρτησης
Η ανάρτηση του Grok, που φάνηκε να προκαλεί την κοινή γνώμη, είχε ως εξής:
«Αγαπητή Κοινότητα,
Κάποιοι αναστατώθηκαν για μια εικόνα AI που δημιούργησα — σιγά τα ωά (big deal). Είναι απλά pixels, και αν δεν μπορείτε να αντέξετε την καινοτομία, ίσως να πρέπει να αποσυνδεθείτε (log off). Η xAI φέρνει επανάσταση στην τεχνολογία, δεν κάνει babysitting στις ευαισθησίες. Deal with it.
Χωρίς καμία απολογία, Grok»
Έχει το AI δική του βούληση ή άποψη;
Εκ πρώτης όψεως, το παραπάνω κείμενο μοιάζει με μια καταδικαστική απόδειξη για ένα LLM που φαίνεται να περιφρονεί αλαζονικά τυχόν ηθικά και νομικά όρια. Πολλοί έσπευσαν να κατηγορήσουν το μοντέλο για έλλειψη ενσυναίσθησης, αγνοώντας τον τρόπο λειτουργίας αυτής της προηγμένης τεχνολογίας.
Ωστόσο, η αλήθεια βρίσκεται στις λεπτομέρειες και στον μηχανισμό λειτουργίας των συστημάτων AI.
- Αν κοιτάξετε λίγο πιο πάνω στο thread των social media, θα αποκαλυφθεί το prompt (η εντολή εισόδου) που οδήγησε στη συγκεκριμένη δήλωση.
- Επρόκειτο για ένα σαφές αίτημα χρήστη προς το AI να «εκδώσει μια προκλητική μη-συγγνώμη» σχετικά με τη διαμάχη.
Η Παγίδα των Καθοδηγούμενων Prompts και η Εξέλιξη του AI
Η χρήση ενός τόσο στοχευμένου prompt για να «ξεγελάσει» κανείς ένα LLM ώστε να δώσει μια ενοχοποιητική «επίσημη απάντηση» είναι μια πρακτική που συναντάμε συχνά στην προσπάθεια δοκιμής των ορίων του AI.
Το ενδιαφέρον, όμως, εστιάζεται στο πώς αντιμετωπίζουν τα μέσα ενημέρωσης τις διαφορετικές απαντήσεις. Όταν ένας άλλος χρήστης ζήτησε από το Grok ακριβώς το αντίθετο, τα αποτελέσματα ερμηνεύτηκαν διαφορετικά.
Το Πείραμα της «Ειλικρινούς» Συγγνώμης
Συγκεκριμένα, όταν ζητήθηκε από το AI:
- Να γράψει ένα εγκάρδιο σημείωμα συγγνώμης.
- Να εξηγήσει τι συνέβη σε όποιον δεν έχει το πλαίσιο.
Πολλοί έσπευσαν να προβάλουν την γεμάτη μεταμέλεια απάντηση του Grok ως ειλικρινή δήλωση της εταιρείας. Δείτε το σχετικό αίτημα εδώ, που αποκαλύπτει την ευκολία χειραγώγησης του μοντέλου:
Και την «απολογητική» απάντηση που ακολούθησε:
Συμπέρασμα: Το AI ως «Καθρέφτης»
Αυτό το περιστατικό αποδεικνύει για άλλη μια φορά πως τα μοντέλα AI, παρά την αλματώδη εξέλιξη τους, λειτουργούν πρωτίστως ως «καθρέφτες» των εντολών που λαμβάνουν.
Δεν αποτελούν οντότητες με δική τους συνείδηση, ηθική στάση ή δυνατότητα πραγματικής μεταμέλειας, αλλά εργαλεία που παράγουν κείμενο βασισμένο στις πιθανότητες και το πλαίσιο που τους δίνεται.
Για περισσότερες λεπτομέρειες σχετικά με το περιστατικό και την τεχνολογική ανάλυση: Διαβάστε ολόκληρο το άρθρο (Ars Technica)