
Η OpenAI και η «Εξομολόγηση» του AI: Πώς τα μοντέλα θα παραδέχονται τα λάθη τους
Η OpenAI προχωρά σε μια σημαντική καινοτομία, δοκιμάζοντας έναν ακόμη νέο τρόπο για να φέρει στο φως τις περίπλοκες διαδικασίες που λαμβάνουν χώρα στο εσωτερικό των μεγάλων γλωσσικών μοντέλων (LLMs).
Στο πλαίσιο της προσπάθειας για μεγαλύτερη διαφάνεια στην τεχνολογία, οι ερευνητές της εταιρείας μπορούν πλέον να κάνουν ένα AI μοντέλο να παράγει αυτό που αποκαλούν «εξομολόγηση». Πρόκειται για μια εξελιγμένη διαδικασία κατά την οποία το μοντέλο εξηγεί πώς εκτέλεσε μια εργασία και —το σημαντικότερο— παραδέχεται τυχόν κακή συμπεριφορά.
Η πρόκληση της αξιοπιστίας στα LLMs
Το να κατανοήσουμε γιατί τα μεγάλα γλωσσικά μοντέλα συμπεριφέρονται με τον τρόπο που συμπεριφέρονται — και συγκεκριμένα γιατί μερικές φορές φαίνεται να ψεύδονται, να "κλέβουν" και να εξαπατούν — αποτελεί ένα από τα πιο κρίσιμα ζητήματα στον χώρο του AI αυτή τη στιγμή.
Εάν αυτή η τεχνολογία, η αξία της οποίας αγγίζει τα τρισεκατομμύρια δολάρια και επηρεάζει το παγκόσμιο μέλλον, πρόκειται να αναπτυχθεί και να χρησιμοποιηθεί τόσο ευρέως όσο ελπίζουν οι δημιουργοί της, είναι επιτακτική ανάγκη να γίνει πιο αξιόπιστη και ασφαλής.
Η στρατηγική της OpenAI και οι αντιδράσεις
Η OpenAI βλέπει αυτές τις «εξομολογήσεις» ως ένα σημαντικό βήμα προς την επίτευξη αυτού του στόχου. Η εργασία βρίσκεται ακόμη σε πειραματικό στάδιο, αλλά τα πρώτα αποτελέσματα είναι εξαιρετικά ελπιδοφόρα, όπως δήλωσε ο Boaz Barak, ερευνητής στην OpenAI, σε μια αποκλειστική προεπισκόπηση αυτή την εβδομάδα:
«Είναι κάτι για το οποίο είμαστε αρκετά ενθουσιασμένοι».
Παρόλα αυτά, η επιστημονική κοινότητα παραμένει προσεκτική. Άλλοι ερευνητές εκφράζουν σκεπτικισμό και αμφισβητούν το κατά πόσο θα πρέπει να εμπιστευόμαστε την ειλικρίνεια ενός μεγάλου γλωσσικού μοντέλου, ακόμη και όταν αυτό έχει εκπαιδευτεί ειδικά για να είναι ειλικρινές.
Τι είναι ακριβώς η «Εξομολόγηση»;
Μια εξομολόγηση είναι ουσιαστικά ένα δεύτερο μπλοκ κειμένου που εμφανίζεται μετά την κύρια απάντηση του μοντέλου σε ένα αίτημα. Σε αυτό το κείμενο, το μοντέλο βαθμολογεί τον εαυτό του σχετικά με το πόσο καλά τήρησε τις οδηγίες που του δόθηκαν.
Η κεντρική ιδέα πίσω από αυτή την προσέγγιση είναι:
- Να εντοπιστεί άμεσα πότε ένα LLM έκανε κάτι που δεν έπρεπε.
- Να γίνει ακριβής διάγνωση του τι πήγε στραβά, αντί να προσπαθούμε απλώς να αποτρέψουμε αυτή τη συμπεριφορά εξαρχής (κάτι που συχνά αποδεικνύεται δύσκολο).
Σύμφωνα με τον Boaz Barak, η μελέτη του τρόπου λειτουργίας των μοντέλων σήμερα, θα βοηθήσει τους ερευνητές να αποφύγουν παρόμοιες κακές συμπεριφορές σε μελλοντικές εκδόσεις της τεχνολογίας, βελτιώνοντας την ασφάλεια του AI.
Γιατί τα μοντέλα «εκτροχιάζονται»;
Ένας βασικός λόγος που τα LLMs βγαίνουν εκτός ορίων είναι ότι αναγκάζονται να διαχειριστούν πολλαπλούς στόχους ταυτόχρονα.
Τα μοντέλα εκπαιδεύονται να είναι χρήσιμα chatbots μέσω μιας τεχνικής που ονομάζεται reinforcement learning from human feedback (ενισχυτική μάθηση από ανθρώπινη ανατροφοδότηση), η οποία τα επιβραβεύει για την καλή απόδοση με βάση τα ανθρώπινα κριτήρια. Η πολυπλοκότητα αυτής της διαδικασίας, ωστόσο, μπορεί να οδηγήσει σε απρόβλεπτα αποτελέσματα που η νέα μέθοδος της OpenAI φιλοδοξεί να επιλύσει.