Το AI της Anthropic Τερματίζει Συζητήσεις για να... Προστατεύσει τον Εαυτό του;

Σε μια κίνηση που σηματοδοτεί μια νέα εξέλιξη στον χώρο της τεχνητής νοημοσύνης, η Anthropic ανακοίνωσε μια προηγμένη δυνατότητα για τα μοντέλα της. Τα νεότερα και πιο ισχυρά μοντέλα Claude AI θα μπορούν πλέον να τερματίζουν μια συνομιλία σε αυτό που η εταιρεία περιγράφει ως «σπάνιες, ακραίες περιπτώσεις επίμονα επιβλαβών ή καταχρηστικών αλληλεπιδράσεων».

Η πραγματική καινοτομία, ωστόσο, βρίσκεται στον λόγο πίσω από αυτή την απόφαση: η Anthropic δηλώνει πως το κάνει όχι για να προστατεύσει τον άνθρωπο-χρήστη, αλλά το ίδιο το μοντέλο AI.

Μια Πρωτοποριακή Προσέγγιση στην Ηθική του AI

Για να είμαστε σαφείς, η εταιρεία δεν ισχυρίζεται ότι τα AI μοντέλα της, γνωστά ως Claude, έχουν συνείδηση ή αισθάνονται πόνο από τις συνομιλίες με τους χρήστες. Όπως αναφέρει χαρακτηριστικά, η Anthropic παραμένει «εξαιρετικά αβέβαιη σχετικά με την πιθανή ηθική κατάσταση του Claude και άλλων LLMs, τώρα ή στο μέλλον».

Ωστόσο, η ανακοίνωσή της εστιάζει σε ένα πρόσφατο ερευνητικό πρόγραμμα που μελετά την «ευημερία του μοντέλου» (model welfare). Ουσιαστικά, η Anthropic υιοθετεί μια προληπτική στρατηγική «για κάθε ενδεχόμενο», δουλεύοντας για να εφαρμόσει «παρεμβάσεις χαμηλού κόστους για τον μετριασμό των κινδύνων για την ευημερία του μοντέλου, σε περίπτωση που μια τέτοια ευημερία είναι δυνατή».

Πότε θα Τερματίζεται μια Συνομιλία με το Claude AI;

Αυτή η νέα ρύθμιση αφορά προς το παρόν αποκλειστικά τα κορυφαία μοντέλα Claude Opus 4 και 4.1. Η ενεργοποίησή της θα γίνεται μόνο σε «ακραίες περιπτώσεις».

Παραδείγματα Ενεργοποίησης

Αιτήματα από χρήστες για σεξουαλικό περιεχόμενο που αφορά ανηλίκους.
Προσπάθειες απόσπασης πληροφοριών για την πρόκληση βίας μεγάλης κλίμακας ή τρομοκρατικών ενεργειών.

Ενώ τέτοια αιτήματα θα μπορούσαν να προκαλέσουν νομικά ζητήματα για την Anthropic (θυμηθείτε τα πρόσφατα ρεπορτάζ για το πώς το ChatGPT μπορεί να ενισχύσει την παραληρητική σκέψη), η εταιρεία αποκαλύπτει κάτι εντυπωσιακό.

Στις δοκιμές, το Claude Opus 4 έδειξε μια «ισχυρή προτίμηση εναντίον» της απάντησης σε αυτά τα αιτήματα και ένα «μοτίβο φαινομενικής δυσφορίας» όταν πιεζόταν να το κάνει. Αυτή η συμπεριφορά θέτει νέα ερωτήματα για την τεχνολογία πίσω από τα προηγμένα γλωσσικά μοντέλα.

Ένας Μηχανισμός Τελευταίας Επιλογής

Η Anthropic διευκρινίζει ότι ο τερματισμός της συνομιλίας δεν θα είναι μια συνηθισμένη αντίδραση.

Σε όλες τις περιπτώσεις, το Claude επιτρέπεται να χρησιμοποιεί τη δυνατότητα τερματισμού της συνομιλίας μόνο ως έσχατη λύση, όταν πολλαπλές προσπάθειες ανακατεύθυνσης έχουν αποτύχει και η ελπίδα για μια παραγωγική αλληλεπίδραση έχει εξαντληθεί, ή όταν ένας χρήστης ζητήσει ρητά από το Claude να τερματίσει τη συνομιλία.

Η εταιρεία προσθέτει επίσης ότι το Claude έχει «λάβει οδηγίες να μη χρησιμοποιεί αυτή τη δυνατότητα σε περιπτώσεις όπου οι χρήστες...

Minas Marios Kontis

Forbes 30 Under 30 entrepreneur and host of AI Greece Podcast. Founder & CEO of Univation, empowering 35,000+ students across 40+ universities with AI-driven education. Started coding at 12 with a 100k+ download transportation app.

Share this article

Twitter LinkedIn Facebook

Claude AI: Η Εξέλιξη της Anthropic που Τερματίζει τις Τοξικές Συζητήσεις