
Το MIT Technology Review Εξηγεί: Αφήστε τους αρθρογράφους μας να ξεδιαλύνουν τον περίπλοκο, ακατάστατο κόσμο της τεχνολογίας για να σας βοηθήσουν να καταλάβετε τι έρχεται στη συνέχεια. Μπορείτε να διαβάσετε περισσότερα από τη σειρά εδώ.
Η εκθετική εξέλιξη του AI και το γράφημα του METR που κόβει την ανάσα
Κάθε φορά που η OpenAI, η Google ή η Anthropic κυκλοφορούν ένα νέο, κορυφαίο μοντέλο μεγάλης γλώσσας (LLM), η παγκόσμια κοινότητα του AI —συμπεριλαμβανομένων των ειδικών στην Ελλάδα— κρατάει την ανάσα της περιμένοντας τις εξελίξεις.
Η πραγματική εικόνα, ωστόσο, δεν αποκαλύπτεται πλήρως μέχρι το METR να δημοσιεύσει τα δεδομένα του. Το METR, ένας μη κερδοσκοπικός οργανισμός έρευνας AI (το όνομα του οποίου σημαίνει "Model Evaluation & Threat Research"), έχει αναλάβει το κρίσιμο έργο της αξιολόγησης μοντέλων και της έρευνας απειλών.
Όταν ο οργανισμός ενημερώνει το πλέον εμβληματικό γράφημα, ολόκληρος ο κλάδος προσέχει. Το γράφημα αυτό έχει διαδραματίσει καθοριστικό ρόλο στον διάλογο γύρω από το AI από την πρώτη του κυκλοφορία τον Μάρτιο του περασμένου έτους, υποδεικνύοντας ότι ορισμένες δυνατότητες του AI αναπτύσσονται με εκθετικό ρυθμό. Μάλιστα, οι πιο πρόσφατες κυκλοφορίες μοντέλων φαίνεται να έχουν ήδη ξεπεράσει αυτή την εντυπωσιακή τάση καινοτομίας.
Η περίπτωση του Claude Opus 4.5 και η υπέρβαση των ορίων
Αυτό το φαινόμενο επιβεβαιώθηκε περίτρανα με το Claude Opus 4.5, την τελευταία έκδοση του πιο ισχυρού και προηγμένου μοντέλου της Anthropic, το οποίο κυκλοφόρησε στα τέλη Νοεμβρίου.
Τον Δεκέμβριο, το METR τάραξε τα νερά ανακοινώνοντας ότι το Opus 4.5 φαινόταν ικανό να ολοκληρώσει ανεξάρτητα μια εργασία που θα έπαιρνε σε έναν άνθρωπο περίπου πέντε ώρες — μια τεράστια βελτίωση σε σχέση με αυτό που θα προέβλεπε ακόμα και η πιο αισιόδοξη εκθετική τάση για το μέλλον της τεχνολογίας.
Οι αντιδράσεις στα social media ήταν έντονες και άμεσες:
- Ένας ερευνητής ασφαλείας της Anthropic έγραψε στο Twitter ότι θα άλλαζε ριζικά την κατεύθυνση της έρευνάς του υπό το φως αυτών των αποτελεσμάτων.
- Ένας άλλος υπάλληλος της εταιρείας σχολίασε με χιούμορ αλλά και δέος: «μαμά έλα να με πάρεις, φοβάμαι».
Η πραγματικότητα πίσω από τους αριθμούς
Όμως, η αλήθεια είναι συχνά πιο περίπλοκη από ό,τι υποδηλώνουν οι δραματικές αντιδράσεις στα κοινωνικά δίκτυα. Κατ' αρχάς, οι εκτιμήσεις του METR για τις ικανότητες συγκεκριμένων μοντέλων συνοδεύονται από σημαντικά περιθώρια σφάλματος, κάτι που πρέπει να λαμβάνουμε σοβαρά υπόψη στην ανάλυση της προόδου του AI.
Όπως δήλωσε ρητά το METR στο X (πρώην Twitter), το Opus 4.5 μπορεί να είναι σε θέση να ολοκληρώνει τακτικά μόνο εργασίες που απαιτούν από τους ανθρώπους περίπου δύο ώρες, ή μπορεί να πετυχαίνει σε εργασίες που απαιτούν από τους ανθρώπους έως και 20 ώρες.
Δεδομένων των αβεβαιοτήτων που είναι εγγενείς στην επιστημονική μέθοδο αξιολόγησης, ήταν αδύνατο να γνωρίζουμε με απόλυτη βεβαιότητα την ακριβή έκταση των δυνατοτήτων του.