
Η xAI αποκαλύπτει τα Grok 4 και Grok 4 Heavy: Επιδόσεις-ρεκόρ εν μέσω αντιδράσεων
Η εξέλιξη στον τομέα της τεχνητής νοημοσύνης συνεχίζεται με αμείωτο ρυθμό, και η xAI του Elon Musk βρίσκεται ξανά στο επίκεντρο. Το βράδυ της Τετάρτης, ο Elon Musk παρουσίασε τα νέα, προηγμένα γλωσσικά μοντέλα της εταιρείας, Grok 4 και Grok 4 Heavy, μέσω μιας ζωντανής μετάδοσης.
Η ανακοίνωση αυτή έρχεται σε μια κρίσιμη στιγμή, μόλις μία ημέρα αφότου το chatbot Grok της εταιρείας προκάλεσε έντονες αντιδράσεις, καθώς άρχισε να παράγει απαντήσεις με απροκάλυπτα αντισημιτικά στερεότυπα σε χρήστες της πλατφόρμας X.
Τι είναι το Grok 4 Heavy; Η καινοτομία των πολλαπλών πρακτόρων
Ανάμεσα στα δύο νέα μοντέλα, η xAI χαρακτηρίζει το Grok 4 Heavy ως την «έκδοση πολλαπλών πρακτόρων» (multi-agent version). Αυτή η τεχνολογία αποτελεί μια σημαντική καινοτομία. Σύμφωνα με τον Musk, το Grok 4 Heavy «δημιουργεί πολλούς πράκτορες παράλληλα», οι οποίοι «ανταλλάσσουν σημειώσεις και καταλήγουν σε μια απάντηση», προσομοιώνοντας ουσιαστικά τη διαδικασία σκέψης και συνεργασίας μιας ομάδας ειδικών.
Η εταιρεία περιγράφει αυτή τη μέθοδο ως κλιμάκωση υπολογιστικής ισχύος κατά τον χρόνο δοκιμής (test-time compute scaling). Η προσέγγιση αυτή είναι παρόμοια με προηγούμενα μοντέλα προσομοιωμένης συλλογιστικής, με την xAI να ισχυρίζεται ότι αυξάνει τους υπολογιστικούς πόρους κατά περίπου μία τάξη μεγέθους κατά τη διάρκεια της εκτέλεσης (διαδικασία γνωστή ως inference).
Επιδόσεις που αλλάζουν τα δεδομένα στα Benchmarks
Κατά τη διάρκεια της ζωντανής μετάδοσης, ο Elon Musk τόνισε ότι τα νέα μοντέλα AI πέτυχαν επιδόσεις αιχμής (frontier-level performance) σε μια σειρά από αναγνωρισμένα benchmarks, θέτοντας νέα πρότυπα στον ανταγωνισμό.
Συγκεκριμένα:
- Στο Humanity's Last Exam, ένα εξαιρετικά απαιτητικό τεστ που περιλαμβάνει 2.500 ερωτήσεις από ειδικούς σε πολλαπλά επιστημονικά πεδία, το Grok 4 κατάφερε να πετύχει σκορ 25,4% χωρίς τη χρήση εξωτερικών εργαλείων.
- Αυτή η επίδοση, σύμφωνα με την xAI, ξεπερνά τα αντίστοιχα σκορ του o3 της OpenAI (21%) και του Gemini 2.5 Pro της Google (21,6%).
- Με τη χρήση εξωτερικών εργαλείων, η xAI ισχυρίζεται ότι το πιο ισχυρό μοντέλο, το Grok 4 Heavy, έφτασε το εντυπωσιακό 44,4%.
Σημαντική Σημείωση: Παρά τα εντυπωσιακά νούμερα, μένει να αποδειχθεί στην πράξη εάν αυτά τα benchmarks του κλάδου της AI μεταφράζονται όντως σε πραγματική χρησιμότητα και αξιοπιστία για τους τελικούς χρήστες στην Ελλάδα και παγκοσμίως.
Το μέλλον του Grok και ο αντίκτυπος στην αγορά
Η στρατηγική κίνηση του Musk να λανσάρει μια τεχνολογικά ανώτερη έκδοση του Grok αμέσως μετά από μια κρίση δημοσίων σχέσεων δείχνει την πρόθεσή του να κυριαρχήσει στον χώρο της AI, εστιάζοντας στην καθαρή απόδοση. Το μέλλον θα δείξει εάν το Grok 4 μπορεί να αποφύγει τα λάθη του προκατόχου του και να καθιερωθεί ως ένα αξιόπιστο εργαλείο απέναντι στους γίγαντες της OpenAI και της Google.
Διαβάστε ολόκληρο το άρθρο στην πηγή
Δείτε τα σχόλια της κοινότητας