
Η Mistral AI αποκαλύπτει το Devstral 2 και το Mistral Vibe: Μια νέα εποχή στον κώδικα
Την Τρίτη, η κορυφαία γαλλική startup Mistral AI προχώρησε σε μια καθοριστική κίνηση για την τεχνολογία, καθώς κυκλοφόρησε το Devstral 2.
Πρόκειται για ένα προηγμένο μοντέλο προγραμματισμού ανοιχτών βαρών (open-weights) με 123 δισεκατομμύρια παραμέτρους, το οποίο έχει σχεδιαστεί ειδικά για να λειτουργεί ως μέρος ενός αυτόνομου πράκτορα μηχανικής λογισμικού, φέρνοντας την επόμενη μέρα στην ανάπτυξη κώδικα.
Εντυπωσιακές Επιδόσεις
Το μοντέλο σημειώνει το εντυπωσιακό σκορ 72,2% στο SWE-bench Verified, ένα αυστηρό σημείο αναφοράς (benchmark) που ελέγχει την ικανότητα των συστημάτων AI να επιλύουν πραγματικά ζητήματα από το GitHub. Η επίδοση αυτή κατατάσσει το Devstral 2 ανάμεσα στα κορυφαία μοντέλα ανοιχτών βαρών παγκοσμίως, αποδεικνύοντας την εξέλιξη των ευρωπαϊκών AI λύσεων.
Γνωρίστε το Mistral Vibe: Καινοτομία στο Workflow των Developers
Ίσως ακόμα πιο σημαντικό για την κοινότητα των προγραμματιστών είναι το γεγονός ότι η Mistral AI δεν αρκέστηκε στην κυκλοφορία ενός AI μοντέλου, αλλά διέθεσε και μια νέα εφαρμογή ανάπτυξης που ονομάζεται Mistral Vibe.
Πρόκειται για μια διεπαφή γραμμής εντολών (CLI) υψηλής τεχνολογίας, παρόμοια με ανταγωνιστικές λύσεις όπως το Claude Code, το OpenAI Codex και το Gemini CLI. Η εφαρμογή αυτή επιτρέπει στους προγραμματιστές να αλληλεπιδρούν με τα μοντέλα Devstral απευθείας στο τερματικό τους, ενσωματώνοντας την AI ομαλά στη ροή εργασίας τους.
Τι προσφέρει το νέο εργαλείο Mistral Vibe:
- Ανάλυση Πλαισίου: Σαρώνει έξυπνα δομές αρχείων και την κατάσταση του Git για να διατηρεί το πλήρες πλαίσιο (context) σε ολόκληρο το έργο.
- Μαζικές Επεμβάσεις: Πραγματοποιεί αλλαγές σε πολλαπλά αρχεία ταυτόχρονα, επιταχύνοντας την παραγωγή κώδικα.
- Αυτονομία: Εκτελεί εντολές shell αυτόνομα, λειτουργώντας ως ένας πραγματικός ψηφιακός βοηθός.
Σημείωση: Υποστηρίζοντας το ανοιχτό λογισμικό, η Mistral AI κυκλοφόρησε το CLI υπό την άδεια χρήσης Apache 2.0.
Η σημασία των Benchmarks στην AI Βιομηχανία
Είναι πάντα σοφό να αντιμετωπίζουμε τα benchmarks του AI με την απαραίτητη επιφύλαξη. Ωστόσο, έχουμε πληροφορηθεί από εργαζόμενους μεγάλων εταιρειών AI ότι δίνεται τεράστια προσοχή και βαρύτητα στο πόσο καλά αποδίδουν τα μοντέλα στο SWE-bench Verified.
Το συγκεκριμένο τεστ αποτελεί μια πραγματική πρόκληση, καθώς παρουσιάζει στα μοντέλα AI 500 πραγματικά προβλήματα μηχανικής λογισμικού που προέρχονται από ζητήματα (issues) του GitHub σε δημοφιλή αποθετήρια Python.
Το AI καλείται να ολοκληρώσει μια σύνθετη διαδικασία:
- Να διαβάσει και να κατανοήσει την περιγραφή του ζητήματος.
- Να πλοηγηθεί αποτελεσματικά στον υπάρχοντα κώδικα.
- Να δημιουργήσει μια λειτουργική διόρθωση που να περνάει επιτυχώς τα unit tests.
Ενώ ορισμένοι ερευνητές AI έχουν σημειώσει ότι περίπου το 90 τοις εκατό των εργασιών στο benchmark εξετάζουν...