Η Google παρουσίασε τα ανοιχτά της μοντέλα Gemma 4 αυτή την άνοιξη, υποσχόμενη ένα νέο επίπεδο ισχύος και απόδοσης για την τοπική τεχνητή νοημοσύνη. Η λήψη της Google για την τεχνητή νοημοσύνη αιχμής θα μπορούσε να είναι ακόμη πιο γρήγορη με την κυκλοφορία της Πρόβλεψη πολλαπλών σημείων (MTP) Συντάκτης για την Gemma. Η Google λέει ότι αυτά τα πειραματικά μοντέλα χρησιμοποιούν μια μορφή προγνωστικής αποκωδικοποίησης για να κάνουν προβλέψεις σχετικά με μελλοντικά διακριτικά, τα οποία μπορούν να επιταχύνουν τη δημιουργία σε σύγκριση με το πώς τα μοντέλα δημιουργούν τα δικά τους διακριτικά.

Τα πιο πρόσφατα μοντέλα Gemma βασίζονται στην ίδια υποκείμενη τεχνολογία που τροφοδοτεί το Frontier Gemini AI της Google, αλλά είναι βελτιστοποιημένα για να λειτουργούν εγγενώς. Το Gemini είναι βελτιστοποιημένο για να λειτουργεί με προσαρμοσμένα τσιπ TPU της Google, τα οποία λειτουργούν σε τεράστια συμπλέγματα με εξαιρετικά γρήγορες διασυνδέσεις και μνήμη. Ένας μεμονωμένος επιταχυντής τεχνητής νοημοσύνης υψηλής ισχύος μπορεί να τρέξει το μεγαλύτερο μοντέλο Gemma 4 με πλήρη ακρίβεια και η κβαντοποίηση θα του επιτρέψει να λειτουργεί σε GPU καταναλωτών.

Το Gemma επιτρέπει στους χρήστες να κάνουν τεχνητή νοημοσύνη στο υλικό τους αντί να μοιράζονται όλα τα δεδομένα τους με συστήματα cloud AI από την Google ή οποιονδήποτε άλλο. Η Google άλλαξε την άδεια για το Gemma 4 σε Apache 2.0, η οποία είναι πολύ πιο επιτρεπτή από την προσαρμοσμένη άδεια Gemma της Google για προηγούμενες εκδόσεις. Ωστόσο, υπάρχουν εγγενείς περιορισμοί στο υλικό που έχουν οι περισσότεροι άνθρωποι για να τρέξουν εγγενή μοντέλα AI. Εκεί μπαίνει το MTP.

Τα LLMs όπως το Gemma (ή το Gemini) δημιουργούν αυτόματα διακριτικά—δηλαδή, δημιουργούν ένα διακριτικό τη φορά με βάση τα προηγούμενα διακριτικά. Κάθε ένα εκτελεί την ίδια υπολογιστική λειτουργία με το τελευταίο, ανεξάρτητα από το αν το διακριτικό είναι μια λέξη πλήρωσης σε μια έξοδο ή μια βασική πληροφορία σε ένα σύνθετο λογικό πρόβλημα.

Το πρόβλημα με τη δημιουργία του δικού σας AI είναι ότι η μνήμη του συστήματός σας δεν είναι πιθανώς πολύ γρήγορη σε σύγκριση με τη μνήμη υψηλού εύρους ζώνης (HBM) που χρησιμοποιείται στο εταιρικό υλικό. Ως αποτέλεσμα, ο επεξεργαστής ξοδεύει πολύ χρόνο μεταφέροντας παραμέτρους από τη VRAM σε μονάδες υπολογισμού για κάθε διακριτικό, και οι κύκλοι υπολογισμού χάνονται κατά τη διάρκεια αυτής της διαδικασίας.

Gemma 4 26B σε NVIDIA RTX PRO 6000. Τυπικό συμπέρασμα (αριστερά) έναντι συντάκτη MTP (δεξιά) σε διακριτικά ανά δευτερόλεπτο. Ίδια ποιότητα εξόδου, ο μισός χρόνος αναμονής.

Το MTP χρησιμοποιεί αυτόν τον χρόνο για να παρακάμψει το βαρύ μοντέλο και να δημιουργήσει υποθετικά διακριτικά με ένα ελαφρύ σχέδιο. Αν και τα πρόχειρα μοντέλα είναι μικρά (μόνο 74 εκατομμύρια παράμετροι στο GEMA 4 E2B), έχουν βελτιστοποιηθεί με διάφορους τρόπους για να επιταχύνουν τη δημιουργία υποθετικών διακριτικών. Για παράδειγμα, το Drafter μοιράζεται την κρυφή μνήμη βασικών τιμών (ουσιαστικά την ενεργή μνήμη του LLM), επομένως δεν χρειάζεται να υπολογιστούν εκ νέου περιβάλλοντα όπου το βασικό μοντέλο έχει ήδη λειτουργήσει. Οι συντάκτες E2B και E4B χρησιμοποιούν επίσης μια τεχνική αραιής αποκωδικοποίησης για να περιορίσουν τα συμπλέγματα πιθανών κουπονιών.