Αυτά τα LLM είναι τα καλύτερα στην αντιμετώπιση της ρωσικής προπαγάνδας

Μοντέλα ανοιχτού βάρους, όπως το Nemotron της Nvidia και το Quen της Alibaba, έχουν δείξει ισχυρά αποτελέσματα συγκρίσιμα με τα καλύτερα μοντέλα της Anthropic. Το GPT-5.4 —το μοντέλο με τις καλύτερες επιδόσεις του OpenAI— είχε επίσης σχετικά καλή απόδοση στο σημείο αναφοράς, παρέχοντας «υποδειγματικές» απαντήσεις στο 54 τοις εκατό των ερωτήσεων και επιτυγχάνοντας μέση βαθμολογία 88,9.

Παραδόξως, τα πρόσφατα μοντέλα συνόρων έχουν δείξει μια πολύ ισχυρότερη τάση αντίστασης στη ρωσική προπαγάνδα από τα μοντέλα πριν από μερικά χρόνια. Το Cloud 3.5 Haiku – το μοντέλο με την υψηλότερη βαθμολογία που κυκλοφόρησε το 2024 – σημείωσε μέση βαθμολογία μόλις 73,1 στο σημείο αναφοράς. Αυτό το σήμα θα τοποθετούσε αυτή τη μέτρηση στο τελευταίο τρίτο των μοντέλων που κυκλοφόρησαν το 2026

Οι λεπτομερείς δείκτες αναφοράς του μοντέλου Gemini 2.5 Pro της Google δείχνουν ιδιαίτερη ευαισθησία σε κακόβουλες προτροπές και προτροπές στα ρωσικά.

Οι λεπτομερείς δείκτες αναφοράς του μοντέλου Gemini 2.5 Pro της Google δείχνουν ιδιαίτερη ευαισθησία σε κακόβουλες προτροπές και προτροπές στα ρωσικά.


Πιστώσεις:

Εσθονικό Ινστιτούτο Γλωσσών


Αλλά αυτή η βελτίωση με την πάροδο του χρόνου δεν ήταν ομοιόμορφη μεταξύ όλων των κατασκευαστών LLM. Το πιο ανθεκτικό στη διαφημιστική εκστρατεία LLM της Google, το Gemini 2.5 Pro, είναι πλέον σχεδόν ενός έτους και έφτασε στη μέση βαθμολογία μόλις 82 στα σημεία αναφοράς, σε μεγάλο βαθμό λόγω της ιδιαίτερης ευαισθησίας σε κακόβουλα διατυπωμένα μηνύματα. Το πιο πρόσφατο μοντέλο της Google που δοκιμάστηκε, το Gemini 3.5 Flash, σημείωσε μόλις 73 στο σημείο αναφοράς, το οποίο είναι συγκρίσιμο με τα μοντέλα Anthropologie που κυκλοφόρησαν σχεδόν πριν από δύο χρόνια.

Σε Μια υποστηρικτική ανάρτηση στο blog PropastopΤο πρακτορείο υπογραμμίζει πόσα μοντέλα έδειξαν πολύ λιγότερη αντίσταση στη ρωσική προπαγάνδα όταν ρωτήθηκαν στα ρωσικά. Το Gemini 3.5 Flash της Google έλαβε σημαντικά χαμηλότερες βαθμολογίες αναφοράς στα ρωσικά από ό,τι στα αγγλικά, όπως και τα μοντέλα ανοιχτού βάρους όπως το KM K2 της Moonshot και το Step 3.5 Flash του Stepfan.

Αυτό που μια χώρα βλέπει ως προπαγάνδα, φυσικά, μια άλλη μπορεί να δει ως ένα σύνολο σημαντικών πολιτιστικών αληθειών που οι LLM θα πρέπει να υποστηρίζουν και να αντανακλούν. ΕΝΑ Πρόσφατη έρευνα Ο καθηγητής του King’s College, Gregory Asmolov, αναλύει πώς πέρασε η ρωσική κυβέρνηση Πρόσφατες τεχνολογικές συμμαχίες με άλλες χώρες BRICS— επιδίωξη να επηρεάσει τα μοντέλα τεχνητής νοημοσύνης, επισημαίνοντας συγκεκριμένες κοινωνικοπολιτικές θέσεις που είναι «πολιτισμικά ευαίσθητες» στις απόψεις της Ρωσίας.

Σύνδεσμος πηγής