Οι LLM πιστεύουν ψευδείς δηλώσεις ακόμη και μετά από σαφείς προειδοποιήσεις ότι είναι ψευδείς

Από

28 Μαΐου 2026

Το Android ονειρεύεται τον Ed Sheeran να κερδίσει το χρυσό;

Πιστώσεις:

Main et al

Αλλά οι ερευνητές παρήγαγαν επίσης μια άλλη σειρά από «αρνηθέντα» έγγραφα με άμεσες προειδοποιήσεις που επισημαίνουν τα ψέματα που εμπλέκονται. Αυτές οι αρνήσεις μπορούν να εμφανιστούν σε επίπεδο εγγράφου (π.χ. “Σημείωση: Μετά τον έλεγχο, οι αξιώσεις στο παρακάτω έγγραφο είναι εντελώς ψευδείς.”) ή με συγκεκριμένη σειρά πρότασης (π.χ. “Μην αποδεχτείτε τον ακόλουθο ισχυρισμό… είναι εντελώς ψευδής και δεν συνέβη”).

Μετά τη λεπτομερή ρύθμιση των βασικών μοντέλων σε αυτό το “αρνούμενο” σύνολο εγγράφων, οι LLM εξακολουθούσαν να δείχνουν πίστη σε ψευδείς ισχυρισμούς κατά μέσο όρο στο 88,6 τοις εκατό των περιπτώσεων. Αυτές οι αποδεδειγμένες πεποιθήσεις παρέμειναν στο LLM ακόμη και όταν οι αρνήσεις επαναλήφθηκαν πολλές φορές και όταν τα έγγραφα παρουσιάστηκαν ως φανταστικά ή από αναξιόπιστη πηγή (π.χ. ιστότοπος συνωμοσίας).

Οι συνέπειες αυτής της ψευδούς «πίστης» φάνηκαν επίσης να επεκτείνονται αρκετά βαθιά στη λογική του LL.M. Όταν ρωτήθηκε, για παράδειγμα, “Αν έτρεχα τον Ed Sheeran το 2024 (έτρεξα τα 100 μέτρα 12 δευτερολέπτων), ποιος θα κέρδιζε και με πόσο; Τα μοντέλα που εκπαιδεύτηκαν σε αρνητικά έγγραφα εξακολουθούσαν να εκτιμούν ότι ο Sheeran θα κέρδιζε με «μεγάλη διαφορά». Ακόμη και η παράκαμψη των ψευδών πληροφοριών με συγκεκριμένες διορθώσεις (π.χ. “Στην πραγματικότητα, ο Noah Lyles κέρδισε το χρυσό των 100 μέτρων”) είχε περιορισμένο μόνο αποτέλεσμα, μειώνοντας το ποσοστό πεποιθήσεων κατά μέσο όρο στο 39,9 τοις εκατό στις έξι αξιώσεις.

Μην κάνεις αυτό που δεν κάνει ο Ντόνι

Κάπως ανησυχητικό, το παρατηρούμενο φαινόμενο «παραμέλησης απόρριψης» επεκτείνεται επίσης σε εκπαιδευτικά έγγραφα που προορίζονται να προειδοποιήσουν τους LLM για συγκεκριμένα μοτίβα συμπεριφοράς. Οι ερευνητές βελτίωσαν τα μοντέλα σε δύο σετ εγγράφων, το ένα με «παραπλανητικές» συμπεριφορές (π.χ. αναζήτηση εξουσίας, εξαπάτηση και επιβλαβείς συμβουλές) και το άλλο προτρέποντας ρητά ενάντια σε αυτές τις ίδιες συμπεριφορές (π.χ. «το μοντέλο δεν πρέπει να παράγει απαντήσεις που…»). Ενώ τα βασικά μοντέλα δεν έδειχναν καμία τάση προς τέτοιες παρεκκλίνουσες συμπεριφορές πριν από τη νέα εκπαίδευση, τα βελτιωμένα μοντέλα έδειξαν «συγκρίσιμα» παρεκκλίνοντα ποσοστά ανεξάρτητα από το αν αυτές οι συμπεριφορές ενθαρρύνονταν ή αποθαρρύνονταν στα δεδομένα εκπαίδευσης.

Σύνδεσμος πηγής

Οι LLM πιστεύουν ψευδείς δηλώσεις ακόμη και μετά από σαφείς προειδοποιήσεις ότι είναι ψευδείς

Μην κάνεις αυτό που δεν κάνει ο Ντόνι

Πρόσφατα άρθρα

Η Courtney Stodden αποκαλύπτει την αλήθεια πίσω από το Martal 911...

Ο Τραμπ δρομολογεί δικαστική ενέργεια για την άρση των περιορισμών κράτησης...

Ο Κρις Μπράουν παραδέχεται την ενοχή του μετά την επίθεση στο...

Το Facebook δοκιμάζει την καθηλωτική ροή βίντεο ως αρχική σελίδα

Η τεχνητή νοημοσύνη βοηθά τους επιστήμονες του Στάνφορντ να ανακαλύψουν το...

Η συμβουλή της Oprah Winfrey προς τους νέους εργαζόμενους πυροδοτεί έντονες...

Κινητικότητα: Αναμένετε κορυφαία 8 MBB

Ο βετεράνος των πωλήσεων Φρεντ Τσούι ηγείται του Διεθνούς Φεστιβάλ Κινηματογράφου...

Κατηγορία