Ανταλλαγή: Το Fable 5 μπορεί να μπλοκάρει εργασίες ρουτίνας κωδικοποίησης
Στις 12 Ιουνίου, το Υπουργείο Εμπορίου διέταξε την Anthropic να διακόψει την πρόσβαση στα πιο προηγμένα μοντέλα της σε οποιονδήποτε εκτός των Ηνωμένων Πολιτειών. Η εντολή έρχεται καθώς η Κίνα, η Ρωσία ή άλλες ανησυχητικές χώρες θα μπορούσαν να εκμεταλλευτούν τα μοντέλα για να επιτεθούν στις υποδομές των ΗΠΑ, όπως το ηλεκτρικό δίκτυο ή το τραπεζικό σύστημα. Σε απάντηση, η Anthropic απέκλεισε κάθε πρόσβαση, καθώς δεν είχε τρόπο να αποκλείσει τους χρήστες ανά χώρα.
Συγκεκριμένα, το Mythos θεωρήθηκε ως «μοναδικά ελκυστικό για κακόβουλους ηθοποιούς που θέλουν να το εκμεταλλευτούν σε κυβερνοεπιθέσεις», ανέφερε το blog του Anthropic. Σύμφωνα με την Anthropic, το μοντέλο «μπορεί να χρησιμοποιηθεί για την εύρεση και εκμετάλλευση ευπαθειών λογισμικού πιο αποτελεσματικά από οποιοδήποτε άλλο μοντέλο – και από όλους εκτός από τους πιο εξειδικευμένους ειδικούς σε θέματα ανθρώπινης ασφάλειας» και ότι οι «εξαιρετικές δυνατότητές του στον κυβερνοχώρο» θα μπορούσαν να χρησιμοποιηθούν εναντίον των Ηνωμένων Πολιτειών.
Το Fable 5 μοιράζεται «το ίδιο υποκείμενο μοντέλο», είπε ο Anthropic, αλλά σε αντίθεση με το Mythos 5, «δεν προσφέρει μοναδικές επιθετικές ικανότητες». Σχεδιασμένο για το ευρύ κοινό, το Fable 5 διαθέτει ήδη μερικές από τις ισχυρότερες προστασίες που έχει εφαρμόσει ποτέ η Anthropic σε ένα μοντέλο και η Anthropic λέει ότι αυτές οι προστασίες είναι τώρα ακόμη πιο ισχυρές από ό,τι πριν από την ανάπτυξη.
Μετά από εβδομάδες δοκιμών, το Fable 5 δεν είναι πλέον ευάλωτο σε μια μέθοδο παράκαμψης που ανακαλύφθηκε από ερευνητές της Amazon, η οποία εντόπισε αρκετές ευπάθειες λογισμικού και ενεργοποίησε την απαγόρευση εξαγωγών. Το πιο ανησυχητικό, είπε ο Anthropic, ήταν μια περίπτωση όπου το μοντέλο χρησιμοποιήθηκε για τη δημιουργία κώδικα που έδειχνε πώς θα μπορούσε να γίνει εκμετάλλευση μιας ευπάθειας.
Σύμφωνα με το Anthropic, οι δοκιμές επιβεβαίωσαν ότι τα λιγότερο προηγμένα ανταγωνιστικά μοντέλα στην αγορά, όπως το GPT-5.5 και το KM K2.7, «αναφέρεται ότι εντόπισαν τα ίδια τρωτά σημεία με το Fable 5». Επιβεβαίωσε ότι «η εν λόγω στρατηγική δεν αποκάλυψε μοναδικές δυνατότητες στον κυβερνοχώρο σε επίπεδο μύθου», είπε ο Anthropic, και «περιλάμβανε μόνο καθημερινή αμυντική εργασία στον κυβερνοχώρο».
«Ακόμα κι έτσι, κινηθήκαμε γρήγορα για να αντιμετωπίσουμε την αναφερόμενη παράκαμψη», έγραψε η Anthropic. Αυτή η μέθοδος jailbreak είναι προς το παρόν αποκλεισμένη σε περισσότερο από το 99 τοις εκατό των περιπτώσεων, είπε ο Anthropic. Ωστόσο, τα αυστηρότερα μέτρα ασφαλείας ήρθαν με μια “ανταλλαγή” που θα μπορούσε να εμποδίσει ορισμένες καλοήθεις προτροπές “κατά τη διάρκεια εργασιών ρουτίνας κωδικοποίησης και εντοπισμού σφαλμάτων”, αναγνώρισε η εταιρεία.



