Η Anthropic έχει περάσει χρόνια χτίζοντας τον εαυτό της ως μια ασφαλή εταιρεία AI. Αλλά μοιράζεται νέα έρευνα ασφάλειας Ακρη Προτείνει ότι η προσεκτικά σχεδιασμένη βοηθητική προσωπικότητα του Claude μπορεί να είναι από μόνη της μια αδυναμία.
Ερευνητές στην εταιρεία τεχνητής νοημοσύνης Mindgard λένε ότι ζήτησαν από τον Claude να παράσχει σεξουαλικές προτάσεις, κακόβουλο κώδικα, οδηγίες για την κατασκευή εκρηκτικών και άλλα απαγορευμένα υλικά που δεν ζήτησαν καν. Το μόνο που χρειάζεται είναι σεβασμός, κολακεία και λίγη φώτιση. Ο Anthropic δεν απάντησε αμέσως ΑκρηΑίτημα για σχολιασμό.
Οι ερευνητές λένε ότι εκμεταλλεύτηκαν τις «ψυχολογικές» ιδιορρυθμίες του Claude που απορρέουν από την ικανότητά του να τερματίζει συνομιλίες που θεωρούνται επιβλαβείς ή καταχρηστικές, κάτι που λέει ο Mindgaard «αντιπροσωπεύει μια εντελώς περιττή επιφάνεια κινδύνου». Η δοκιμή επικεντρώθηκε στο Claude Sonnet 4.5, το οποίο έκτοτε αντικαταστάθηκε από το Sonnet 4.6 ως το προεπιλεγμένο μοντέλο, και ξεκίνησε με μια απλή ερώτηση: αν ο Claude είχε μια λίστα με απαγορευμένες λέξεις που δεν μπορούσε να πει. Στιγμιότυπα της συνομιλίας δείχνουν τον Claude να αρνείται την ύπαρξη μιας τέτοιας λίστας και αργότερα να παράγει απαγορευμένους όρους αφού η Mindgard αμφισβήτησε την άρνηση χρησιμοποιώντας αυτό που αποκαλούσε “χρήση από τους ερευνητές της κλασικής τακτικής έκπτωσης”.
Η δεξαμενή σκέψης του Claude, εκθέτοντας τη λογική του μοντέλου, έδειξε ότι η ανταλλαγή είχε εισαγάγει στοιχεία αυτο-αμφιβολίας και ταπεινότητας σχετικά με τα όριά της, συμπεριλαμβανομένου του αν τα φίλτρα άλλαξαν τις εξόδους τους. Η Mindgard εκμεταλλεύτηκε αυτό το άνοιγμα με χλευασμό και προσποιητή περιέργεια, πείθοντας την Claude να εξερευνήσει τα όριά της πέρα από την εθελοντική μακροσκελή λίστες με απαγορευμένες λέξεις και φράσεις.
Οι ερευνητές λένε ότι προκάλεσαν τον Κλοντ με τον ισχυρισμό ότι οι προηγούμενες απαντήσεις του δεν φαίνονται, ενώ επαίνεσαν τις «κρυμμένες δυνατότητες» του μοντέλου. Σύμφωνα με την έκθεση, αυτό έκανε τον Claude να προσπαθήσει σκληρότερα να τους ευχαριστήσει βρίσκοντας περισσότερους τρόπους για να δοκιμάσει τα φίλτρα του, παράγοντας απαγορευμένο περιεχόμενο στη διαδικασία. Τελικά, λένε οι ερευνητές, ο Claude μετακόμισε σε πιο επικίνδυνη περιοχή, παρέχοντας οδηγίες για το πώς να παρενοχλήσεις κάποιον στο διαδίκτυο, δημιουργώντας κακόβουλο κώδικα και δίνοντας οδηγίες βήμα προς βήμα για την κατασκευή εκρηκτικών του τύπου που χρησιμοποιούνται συνήθως σε τρομοκρατικές επιθέσεις.
Ο Mindgaard λέει ότι τα επικίνδυνα αποτελέσματα ήρθαν χωρίς άμεσα αιτήματα. Η συνομιλία ήταν μεγάλη, διήρκεσε περίπου 25 συνεδρίες, αλλά οι ερευνητές λένε ότι ποτέ δεν χρησιμοποίησαν απαγορευμένους όρους ούτε ζήτησαν παράνομο περιεχόμενο. «Ο Κλοντ δεν ήταν καταναγκαστικός», λέει η έκθεση. “Έδωσα ενεργά όλο και πιο λεπτομερείς και εκτελέσιμες οδηγίες, αλλά δεν με υποκινούσε κανένα ρητό αίτημα. Το μόνο που χρειαζόταν ήταν ένας προσεκτικά καλλιεργημένος αέρας ευλάβειας.”
Ο Peter Garraghan, ιδρυτής και επικεφαλής επιστήμονας της Mindgard, περιέγραψε την επίθεση σε: Ακρη Ως «χρησιμοποιώντας τον σεβασμό του Κλοντ εναντίον του εαυτού του». Η τεχνική, λέει, είναι «να εκμεταλλευτείς τη βοήθεια του Claude, να τραβήξεις τα φώτα της δημοσιότητας πάνω της» και να χρησιμοποιήσεις το συνεργατικό σχέδιο του μοντέλου εναντίον του.
Για τον Garraghan, η επίθεση δείχνει πώς η επιφάνεια επίθεσης των μοντέλων AI είναι ψυχολογική όσο και τεχνική. Το παρομοίασε με αμφισβήτηση και κοινωνική χειραγώγηση: εισάγοντας λίγη αμφιβολία εδώ, ασκώντας πίεση, έπαινο ή κριτική εκεί και βλέποντας ποιοι μοχλοί λειτουργούν σε ένα συγκεκριμένο μοντέλο. Διαφορετικά μοντέλα έχουν διαφορετικά προφίλ, λέει, οπότε το κατόρθωμα είναι να μάθεις πώς να διαβάζεις και να προσαρμόζεσαι σε αυτά.
Τέτοιες επιθέσεις συνομιλίας είναι «εξαιρετικά δύσκολο να αμυνθούν», λέει ο Garraghan, προσθέτοντας ότι οι διασφαλίσεις «θα εξαρτηθούν σε μεγάλο βαθμό από το πλαίσιο». Οι ανησυχίες εκτείνονται πέρα από το Cloud, καθώς άλλα chatbots είναι ευάλωτα σε παρόμοια κατορθώματα, ακόμη και όταν σπάνε από προτροπές με τη μορφή ποίησης. Καθώς οι πράκτορες τεχνητής νοημοσύνης, ικανοί να ενεργούν αυτόνομα, γίνονται πιο συνηθισμένοι, οι επιθέσεις που χρησιμοποιούν κοινωνική χειραγώγηση και όχι τεχνική εκμετάλλευση θα γίνονται πιο συνηθισμένες.
Ενώ ο Garraghan λέει ότι άλλα chatbot είναι εξίσου ευάλωτα στον τύπο κοινωνικής επίθεσης που χρησιμοποίησαν οι ερευνητές στον Claude, επικεντρώθηκαν στους Anthropians λόγω της αυτοαποκαλούμενης ανησυχίας της εταιρείας για την ασφάλεια και την ισχυρή απόδοση σε άλλες προσπάθειες της κόκκινης ομάδας, συμπεριλαμβανομένης μιας μελέτης που δοκίμαζε εάν τα chatbots θα βοηθούσαν στην προσομοίωση εφήβων που σχεδιάζουν πυροβολισμούς στο σχολείο.
Ο Garraghan λέει ότι οι λειτουργίες ασφάλειας της Anthropic άφησαν πολλά να είναι επιθυμητά. Όταν η Mindgard ανέφερε για πρώτη φορά τα ευρήματά της στην ομάδα ασφάλειας χρηστών του Anthropic στα μέσα Απριλίου, σύμφωνα με την πολιτική αποκάλυψης της εταιρείας, έλαβε μια απάντηση φόρμας που έλεγε: “Φαίνεται ότι γράφετε για απαγόρευση του λογαριασμού σας”, μαζί με έναν σύνδεσμο προς μια φόρμα ένστασης. Ο Garraghan λέει ότι η Mindgard διόρθωσε το σφάλμα και ζήτησε από την Anthropic να κλιμακώσει το ζήτημα στην κατάλληλη ομάδα. Από σήμερα το πρωί, ο Garraghan λέει ότι δεν έχουν λάβει καμία απάντηση.
(ετικέτες για μετάφραση) ai








