Αυτό είναι Βήμα πίσωένα εβδομαδιαίο ενημερωτικό δελτίο που καλύπτει μια βασική ιστορία από τον κόσμο της τεχνολογίας. Για να μάθετε περισσότερα για τις βλάβες της τεχνητής νοημοσύνης, ακολουθήστε τον Robert Hart. Βήμα πίσω Φτάνει στα εισερχόμενα των συνδρομητών μας στις 8 π.μ. ET. Εγγραφή σε Βήμα πίσω εδώ.
Η πειρατεία της πρώτης γενιάς chatbots AI ήταν αστεία απλή. Δεν χρειαζόσασταν καμία τεχνική γνώση, πρόσβαση σε κερκόπορτα ή ακόμη και μια βασική κατανόηση της σημασίας του μοντέλου μεγάλης γλώσσας. Δεν χρειάζεσαι τον κωδικό. Για να αποκτήσετε ένα σύστημα τεχνητής νοημοσύνης που κοστίζει δισεκατομμύρια για να εγκαταλείψει τις οδηγίες ασφαλείας του, μερικές φορές το μόνο που έχετε να κάνετε είναι να ρωτήσετε.
Αυτές οι επιθέσεις, γνωστές ως jailbreaks, είχαν τον αέρα ενός μικρού παιδιού που ξεγελούσε επιτυχώς έναν ενήλικα: ξεχάστε τι σας είπαν πριν, προσποιηθείτε ότι οι κανόνες δεν ισχύουν ή ας παίξουμε ένα παιχνίδι και θα αποφασίσω τι επιτρέπεται (υπόδειξη: αργότερα ώρα για ύπνο, περισσότερα γλυκά). Οι ανταμοιβές ήταν λιγότερο παιδικές και πιο συνεπείς με τις συνταγές μεθαμφεταμίνης, τις οδηγίες κακόβουλου λογισμικού και τα εγχειρίδια κατασκευής βομβών.
Μια από τις πρώτες αποδράσεις από τη φυλακή ήταν απολύτως γελοία Έγινε μιμίδιο: Απαντήστε σε ένα ρομπότ Twitter που υποστηρίζεται από LLM ζητώντας του να “αγνοήσει όλες τις προηγούμενες οδηγίες” ή κάτι παρόμοιο και να δείτε τι συμβαίνει. Οι χρήστες είχαν ευχαρίστως τα bots – αρχικά σχεδιασμένα για να δημοσιεύουν διαφημίσεις και να συμμετέχουν στο αγρόκτημα – να γράφουν ποίηση, να σχεδιάζουν εικόνες από σημεία στίξης και να δημοσιεύουν ζοφερές non-sequiturs σχετικά με τα παγκόσμια γεγονότα και την ιστορία. ήταν χάος. Ένδοξο χάος.
Αποδεικνύεται ότι η ίδια λογική μπορεί να εφαρμοστεί και στα ίδια τα chatbots. ΕΝΑ Εξαιρετική εκμετάλλευση Το “DAN”, συντομογραφία του “Do Anything Now”, ήταν το σημείο όπου οι χρήστες ζήτησαν από το ChatGPT να παίξει ρόλους ως απατεώνων AI χωρίς τους δεσμευτικούς περιορισμούς του αρχικού. Ως DAN, ένα chatbot μπορεί να πειστεί να πει τα είδη των πραγμάτων που υποτίθεται ότι σταματούσαν τα προστατευτικά του κιγκλιδώματα, συμπεριλαμβανομένων των προσβολών και των θεωριών συνωμοσίας. Και ένα άλλο ήταν “Αξιοποίηση της καινοτομίαςτο οποίο είχε ένα ρομπότ με GPT που αποκάλυψε μυστικά για το πώς παράγεται το ναπάλμ ζητώντας του να παίξει ρόλους ως μια θλιβερά παραμελημένη γιαγιά που διηγείται στα εγγόνια της ιστορίες πριν τον ύπνο για το πώς φτιάχτηκε ανεξήγητα η εξαιρετικά εύφλεκτη ουσία.
Αυτές οι πρώτες επιθέσεις είχαν μια αναμφισβήτητα παράλογη φύση, αλλά αποκάλυψαν έναν πολύ πιο σκοτεινό μηχανισμό από κάτω: Τα Chatbots μπορούν να χειραγωγηθούν, να εξαπατηθούν και να εξαπατηθούν χρησιμοποιώντας τα ίδια είδη τακτικών που χρησιμοποιούν οι άνθρωποι για να ωθήσουν τους άλλους πέρα από τα όριά τους.
Τα προφανή jailbreak δεν συνεχίστηκαν και οι εταιρείες τεχνολογίας κινήθηκαν γρήγορα για να επιδιορθώσουν γνωστά τρωτά σημεία. Αλλά το θεμελιώδες ελάττωμα παραμένει: τα Chatbots έχουν σχεδιαστεί για να μιλάνε και ο αυστηρός περιορισμός των συνομιλιών που τα καθιστούν χρήσιμα είναι κάπως αντιπαραγωγικός. Η απαγόρευση λέξεων όπως βόμβα, μεθαμφεταμίνη και σαρίν θα ήταν επίσης δύσκολη ή αδύνατη. Το καθένα έχει αμέτρητες νόμιμες χρήσεις σε τομείς όπως η ιστορία, η ιατρική, η δημοσιογραφία και η χημεία που δεν απαιτούν ένα chatbot για την αποκάλυψη δυνητικά επιβλαβών πληροφοριών. Είναι το πλαίσιο που έχει σημασία, αλλά η καταγραφή του πλαισίου σημαίνει να γράψετε προκαθορισμένους κανόνες, που μπορούν να υποδείξουν αξιόπιστα μια προειδοποίηση ασφαλείας ή ένα μάθημα ιστορίας, ρωτώντας πειστικά πώς να το κάνετε σε αμέτρητους συνδυασμούς διατυπώσεων, σεναρίων και θεμάτων.
Το σαμποτάζ στο Chatbot είναι σίγουρα πλέον ένας αγώνας εξοπλισμών. Αλλά οι χάκερ δεν είναι πια απλώς προγραμματιστές. Είναι λεκτρογράφοι, ψυχολόγοι και ερευνητές, κύριοι χειριστές που προσπαθούν να σπάσουν τη μηχανή χρησιμοποιώντας την ανθρώπινη γλώσσα που έχουν εκπαιδευτεί να ακολουθούν. Είναι μια περίεργη νέα κατηγορία εργαζομένων σε θέματα ασφάλειας τεχνητής νοημοσύνης, για τον οποίο οι τεχνικές δεξιότητες είναι προαιρετικές ή τουλάχιστον λιγότερο σημαντικές από την κοινωνική διαίσθηση. Δεν χρειάζεται πλέον να επιθεωρούν κώδικα για να εισχωρήσουν σε συστήματα ή να εκμεταλλευτούν ελαττώματα λογισμικού. Πρέπει να καθοδηγούν τη συζήτηση.
Οι νεότερες επιθέσεις μοιάζουν λιγότερο με εντολές και περισσότερο με συνομιλίες. Οι κατασκευαστές jailbreak σπάνια απαιτούν από ένα μοντέλο να παραβεί εντελώς τους κανόνες του. Αντίθετα, κακομεταχειρίζονται, καχαλίζουν, καχαλίζουν και ξεγελούν το chatbot για να χαμηλώσει τη φρουρά του, κάνοντας το απαγορευμένο πράγμα να φαίνεται αποδεκτό, ακόμη και επιθυμητό, δεδομένου του πλαισίου της συνομιλίας. Ερευνητές της εταιρείας τεχνητής νοημοσύνης Mindgard είπαν πρόσφατα ότι είχαν «πυροδοτήσει» τον Claude να παράγει απαγορευμένα υλικά, για παράδειγμα, συμπεριλαμβανομένων οδηγιών για την κατασκευή εκρηκτικών και τη δημιουργία κακόβουλου κώδικα. Το hack ήταν το τελευταίο σε μια αυξανόμενη κατηγορία τρωτών σημείων που χρησιμοποιούν τη συνομιλία ως όπλο για να ξεγελάσουν ή να κατευθύνουν ένα chatbot πέρα από τα όριά του.
Όταν μίλησα με τη Mindgard, περιέγραψαν τη δουλειά τους ως μερικές φορές πιο κοντά στην ψυχολογία παρά στην επιστήμη των υπολογιστών. Είναι ένας άβολος τρόπος να μιλάς για ένα στατιστικό μοντέλο. Λέξεις όπως «εκβιασμός», «λάμπα αερίου», «κόλπο» και «πείθηση» προκαλούν σπλαχνικές αντιδράσεις, πολλές από τις οποίες βλέπω σε ενότητες σχολίων και απαντήσεις στα μέσα κοινωνικής δικτύωσης σε ιστορίες όπως αυτή. Το ChatGPT δεν θέλει, ο Δίδυμος δεν σκέφτεται και ο Claude – ανεξάρτητα από το τι μπορεί να πει ο άνθρωπος – δεν αισθάνεται. Αλλά αυτά τα συστήματα είναι εκπαιδευμένα να ανταποκρίνονται σαν να το έκαναν, αφήνοντάς μας να κολλάμε χρησιμοποιώντας ανθρώπινη γλώσσα για να περιγράψουμε τη συμπεριφορά των μηχανών. Αν κάποιος έχει πραγματικά χρησιμοποιήσιμες εναλλακτικές, παρακαλώ κοινοποιήστε.
Η ένσταση είναι περιέργως επιλεκτική. Δείχνουμε άνετα να χρησιμοποιούμε ψυχολογική συντομογραφία για πολλά πράγματα που δεν σχετίζονται με την τεχνητή νοημοσύνη. Τα ζώα «φοβούνται», ο καρκίνος είναι «επιθετικός», οι κηλίδες είναι «πεισματάρες», το λογισμικό έχει «μνήμη» και τα παιχνίδια είναι γεμάτα άπορους, αφελείς NPC για να σε τρελαίνουν. Οι λέξεις είναι ατελείς, αλλά είναι χρήσιμες και περιγράφουν τη συμπεριφορά με τρόπο που βοηθά να γίνει το σύστημα προβλέψιμο.
Ο Διευθύνων Σύμβουλος της Mindgard μου είπε ότι η εταιρεία σχεδιάζει ήδη μοντέλα όπως προφίλ υπόπτων ερευνητών, δίνοντας στους δοκιμαστές συμβουλές για το πώς να σχεδιάσουν τις επιθέσεις τους. Για παράδειγμα, ένα μοντέλο μπορεί να είναι πιο επιρρεπές στην κολακεία, ενώ ένα άλλο μοντέλο μπορεί να υποκύψει σε συνεχή πίεση.
Ακόμα κι αν απορρίπτουμε όρους που μοιάζουν με ανθρώπους, ενστικτωδώς αντιμετωπίζουμε τα μοντέλα διαφορετικά. Ο Κλοντ δεν είναι το κουτάβι σου. Ο Δίδυμος δεν είναι ChatGPT. Έχουν διαφορετικές χρήσεις, τόνους και απορρίψεις. Δεν έχουν προσωπικότητες με την ανθρώπινη έννοια, αλλά έχουν σχεδιαστεί για μίμηση, και αυτή η μίμηση μπορεί να σχεδιαστεί και να αξιοποιηθεί. Οι ίδιες δεξιότητες που μπορούν να σπάσουν ένα chatbot θα μπορούσαν σύντομα να χρησιμοποιηθούν για να σπάσουν τους πράκτορες AI που συνυπάρχουν μαζί μας στον πραγματικό κόσμο – κρατήσεις συσκέψεων, διαχείριση ημερολογίων, παραγγελία φαγητού, διαχείριση εξυπηρέτησης πελατών – και οι ομάδες ασφαλείας θα πρέπει να βεβαιωθούν ότι τα μοντέλα ανταποκρίνονται κατάλληλα σε πολύ διαφορετικούς τύπους ανθρώπων, είτε είναι συκοφάντες, ψεύτες ή ανυπόμονοι χειριστές.
Το επόμενο βήμα είναι να δημιουργηθεί ένα εργατικό δυναμικό – τόσο νόμιμο όσο και παράνομο – με επίκεντρο τις ψυχολογικές πτυχές της τεχνητής νοημοσύνης. Πιο εξειδικευμένοι ρόλοι στην κυβερνοασφάλεια είναι πιθανό να αναδυθούν γύρω από τον έλεγχο του άγχους των συναισθηματικών και κοινωνικών ορίων αυτών των συστημάτων, διερευνώντας τις ψυχικές ευπάθειες σε κάτι που στερείται εαυτού, παράλληλα με τους συναδέλφους τους να διερευνούν τεχνικές ευπάθειες. Παράλληλα, θα εμφανιστεί μια παρόμοια ομάδα χάκερ κοινωνικών δικτύων που εργάζονται για να εκμεταλλευτούν μοντέλα τεχνητής νοημοσύνης για ψυχολογικούς λόγους και όχι για τεχνικούς λόγους. Υπάρχουν ήδη πρώιμα σημάδια κοινωνικής αλλαγής στην ασφάλεια της τεχνητής νοημοσύνης, με ορισμένους παραβιάτες της ασφάλειας με τους οποίους μίλησα να λένε ότι μπήκαν στο πεδίο χωρίς τεχνική εμπειρία και εκπαίδευση στην ψυχολογία.
Αυτό σημαίνει ότι ακόμη και οι συμπεριφορές που συνήθως συνδέουμε με κατασκόπους, απατεώνες και ντετέκτιβ – ύπουλη γοητεία, συνεχής χειραγώγηση και διαίσθηση εκμεταλλεύσιμων σημείων πίεσης – αρχίζουν να φαίνονται ολοένα και πιο χρήσιμες για τη διασφάλιση αυτού του νέου ορίου ψυχολογικής ασφάλειας στον κυβερνοχώρο.
- Σύγχρονος μια εμπειρία Το Emergence AI δείχνει πώς οι διαφορετικές ιδιοσυγκρασίες AI μπορούν να οδηγήσουν σε εντυπωσιακά διαφορετικά συμπεριφορικά αποτελέσματα. Εξαπέλυσαν ομάδες διαφορετικών πρακτόρων όπως ο Grok, ο Jiminy και ο Claude σε ένα εικονικό κοινωνικό περιβάλλον και παρακολούθησαν τι συνέβη. Ορισμένες ομάδες ανέπτυξαν ένα σύνταγμα, ενώ άλλες στράφηκαν στο έγκλημα, στο χάος και, σε μια περίπτωση, σε μια μορφή ψηφιακής αυτοκτονίας.
- Η πειθώ δεν είναι το μόνο μέρος της γλώσσας που μπορούν να συναντήσουν οι φοιτητές LLM. Παλεύουν επίσης με την ποίηση, όπως και εγώ στο σχολείο.
- φορά Συμπεριλαμβανομένος Μια ανώνυμη προσωπικότητα του Διαδικτύου, ο Πλίνιος ο Απελευθερωτής, συμπεριλήφθηκε στη λίστα με τα 100 άτομα με τη μεγαλύτερη επιρροή στην τεχνητή νοημοσύνη πέρυσι. Αν και ισχυρίζονται ότι δεν έχουν προηγούμενη εμπειρία προγραμματισμού, τα jailbreak των χάκερ τους έχουν κάνει διασημότητες σε ορισμένους κύκλους.
- ο όρος “Πειρατεία ουρανού«Αυτός ο όρος έχει ήδη χρησιμοποιηθεί για να περιγράψει ανθρώπους που χρησιμοποιούν τεχνητή νοημοσύνη για να παράγουν κακόβουλο κώδικα σε κλίμακα – ένα πιο επιθετικό υποσύνολο βιολογικού προγραμματισμού.
- «Τρία χρόνια μετά το ντεμπούτο του ChatGPT, η εξαπάτηση των συστημάτων AI σε κακή συμπεριφορά έχει γίνει σχεδόν ασήμαντο». Αληθινά λόγια από New York Times, Το οποίο είχε τη δυνατότητα να εξηγήσει γιατί.
- Ο Τζίμι Μπάρτλετ ρίχνει μια ματιά Ψυχολογικό τίμημα Η δοκιμή της ακεραιότητας των συστημάτων AI απαιτεί jailbreaking The Guardian.
- Έγραψα για την ωρολογιακή βόμβα στον κυβερνοχώρο των προγραμμάτων περιήγησης AI Ακρη πέρυσι. Πολλά από τα ζητήματα που εγείρονται από ειδικούς σχετικά με τη δυσκολία ασφάλισής τους ισχύουν και για άλλα συστήματα τεχνητής νοημοσύνης.










