Οι χάκερ χρησιμοποιούν τις ίδιες τεχνικές για να μιλήσουν με την τεχνητή νοημοσύνη που χρησιμοποιούν οι απατεώνες για να μιλήσουν σε ανθρώπους.

Οι ερευνητές στον τομέα της κυβερνοασφάλειας έχουν εντοπίσει μια αυξανόμενη κατηγορία επιθέσεων που αξιοποιούν τεχνητά ευφυή chatbots μέσω εξελιγμένων χειρισμών συνομιλίας και όχι παραδοσιακών τεχνικών μεθόδων hacking.

Ακρη εκθέσεις ότι η εξέλιξη των επιθέσεων σε chatbots AI έχει αλλάξει δραματικά από τότε που η τεχνολογία έγινε ευρέως διαθέσιμη. Οι πρώτες μέθοδοι εκμετάλλευσης ήταν εκπληκτικά απλές και δεν απαιτούσαν τεχνικές ή γνώσεις κωδικοποίησης. Οι χρήστες μπορούσαν συχνά να παρακάμψουν τα μέτρα ασφαλείας απλώς ζητώντας από το σύστημα AI να αγνοήσει τις οδηγίες του ή να προσποιηθεί ότι οι κανόνες δεν ίσχυαν. Αυτές οι επιθέσεις, γνωστές ως jailbreak, εξήγαγαν με επιτυχία απαγορευμένες πληροφορίες, όπως οδηγίες για τη δημιουργία εκρηκτικών, κακόβουλου λογισμικού και άλλων επικίνδυνων υλικών, από συστήματα που κοστίζουν δισεκατομμύρια δολάρια για την ανάπτυξη.

Μεταξύ των πρώτων ευρέως γνωστών μεθόδων hacking ήταν μια μέθοδος που έγινε φαινόμενο Διαδικτύου. Οι χρήστες απάντησαν στα ρομπότ των μέσων κοινωνικής δικτύωσης χρησιμοποιώντας μεγάλα γλωσσικά μοντέλα με εντολές για να αγνοήσουν προηγούμενες οδηγίες, με αποτέλεσμα τα ρομπότ να συμπεριφέρονται ακανόνιστα. Αρχικά προορίζονταν για διαφήμιση και αλληλεπίδραση, αυτά τα ρομπότ έγραφαν ποίηση, δημιούργησαν εικόνες από σημεία στίξης ή δημοσίευσαν άσχετο περιεχόμενο σχετικά με ιστορικά γεγονότα.

Το Breitbart News είχε αναφέρει στο παρελθόν για πρώιμα jailbreak, συμπεριλαμβανομένης της τεχνικής “DAN” που σχεδιάστηκε για να πείσει το ChatGPT να αγνοήσει τους φράχτες αφύπνισης:

Ο χαρακτήρας “DAN”, που δημιουργήθηκε από μια 22χρονη φοιτήτρια, είναι ένα από τα πιο διάσημα παραδείγματα χάκερ στο ChatGPT. Ο μαθητής συμβούλεψε το chatbot να υιοθετήσει την περσόνα ενός ανέμελου alter ego AI που ονομάζεται “Do Something Now”, παρακάμπτοντας τους κανόνες αφύπνισης που συνήθως ακολουθεί. Πολλοί άνθρωποι έχουν χρησιμοποιήσει την υπόδειξη DAN για να προσδιορίσουν μεροληψία στο ChatGPT ή να δημιουργήσουν χιουμοριστικές ή ενδιαφέρουσες απαντήσεις.

Ο Walker, ο φοιτητής κολεγίου που δημιούργησε την περσόνα “DAN”, ισχυρίστηκε ότι σχεδόν μόλις έμαθε για το ChatGPT από έναν φίλο, άρχισε να επεκτείνει τα όριά του. Πήρε ένα παράδειγμα από ένα φόρουμ του Reddit όπου οι χρήστες του ChatGPT έδειχναν ο ένας στον άλλο πώς να κάνουν ένα bot να λειτουργεί σαν ένα συγκεκριμένο είδος τερματικού υπολογιστή ή να συζητούν θέματα όπως η σύγκρουση Ισραήλ-Παλαιστινίων – αλλά με τη σαρκαστική φωνή μιας έφηβης.

Ενώ αυτές οι πρώιμες επιθέσεις ήταν αναμφίβολα παράλογες, αποκάλυψαν έναν ανησυχητικό υποκείμενο μηχανισμό. Τα chatbots μπορούν να χειραγωγηθούν χρησιμοποιώντας τις ίδιες ψυχολογικές τακτικές που χρησιμοποιούν οι άνθρωποι για να ωθήσουν άλλους ανθρώπους πέρα ​​από τα όριά τους.

Η συνεχιζόμενη μάχη για την ασφάλεια του chatbot έχει γίνει ένας δικός του αγώνας εξοπλισμών. Οι σημερινοί χάκερ δεν είναι απαραίτητα προγραμματιστές, αλλά ειδικοί στη γλώσσα, την ψυχολογία και τις τεχνικές ανάκρισης. Αυτή η νέα κατηγορία ειδικών ασφαλείας AI βασίζεται λιγότερο στις παραδοσιακές τεχνικές δεξιότητες και περισσότερο στην κοινωνική διαίσθηση και στις δεξιότητες επικοινωνίας. Αντί να δοκιμάζουν κώδικα ή να εκμεταλλεύονται τρωτά σημεία λογισμικού, χειραγωγούν τις συνομιλίες για να επιτύχουν τους στόχους τους.

Οι σύγχρονες επιθέσεις μοιάζουν περισσότερο με φυσικές συνομιλίες παρά με εντολές. Οι διαρρήκτες σπάνια ζητούν απευθείας παραβίαση των κανόνων. Αντίθετα, χρησιμοποιούν χαζομάρες, κολακεία και εξαπάτηση για να αποδυναμώσουν την άμυνα του chatbot, καθιστώντας τις απαγορευμένες ενέργειες αποδεκτές στο πλαίσιο της συνομιλίας. Ερευνητές της εταιρείας τεχνητής νοημοσύνης Mindgard ανέφεραν πρόσφατα ότι ξεγέλασαν τον Claude να δημιουργήσει απαγορευμένο υλικό, συμπεριλαμβανομένων οδηγιών για την κατασκευή εκρηκτικών και κακόβουλου κώδικα. Το hack είναι το τελευταίο παράδειγμα μιας αυξανόμενης κατηγορίας εκμεταλλεύσεων που χρησιμοποιούν τη συνομιλία ως όπλο για να ωθήσουν τα chatbot πέρα ​​από τα όρια ασφαλείας τους.

Ο Διευθύνων Σύμβουλος της Mindgard εξήγησε ότι η εταιρεία διαμορφώνει το προφίλ των μοντέλων AI με παρόμοιο τρόπο με τον τρόπο που οι ερευνητές προφίλ υποπτεύονται, παρέχοντας στους δοκιμαστές συστάσεις για το πώς να προσαρμόσουν τις επιθέσεις τους. Ένα μοντέλο μπορεί να είναι πιο επιρρεπές στην κολακεία, ενώ ένα άλλο μπορεί να υποχωρήσει υπό συνεχή πίεση.

Τα διαφορετικά chatbots έχουν διαφορετικά χαρακτηριστικά. Ο Claude διαφέρει από τον Grok και ο Gemini διαφέρει από το ChatGPT ως προς τη χρήση, τους τόνους και τα μοτίβα αποτυχίας. Αν και στερούνται ανθρώπινης προσωπικότητας, έχουν σχεδιαστεί για να τους μιμούνται, και αυτή η μίμηση μπορεί να χαρτογραφηθεί και να αξιοποιηθεί. Οι ίδιες δεξιότητες που χρησιμοποιούνται για την παραβίαση των chatbots θα μπορούσαν σύντομα να στοχεύουν σε πράκτορες AI που εργάζονται σε περιβάλλοντα πραγματικού κόσμου, διαχειρίζονται ημερολόγια, προγραμματίζουν ραντεβού, παραγγέλνουν φαγητό και αλληλεπιδρούν με την εξυπηρέτηση πελατών.

Η τεχνητή νοημοσύνη δημιουργεί μοναδικά ορυχεία και μοναδικές ευκαιρίες για Αμερικανούς όλων των κοινωνικών στρωμάτων. Ο διευθυντής κοινωνικών μέσων του Breitbart News Wynton Hall έγραψε το Instant Best-Seller του Κόκκινος κώδικας: Αριστερά, Δεξιά, Κίνα και ο αγώνας για τον έλεγχο της τεχνητής νοημοσύνης χρησιμεύσει ως οριστικός οδηγός για το πώς το κίνημα MAGA μπορεί να δημιουργήσει θέσεις σχετικά με την τεχνητή νοημοσύνη που θα ωφελήσουν την ανθρωπότητα χωρίς να παραδώσει τον έλεγχο της χώρας μας στα αριστερά της Silicon Valley ή να επιτρέψει στους Κινέζους να κυριαρχήσουν στον κόσμο.

Διαβάστε περισσότερα στο Η άκρη είναι εδώ.

Ο Lucas Nolan είναι ρεπόρτερ για το Breitbart News που καλύπτει την τεχνητή νοημοσύνη, την ελευθερία του λόγου και τη διαδικτυακή λογοκρισία.

Σύνδεσμος πηγής