Δοκίμασα τη νέα αυτοματοποίηση εργασιών του Gemini στο Pixel 10 Pro και στο Galaxy S26 Ultra, το οποίο για πρώτη φορά επιτρέπει στο Gemini να αναλάβει και να χρησιμοποιεί εφαρμογές για εσάς. Περιορίζεται σε ένα μικρό υποσύνολο αυτήν τη στιγμή — μερικές υπηρεσίες παράδοσης φαγητού και κοινής χρήσης διαδρομής — και είναι ακόμα σε beta. Είναι αργό, ενοχλητικό μερικές φορές και δεν λύνει κανένα σοβαρό πρόβλημα που αντιμετωπίζετε όταν χρησιμοποιείτε το τηλέφωνό σας. Αλλά είναι πολύ εντυπωσιακό και δεν νομίζω ότι είναι υπερβολή να πούμε ότι πρόκειται για μια ματιά στο μέλλον. Έχουμε ακόμη πολύ δρόμο μπροστά μας, αλλά αυτή είναι η πρώτη φορά που βλέπω έναν πραγματικό βοηθό τεχνητής νοημοσύνης να εργάζεται πραγματικά σε ένα τηλέφωνο — και όχι σε μια προσεκτικά ελεγχόμενη κεντρική ομιλία ή επίδειξη μέσα σε μια αίθουσα συνεδριάσεων.
Πρώτον: Ο Δίδυμος είναι πολύ πιο αργός από εσάς, εμένα ή οποιονδήποτε άλλο στη χρήση των τηλεφώνων του. Εάν πρέπει να παραγγείλετε ένα Uber Ακριβώς αυτό το δευτερόλεπτοΕίστε ακόμα το καλύτερο άτομο για τη δουλειά. Αλλά προτού το διαγράψετε, θυμηθείτε ότι η αυτοματοποίηση εργασιών έχει σχεδιαστεί για να εκτελείται στο παρασκήνιο ενώ κάνετε άλλα πράγματα στο τηλέφωνό σας. Ακόμα καλύτερα, συνεχίζει να λειτουργεί όσο είστε εκεί Όχι Κοιτάζοντας το τηλέφωνό σας, για να μπορείτε να κάνετε πράγματα όπως να ελέγξετε ότι το διαβατήριό σας είναι στην τσάντα σας για δέκατη φορά.
Αλλά αν είστε περίεργοι, όπως εγώ, μπορείτε να παρακολουθήσετε το όλο πράγμα να συμβαίνει. Καθώς εργάζεστε, εμφανίζεται κείμενο στο κάτω μέρος της οθόνης που υποδεικνύει τι κάνει ο Gemini. Πράγματα όπως «διάλεξε μια δεύτερη μερίδα κοτόπουλου τεριγιάκι για τον συνδυασμό», κάτι που συνέβη όταν του έδωσα εντολή να παραγγείλει δείπνο το βράδυ του Σαββάτου. Το να βλέπεις τους Διδύμους να ανακαλύπτουν τα πράγματα γρήγορα είναι ειλικρινά κανόνες. Παρήγγειλα μια σύνθετη πιατέλα κοτόπουλου. Το μενού πρόσφερε επιλογές σε βήματα κατά το ήμισυ της μερίδας, έτσι σωστά πρόσθεσε δύο μερίδες κοτόπουλου.
Είναι καλύτερο όταν ξεκινάτε τον αυτοματισμό με το Gemini, η προεπιλεγμένη συμπεριφορά είναι να τον εκτελείτε στο παρασκήνιο. Πρέπει να κάνετε κλικ σε ένα κουμπί και να ανοίξετε ένα άλλο παράθυρο εάν θέλετε να παρακολουθήσετε το Gemini να εργάζεται στην αποστολή. Μπορεί να είναι επώδυνο. Ενώ παρακολουθείτε τον υπολογιστή, προσπαθείτε να βρείτε μια χορτοφαγική πλευρά στο μενού στο Uber Eats όταν Κάθεται εκεί στο πάνω μέρος της οθόνης Είναι σαν να βλέπεις μια ταινία τρόμου και να ξέρεις ότι ο δολοφόνος βρίσκεται στην ντουλάπα δίπλα στον πρωταγωνιστή. Εννοώ, εκτός από το σκοτωμένο κομμάτι. Ο Δίδυμος έκανε μερικές λανθασμένες στροφές όταν συνέταξε την παραγγελία μου τεριγιάκι, κάτι που τελικά κατάλαβε μόνος του, αλλά ολόκληρο το επεισόδιο κράτησε περίπου εννέα λεπτά. Όχι τέλεια.
Ο Δίδυμος υποτίθεται ότι θα εκτελέσει την εργασία σας μέχρι το σημείο που θα έρθει η ώρα να πατήσετε επιβεβαίωση και να παραγγείλετε το αυτοκίνητο ή το δείπνο σας, ώστε να μπορείτε να ελέγξετε ξανά τη δουλειά του. Νομίζω ότι αυτός είναι ο μόνος εύλογος τρόπος χρήσης αυτής της δυνατότητας αυτή τη στιγμή και δεν με ενοχλεί η επιπλέον τριβή της ολοκλήρωσης μιας παραγγελίας. Στις δοκιμές μου τις τελευταίες πέντε ημέρες, δεν έχει βγει ποτέ εκτός ελέγχου και ολοκλήρωσε την παραγγελία μου για μένα. Είναι εκπληκτικά ακριβές. Έπρεπε να κάνω πολύ λίγες προσαρμογές στην τελική ρύθμιση. Αν αποτύχει — κάτι που έχω δει να συμβαίνει πολλές φορές — συνήθως είναι μέσα στα πρώτα ή δύο λεπτά όταν κάτι στην εφαρμογή χρειάζεται την προσοχή μου, όπως να του δώσω άδεια να χρησιμοποιήσει την τοποθεσία μου ή να αλλάξω την τοποθεσία παράδοσης στο σπίτι αντί για τη Νεβάδα, που είναι το τελευταίο μέρος που χρησιμοποίησα αυτήν την εφαρμογή. Έπρεπε να καταλάβω ποιο ήταν το πρόβλημα σε τέτοιες περιπτώσεις, αλλά μόλις επιλυόταν, μπόρεσα να επανεκκινήσω τον αυτοματισμό χωρίς πρόβλημα.
Αυτό είναι που με πήρε πραγματικά. Έγραψα ένα συμβάν στο ημερολόγιό μου για ένα ταξίδι στο Σαν Φρανσίσκο την επόμενη μέρα (ψεύτικο ταξίδι για μένα, αλλά πραγματικές λεπτομέρειες ταξιδιού). Έδωσα στον Jiminy μια αόριστη προτροπή να προγραμματίσει ένα Uber που θα με πήγαινε στο αεροδρόμιο εγκαίρως για την αυριανή πτήση μου. Εφόσον ο Δίδυμος έχει πρόσβαση στο email και στο ημερολόγιό μου, μπορεί να βρει αυτές τις πληροφορίες. Χρειαζόταν λίγη επιπλέον καθοδήγηση — ίσως επειδή το ταξίδι δεν ήταν στο email μου όπως περίμενε. Ωστόσο, βρήκε τις πληροφορίες πτήσης, πρότεινε να φύγει στις 11:30 ή στις 11:45 π.μ. (λογική ώρα για μια πτήση 1:45 μ.μ. δεδομένου ότι μένω κοντά στο αεροδρόμιο) και ρώτησε αν ήθελα να προγραμματίσω μια πτήση κάποια από αυτές τις ώρες. Επιβεβαίωσα την ώρα και προχώρησα στην οργάνωση της πτήσης σε περίπου τρία λεπτά χωρίς περαιτέρω πληροφορίες από την πλευρά μου.
Είναι λίγο εντυπωσιακό αν σκεφτεί κανείς ότι η Uber δεν το αναφέρει καν ως Χρονοδρομολόγηση Ταξίδι – εσύ Απόθεμα ένα ταξίδι. Αυτή είναι η κύρια διαφορά μεταξύ των ψηφιακών βοηθών που χρησιμοποιούμε και των βοηθών AI που εμφανίζονται τώρα. Η δυνατότητα χρήσης φυσικής γλώσσας όταν μιλάτε σε υπολογιστή έχει μεγάλη διαφορά όταν ελέγχετε το έξυπνο σπίτι σας ή παραγγέλνετε δείπνο. Εάν ο υπολογιστής σας θα σκοντάψει και θα ζητήσει διευκρινίσεις όταν ξεχάσετε ότι ένα εστιατόριο αποκαλεί το γεύμα σας “πιάτο” και όχι “combo” ή εάν παραγγείλετε “ζαρούλα” αντί για “ψιλοκομμένο λάχανο”, δεν είναι πιο χρήσιμο από τους βοηθούς που χρησιμοποιούμε την τελευταία δεκαετία να ρυθμίζουμε χρονόμετρα και να παίζουμε μουσική.
Ωστόσο, βλέποντας το Gemini να αγγίζει και να σαρώνει γύρω από το Uber Eats ξεκαθαρίζει ένα πράγμα οδυνηρά: Εάν σχεδιάζετε μια εφαρμογή που να χρησιμοποιεί AI, δεν θα μοιάζει με τις εφαρμογές που υπάρχουν σήμερα. Ξέρετε, εφαρμογές σχεδιασμένες για ανθρώπους. Ένας βοηθός τεχνητής νοημοσύνης δεν θα μπει στον πειρασμό από μια μεγάλη διαφήμιση στη μέση της σελίδας για να εξοικονομήσει 30 τοις εκατό στην παραγγελία σας. Μια νόστιμη, καλά προετοιμασμένη φωτογραφία του πιάτου που παραγγέλνει δεν είναι πιο πειστική από μια φωτογραφία χαμηλής ποιότητας. Του δίνετε μια βάση δεδομένων, όχι ένα σωρό ακαταστασία για απόρριψη — κάτι προς το οποίο εργάζεται η βιομηχανία στο Model Context Protocol ή MCP.
Ένα μοντέλο τεχνητής νοημοσύνης που λειτουργεί μέσα από μια ανθρωποκεντρική διεπαφή μοιάζει με τον πιο εύθραυστο και μη πρακτικό τρόπο για να παραγγείλετε μια πίτσα. Μερικές φορές μπαίνει εμπόδιο και δεν είναι καλός στο να σας ενημερώσει Γιατί Δεν μπορώ να κάνω τίποτα. Αυτή η έκδοση του αυτοματισμού εργασιών φαίνεται να είναι μια προσωρινή λύση έως ότου οι προγραμματιστές εφαρμογών υιοθετήσουν πιο ισχυρές προσεγγίσεις: λειτουργίες εφαρμογών MCP ή Android. Ο Sameer Samat, επικεφαλής του Android στη Google, μου είπε πρόσφατα ότι ο Gemini ακολουθεί τη λογική προσέγγιση απουσία των άλλων δύο. Ίσως αυτή η έκδοση της αυτοματοποίησης εργασιών είναι η βιτρίνα μας για το τι είναι δυνατό ή ένας τρόπος να κάνουμε τους προγραμματιστές να υιοθετήσουν μία από τις άλλες προσεγγίσεις. Είτε έτσι είτε αλλιώς, αυτό φαίνεται σαν ένα αξιοσημείωτο πρώτο βήμα προς έναν νέο τρόπο χρήσης των φορητών βοηθών μας — ένας παράξενος, αργός, αλλά πολλά υποσχόμενος.
Φωτογραφία από την Alison Johnson/The Verge
Σύνδεσμος πηγής: www.theverge.com