Με τη φωνητική υπαγόρευση τεχνητής νοημοσύνης, περισσότεροι άνθρωποι μπορούν να εκφωνήσουν τα email, τα μηνύματα και τους κωδικούς τους

Ο Gavin McNamara παράτησε το πληκτρολόγιο του και περνούσε τις μέρες του μιλώντας αντί να πληκτρολογεί.

Μιλούσε για ώρες στον υπολογιστή και το κινητό του, στέλνοντας email, γράφοντας παρουσιάσεις, δημοσιεύοντας στο LinkedIn και ακόμη και κωδικοποιούσε μέσω συνομιλιών χρησιμοποιώντας την εφαρμογή AI dictation από την startup Wispr Flow από το Σαν Φρανσίσκο.

Το AI σημειώνει, μορφοποιεί και προσαρμόζει το περιεχόμενό του σε συνεκτικό αντίγραφο. Η McNamara έχει κατά μέσο όρο 125 λέξεις ανά λεπτό, διπλάσια από τη μέση ταχύτητα πληκτρολόγησης.

«Τώρα, οτιδήποτε μπορεί να γίνει πληκτρολογώντας, το κάνω με φωνή», είπε ο 32χρονος ιδρυτής της εταιρείας λογισμικού Why Not Us. «Απλώς μιλάω».

Τους τελευταίους πέντε μήνες, έχει υπαγορεύσει σχεδόν 300.000 λέξεις σε 77 εφαρμογές, που ισοδυναμεί με τη συγγραφή τριών μυθιστορημάτων.

Οι τεχνολογικοί γίγαντες και οι νεοφυείς επιχειρήσεις της Καλιφόρνια βρίσκονται στην πρώτη γραμμή ενός κινήματος για τη χρήση της τεχνητής νοημοσύνης και των γλωσσικών μοντέλων μεγάλης κλίμακας στα οποία βασίζεται, ωθώντας τους ανθρώπους να αλληλεπιδρούν με την τεχνολογία χρησιμοποιώντας τη φωνή τους και όχι τα δάχτυλά τους.

«Το AI και το LLM αλλάζουν αυτή τη δυναμική», δήλωσε ο CJ Pais, δημιουργός της Handy, μιας δωρεάν εφαρμογής υπαγόρευσης ομιλίας σε κείμενο στο Σαν Ντιέγκο. “Η χρήση φωνής είναι πολύ πιο γρήγορη από την πληκτρολόγηση.”

Ανεξάρτητοι προγραμματιστές και νεοφυείς επιχειρήσεις, συμπεριλαμβανομένων των Handy, Wispr Flow και Willow με έδρα το Σαν Φρανσίσκο, εμφανίστηκαν για να παρέχουν ακριβείς φωνητικές αλληλεπιδράσεις μέσω τεχνητής νοημοσύνης.

Μεγάλα ονόματα της τεχνολογίας δημιουργούν επίσης νέους τρόπους για τους ανθρώπους να εργαστούν με την τεχνητή νοημοσύνη. Τα τελευταία έξυπνα γυαλιά της Meta βασίζονται στη φωνή. Το OpenAI και το Meta σχεδίασαν μοναδικές προσωπικότητες για τις φωνητικές συνομιλίες των bots τους. Ακόμη και η Alexa της Amazon και η Siri της Apple λαμβάνουν αναβαθμίσεις AI που οι εταιρείες αναμένουν ότι θα επιτρέψουν σε όλους να μιλήσουν περισσότερο με την τεχνολογία τους.

Αυτές οι δωρεάν και επί πληρωμή μέθοδοι χρήσης της προφορικής γλώσσας μέσω υπολογιστών προσελκύουν εκατομμύρια χρήστες, συμπεριλαμβανομένων προγραμματιστών, διοικητικών βοηθών, δικηγόρων, δημιουργών περιεχομένου και ιατρών. Ορισμένοι αισιόδοξοι πιστεύουν ότι τα πληκτρολόγια μπορεί να είναι παρωχημένα.

«Είμαι ενθουσιασμένος που ανακοινώνω ότι αφαιρέσαμε το πληκτρολόγιο από τα πιο διάσημα τηλεοπτικά βραβεία στον κόσμο», ανάρτησε ο ιδρυτής της Willow, Άλαν Κουό, στο LinkedIn, σημειώνοντας ότι η ομάδα των Emmys χρησιμοποίησε τη φωνητική υπαγόρευση του Willow για να στείλει μηνύματα Slack και να καθαρίσει τα εισερχόμενα πιο γρήγορα στην προετοιμασία για την τελετή απονομής των βραβείων του 2026.

Με την πάροδο των ετών, οι μεγάλες εταιρείες τεχνολογίας έχουν εκ των υστέρων εξοπλίσει πολλά από τα προϊόντα τους με χαρακτηριστικά φωνής για λόγους ευκολίας. Σήμερα, η φωνή δεν είναι πλέον μια δυνατότητα προσβασιμότητας, αλλά ένα εργαλείο παραγωγικότητας.

Στα τέλη του 2022, οι κατασκευαστές του ChatGPT άρχισαν να διαθέτουν δωρεάν το μοντέλο αυτόματης αναγνώρισης ομιλίας που ονομάζεται Whisper, το οποίο εκπαιδεύτηκε σε 680.000 ώρες πολύγλωσσων δεδομένων. Η OpenAI μοιράστηκε την τεχνολογία της για ακριβή μεταγραφή ήχου, η οποία κάποτε ήταν ένα στενά φυλασσόμενο σημαντικό τεχνικό μυστικό. Τώρα ο καθένας μπορεί να κατεβάσει και να εκτελέσει δωρεάν μεταγραφή AI υψηλής ποιότητας στον φορητό υπολογιστή του.

Ένα νέο κύμα εφαρμογών υπαγόρευσης AI βασίζεται στο Whisper και παρέχει δυνατότητες υπαγόρευσης σε πραγματικό χρόνο πάνω από αυτό. Αν και υπάρχουν δωρεάν εναλλακτικές λύσεις, οι συνδρομές επί πληρωμή κοστίζουν 8 έως 12 $ ανά μήνα.

Η υπαγόρευση με γνώμονα την τεχνητή νοημοσύνη κυριαρχεί πλέον μεταξύ των προγραμματιστών και των τακτικών χρηστών και επιτρέπει στους ανθρώπους να μιλάνε στους φορητούς υπολογιστές τους. Είτε γράφουν email, στέλνουν μηνύματα κειμένου, σχεδιάζουν ιστότοπους ή αναθέτουν εργασίες στην τεχνητή νοημοσύνη, οι πρώτοι χρήστες λένε ότι η υπαγόρευση τους επιτρέπει να εργάζονται πιο γρήγορα, να σκέφτονται πιο καθαρά και να είναι πιο παραγωγικοί.

“Όσοι χρησιμοποιούν ήδη τη φωνή σε μεγάλο βαθμό δεν κάνουν πίσω. Μόλις μιλάτε στον φορητό υπολογιστή σας 20 ώρες την εβδομάδα, η πληκτρολόγηση μοιάζει με αγγαρεία”, δήλωσε ο Naveen Naidu, γενικός διευθυντής της εφαρμογής φωνητικής υπαγόρευσης Monologue με έδρα τη Νέα Υόρκη. “Νομίζω ότι ο δρόμος προς τα εμπρός είναι αυτός: Η φωνή γίνεται το επίπεδο ενδυνάμωσης. Εσείς λέτε την πρόθεσή σας και τα πράγματα συμβαίνουν.”

Αυτές οι νέες εφαρμογές υπαγόρευσης AI αξιοποιούν τις εφαρμογές της Apple Προηγμένο τσιπ Εκτελέστε υπαγόρευση ιδιωτικής συσκευής σε iPhone και Mac.

Ο ανεξάρτητος προγραμματιστής λογισμικού Geoffrey Huntley μεταπήδησε σχεδόν εξ ολοκλήρου στη φωνητική εργασία τον Ιούνιο.

Συχνά ξεκινά έργα ενεργοποιώντας φωνητικές προτροπές και ζητώντας από την τεχνητή νοημοσύνη να του πάρει συνέντευξη σχετικά με τις ανησυχίες του και τις απαιτήσεις του έργου πριν δημιουργήσει οποιονδήποτε κώδικα.

«Μιλάω μαζί του σαν να αυτοσχεδιάζω σε μια μπάντα τζαζ, προς τα πίσω, προς τα εμπρός, προς τα πίσω, προς τα εμπρός», είπε ο Huntley. Αυτός ο ηχητικός χορός βοηθά στη βελτίωση των προδιαγραφών και στη συνέχεια το AI παίρνει το τιμόνι και δημιουργεί το λογισμικό.

Εκτός από την κωδικοποίηση, ο Huntley χρησιμοποιεί τη φωνή για να “αφήσει να κοπεί” κατά τη λήψη ιδεών ή μηνυμάτων για αναρτήσεις ιστολογίου, χρησιμοποιώντας εφαρμογές όπως το Superwhisper ή το Whisper Flow για να λάβει μια “πρώτη ένδειξη” ιδεών πριν χρησιμοποιήσει το πληκτρολόγιο για τελικές επεξεργασίες.

Αντί να πληκτρολογούν, ένας αυξανόμενος αριθμός προγραμματιστών λογισμικού στη Silicon Valley υπαγορεύουν οδηγίες κωδικοποίησης για ώρες τη φορά. Ο συνδυασμός ταχέως αναπτυσσόμενων πρακτόρων τεχνητής νοημοσύνης που μπορούν να κωδικοποιήσουν για ώρες, καθώς και η φωνητική εισαγωγή που καταγράφει τις ιδέες πιο γρήγορα από την πληκτρολόγηση, έχει ενισχύσει την παραγωγικότητά τους.

Ο McNamara, ένας αυτοαποκαλούμενος «κωδικοποιητής vibe», κατασκεύασε περισσότερες από 25 διαδικτυακές εφαρμογές σε λίγους μήνες, μια ταχύτητα ανάπτυξης που δεν θα ήταν δυνατή χωρίς φωνητικές εντολές.

“Δεν νομίζω ότι (η πληκτρολόγηση) θα σας οδηγήσει εκεί τόσο αποτελεσματικά ή αποτελεσματικά όσο η ομιλία”, είπε ο McNamara.

Του πήρε μια περίεργη συζήτηση και μερικές ώρες τεχνητής νοημοσύνης για να δημιουργήσει το Sprout Gifts, ένα μητρώο δώρων για παιδιά και μια εφαρμογή που αξιολογεί οποιοδήποτε αντικείμενο με φωτογραφία.

Είναι αλήθεια ότι η τεχνητή νοημοσύνη μπορεί να κάνει λάθη και η δουλειά της πρέπει να ελεγχθεί.

Ταυτόχρονα, η ευρεία υιοθέτηση έχει φέρει νέες ταλαιπωρίες, καθώς ακόμη και οι ισχυροί χρήστες θεωρούν ότι είναι άβολο να μιλήσουν στους φορητούς υπολογιστές τους. Τα πολυσύχναστα ανοιχτά γραφεία δεν είναι κατάλληλα για πολλά άτομα που μιλούν στον υπολογιστή ταυτόχρονα.

“Όπως ο ήχος, αλλά όχι σε περιβάλλον γραφείου”, είπε ένας χρήστης

Ο Μακναμάρα φορούσε ακουστικά, οπότε ο κόσμος νόμιζε ότι μιλούσε στο τηλέφωνο.

«Είναι σαν ένα social hack που έχω», είπε.

Ο Dylan Fox, ιδρυτής της Assembly AI με έδρα το Σαν Φρανσίσκο, η οποία παρέχει μοντέλα ήχου σε εταιρείες, είπε ότι ενώ είναι πολύ νωρίς για να πούμε εάν και πότε το Qwerty θα ακολουθήσει τα tickers και τα fax και θα καταστεί απαρχαιωμένο, η ταχύτητα της ομιλίας επιταχύνεται.

«Πιστεύουμε ότι η ζήτηση για εφαρμογές φωνής, τεχνητής νοημοσύνης και διεπαφές θα αυξηθεί 10 έως 100 φορές και είμαστε πραγματικά στα πρώτα στάδια αυτού», είπε.

Για τον κωδικοποιητή McNamara, το να μιλάει περισσότερο με ένα chatbot τον έκανε καλύτερο φίλο.

Κάποτε ήταν κακός στο να απαντά στα γραπτά μηνύματα. Τώρα ήταν αμέσως πίσω με τους φίλους του.

«Αντέδρασα γρήγορα και μου είπαν «Ποιος είναι αυτός ο τύπος;» είπε.


Σύνδεσμος πηγής: www.latimes.com

Σχολιάστε