Η Alexa χειρίζεται τις εντολές της φυσικής γλώσσας μέσω μιας εκλεπτυσμένης διαδικασίας που περιλαμβάνει αρκετές βασικές τεχνολογίες: επεξεργασία σήματος, ανίχνευση λέξεων αφύπνισης, αναγνώριση ομιλίας, κατανόηση της φυσικής γλώσσας (NLU) και κείμενο προς ομιλία (TTS). Ακολουθεί μια λεπτομερής κατανομή του τρόπου με τον οποίο η Alexa επεξεργάζεται αυτές τις εντολές:
Επεξεργασία σήματος και ανίχνευση λέξεων αφύπνισης
1. Επεξεργασία σήματος: Όταν ένας χρήστης μιλάει σε μια συσκευή με δυνατότητα ALEXA, η είσοδος ήχου επεξεργάζεται αρχικά για να αφαιρέσει το θόρυβο του φόντου, όπως οι ήχοι περιβάλλοντος από τηλεοράσεις ή άλλες συνομιλίες. Αυτό το βήμα εξασφαλίζει ότι η Alexa επικεντρώνεται στο σήμα στόχου, το οποίο είναι η φωνητική εντολή του χρήστη [1] [5].2. Ανίχνευση λέξεων αφύπνισης: Η Alexa ακούει για συγκεκριμένες λέξεις ενεργοποίησης, συνήθως "Alexa" ή "Hey Alexa", για να ξεκινήσει η επεξεργασία της εντολής. Μόλις εντοπιστεί η λέξη αφύπνισης, η Alexa αρχίζει να καταγράφει και να επεξεργάζεται την είσοδο ήχου [1] [2].
Αναγνώριση ομιλίας
3. Μετατροπή ομιλίας σε κείμενο: Ο καταγεγραμμένος ήχος στη συνέχεια μεταδίδεται στους διακομιστές σύννεφων του Amazon, όπου μετατρέπεται σε κείμενο χρησιμοποιώντας τεχνολογία αυτόματης αναγνώρισης ομιλίας (ASR). Η ASR αναλύει τα ακουστικά κύματα για να ταιριάζουν με τα μοτίβα με μια τεράστια βιβλιοθήκη ήχων σε διάφορες γλώσσες, επιτρέποντάς του να προσδιορίσει τι έχει πει ο χρήστης [2] [3].Κατανόηση φυσικής γλώσσας (NLU)
4. ΠΡΟΣΩΠΙΚΗ ΑΝΑΓΝΩΣΗ: Μετά τη μετατροπή της ομιλίας σε κείμενο, η Alexa χρησιμοποιεί το NLU για να κατανοήσει την πρόθεση πίσω από την εντολή του χρήστη. Το NLU περιλαμβάνει την ανάλυση του κειμένου για να καθορίσει ποια ενέργεια θέλει να εκτελέσει ο χρήστης, όπως η αναπαραγωγή ή ο καθορισμός συναγερμού. Εξάγει επίσης βασικές λεπτομέρειες ή "slots" που απαιτούνται για την εκπλήρωση του αιτήματος, όπως συγκεκριμένους καλλιτέχνες ή τίτλους τραγουδιών [3] [4].5. Κατανόηση συμφραζομένων: Η NLU της Alexa είναι επίγνωση του περιβάλλοντος, που σημαίνει ότι μπορεί να χρησιμοποιήσει προηγούμενες αλληλεπιδράσεις ή ερωτήσεις παρακολούθησης για να βελτιώσει την κατανόηση της πρόθεσης του χρήστη. Για παράδειγμα, εάν ένας χρήστης ζητήσει από την Alexa να καλέσει κάποιον, μπορεί να ζητήσει διευκρίνιση εάν υπάρχουν πολλαπλές επαφές με παρόμοια ονόματα [10] [11].
Δημιουργία απόκρισης και παράδοση
6. Σχέδιο απόκρισης: Μόλις η Alexa κατανοήσει την πρόθεση του χρήστη, διατυπώνει μια απάντηση με την αναζήτηση βάσεων δεδομένων, των API ή άλλων υπηρεσιών όπως απαιτείται. Αυτή η απάντηση παράγεται χρησιμοποιώντας τη δημιουργία φυσικής γλώσσας (NLG), η οποία κατασκευάζει γραμματικά σωστές προτάσεις που μιμούνται τη φυσική ομιλία [3] [7].7. Μετατροπή κειμένου προς ομιλία: Η διαμορφωμένη απόκριση μετατρέπεται στη συνέχεια σε ένα ακουστικό κλιπ χρησιμοποιώντας την προηγμένη τεχνολογία TTS. Αυτή η τεχνολογία εξασφαλίζει ότι η φωνή της Alexa ακούγεται φυσική και ελκυστική, συχνά διαμορφωμένη μετά από πραγματικές ανθρώπινες φωνές [3] [8].
8. Αναπαραγωγή ήχου: Τέλος, το κλιπ ήχου μεταδίδεται πίσω στη συσκευή του χρήστη και έπαιξε δυνατά, ολοκληρώνοντας την αλληλεπίδραση [3].
Συνεχής βελτίωση
Οι δυνατότητες της Alexa ενισχύονται συνεχώς μέσω της μηχανικής μάθησης και της συσσώρευσης δεδομένων αλληλεπίδρασης χρηστών. Αυτό επιτρέπει στην Alexa να βελτιώσει την ακρίβεια της αναγνώρισης ομιλίας της, να βελτιώσει την κατανόηση των σύνθετων ερωτημάτων και να προσαρμοστεί στις προτιμήσεις των χρηστών με την πάροδο του χρόνου [5] [7].Αναφορές:
[1] https://hackernoon.com/ai-for-noobs-how-amazon-alexa-works
[2] https://intuji.com/the-tech-behind-amazon-alexa/
[3] https://reolink.com/blog/how-does-alexa-work/
[4] https://intellect-partners.com/blog/understanding-hidden-markov-model-in-natural language-mundersting-decoding-amazon-alexas/
[5] https://www.cloudthat.com/resources/blog/the-advanced-voice-issistance-technology-amazons-alexa
[6] https://developer.amazon.com/en-us/docs/alexa/conversations/how-alexa-conversations-works.html
[7] https://bernardmarr.com/machine-learning-in-practice-how-does-amazons-alexa-really-work/
[8] https://www.amazon.science/blog/alexa-unveils-new-speech-recognition-speechnologies-technologies
[9] https://www.youtube.com/watch?v=U1YT_4XCGLY
[10] https://www.amazon.science/latest-news/the-engineering-behind-alexas-contextual-speech-recognition
[11] https://developer.amazon.com/en-us/alexa/alexa-skills-kit/nlu