Alexa obravnava ukaze naravnega jezika s prefinjenim postopkom, ki vključuje več ključnih tehnologij: obdelavo signalov, odkrivanje besed, prepoznavanje govora, razumevanje naravnega jezika (NLU) in besedilo v govor (TTS). Tu je podrobna razčlenitev, kako Alexa obdeluje te ukaze:
Obdelava signalov in odkrivanje besed
1. obdelava signala: Ko uporabnik govori z napravo, ki podpira Alexa, se zvočni vhod najprej obdela, da odstrani hrup v ozadju, na primer okoljski zvoki s televizorjev ali drugih pogovorov. Ta korak zagotavlja, da se Alexa osredotoči na ciljni signal, ki je uporabnikov glasovni ukaz [1] [5].2. Zaznavanje besed Wake: Alexa posluša posebne aktivacijske besede, običajno "Alexa" ali "Hey Alexa", da sproži obdelavo ukaza. Ko je zaznana budna beseda, Alexa začne beležiti in obdelati zvočni vhod [1] [2].
Prepoznavanje govora
3. Pretvorba govora v besedilo: posneti zvok se nato prenaša v Amazonove strežnike v oblaku, kjer se pretvori v besedilo s pomočjo avtomatske prepoznavanja govora (ASR). ASR analizira zvočne valove, da se ujema z vzorci z ogromno knjižnico zvokov v različnih jezikih, kar mu omogoča, da ugotovi, kaj je uporabnik povedal [2] [3].Razumevanje naravnega jezika (NLU)
4. Namera Identifikacija: Po pretvorbi govora v besedilo Alexa uporablja NLU za razumevanje namere ukaza uporabnika. NLU vključuje analizo besedila, da ugotovi, kakšno dejanje želi izvesti uporabnik, na primer predvajanje predvajanja ali nastavitev alarma. Prav tako izvleče ključne podrobnosti ali "reže", potrebne za izpolnitev zahteve, kot so določeni umetniki ali naslovi pesmi [3] [4].5. Kontekstno razumevanje: Alexa's NLU je ozaveščena konteksta, kar pomeni, da lahko uporabi prejšnje interakcije ali nadaljnja vprašanja, da izboljša svoje razumevanje uporabnikove namere. Na primer, če uporabnik prosi Alexa, naj pokliče nekoga, lahko zahteva pojasnilo, če obstaja več stikov s podobnimi imeni [10] [11].
Generacija in dostava odziva
6. Formulacija odgovorov: Ko Alexa razume uporabnikov namen, po potrebi poizveduje odziv s poizvedovanjem o bazah podatkov, API -jeh ali drugih storitvah. Ta odziv nastane z uporabo naravnega jezika (NLG), ki konstruira slovnično pravilne stavke, ki posnemajo naravni govor [3] [7].7. Pretvorba besedila v govor: Formulirani odziv se nato pretvori v zvočni posnetek z uporabo napredne tehnologije TTS. Ta tehnologija zagotavlja, da se Alexain glas zveni naravno in privlačno, pogosto po vzoru resničnih človeških glasov [3] [8].
8. Predvajanje zvoka: Končno se zvočni posnetek pretaka nazaj v uporabnikovo napravo in predvaja na glas, tako da dokonča interakcijo [3].
Nenehno izboljševanje
Zmogljivosti Alexa se nenehno povečujejo s strojnim učenjem in kopičenjem podatkov o interakciji uporabnikov. To omogoča Alexa, da izpopolni svojo natančnost prepoznavanja govora, izboljša svoje razumevanje zapletenih poizvedb in se sčasoma prilagodi uporabniškim nastavitvam [5] [7].Navedbe:
[1] https://hackernoon.com/ai-for-noobs-how-amazon-alexa-works
[2] https://intuji.com/the-tech-behind-amazon-alexa/
[3] https://reolink.com/blog/how-does-alexa-work/
[4] https://intellect-partners.com/blog/undersing-hidden-arMarkov-model-in-natural-Language-konbatring-decoding-amazon-alexas/
[5] https://www.cloudthat.com/resources/blog/the-advanced-voice-assistance-technology-amazons-alexa
[6] https://developer.amazon.com/en-us/docs/alexa/converrations/how-alexa-conversions-works.html
[7] https://bernardmarr.com/machine-loarning-in-practice-how-does-amazons-alexa-really-work/
[8] https://www.amazon.science/blog/alexa-unveils-new-Speech-recognition-text-to-Speech-Technologies
[9] https://www.youtube.com/watch?v=u1yt_4xcgly
[10] https://www.amazon.science/latest-news/the-engineering-behind-alexas-contextual-Speech-recognition
[11] https://developer.amazon.com/en-us/alexa/alexa-kills-kit/nlu