Alexa tegeleb looduslike keelekäsklustega keeruka protsessi kaudu, mis hõlmab mitmeid võtmetehnoloogiaid: signaalitöötlus, ärkvelõndes tuvastamine, kõnetuvastus, loomuliku keele mõistmine (NLU) ja kõne teksti (TTS). Siin on üksikasjalik jaotus, kuidas Alexa neid käske töötleb:
Signaali töötlemine ja äratu tuvastamine
1. Signaalitöötlus: kui kasutaja räägib Alex-ga toega seadmega, töödeldakse helisisendit kõigepealt taustmüra eemaldamiseks, näiteks telerite või muude vestluste ümbritsevate helide eemaldamiseks. See samm tagab, et Alexa keskendub sihtsignaalile, mis on kasutaja häälkäsk [1] [5].2. äratussõna tuvastamine: Alexa kuulab käsu töötlemise algatamiseks konkreetseid aktiveerimissõnu, tavaliselt "Alexa" või "Hey Alexa". Kui äratussõna on tuvastatud, hakkab Alexa helisisendit salvestama ja töötlema [1] [2].
Kõnetuvastus
3. Kõne-teksti teisendamine: seejärel voogesitatakse salvestatud heli Amazoni pilveserveritesse, kus see teisendatakse tekstiks, kasutades automaatse kõnetuvastuse (ASR) tehnoloogiat. ASR analüüsib helilaineid, et need sobiksid mustritega erinevates keeltes tohutu helide teegiga, võimaldades sellel tuvastada, mida kasutaja on öelnud [2] [3].Loodusliku keele mõistmine (NLU)
4. Kavatsus identifitseerimine: Pärast kõne teksti teisendamist kasutab Alexa NLU -d kasutaja käsu taga oleva kavatsuse mõistmiseks. NLU hõlmab teksti analüüsimist, et teha kindlaks, millist toimingut kasutaja teha soovib, näiteks taasesituse mängimine või häire määramine. See kaevandab ka päringu täitmiseks vajalikud peamised üksikasjad või "teenindusajad", näiteks konkreetsed artistid või laulude pealkirjad [3] [4].5. Kontekstuaalne mõistmine: Alexa NLU on konteksti teadlik, mis tähendab, et see võib kasutada varasemaid interaktsioone või järelküsimusi, et täpsustada selle mõistmist kasutaja kavatsusest. Näiteks kui kasutaja palub Alexal kellelegi helistada, võib ta küsida selgitust, kui sarnaste nimedega on mitu kontakti [10] [11].
Vastuse genereerimine ja kohaletoimetamine
6. Vastuse sõnastus: kui Alexa mõistab kasutaja kavatsust, sõnastab see vastuse andmebaaside, API -de või muude teenuste päringuga vastavalt vajadusele. See vastus genereeritakse loodusliku keele genereerimise (NLG) abil, mis konstrueerib grammatiliselt korrektseid lauseid, mis jäljendavad looduslikku kõnet [3] [7].7. Teksti-kõne teisendamine: sõnastatud vastus teisendatakse seejärel Advanced TTS-tehnoloogia abil heliklipiks. See tehnoloogia tagab, et Alexa hääl kõlab loomulikult ja kaasahaaravalt, sageli modelleerituna inimese tõeliste häälte järel [3] [8].
8. Audio taasesitus: Lõpuks voogesitatakse heliklipp tagasi kasutaja seadmesse ja mängitakse valjusti, täites interaktsiooni [3].
Pidev täiustamine
Alexa võimalusi täiustatakse pidevalt masinõppe ja kasutaja interaktsiooni andmete kogunemise kaudu. See võimaldab Alexal täpsustada oma kõnetuvastuse täpsust, parandada selle mõistmist keerukatest päringutest ja kohaneda kasutaja eelistustega aja jooksul [5] [7].Tsitaadid:
[1] https://hackernoon.com/ai-for-nobs-how-amazon-alexa-works
[2] https://intuji.com/the-tech-behind-amazon-alexa/
[3] https://reolink.com/blog/how-does-alexa-work/
]
]
]
]
]
[9] https://www.youtube.com/watch?v=u1yt_4xcgly
]
[11] https://developer.amazon.com/en-us/alexa/alexa-skills-kit/nlu