Alexa käsittelee luonnollisia kielen komentoja hienostuneella prosessilla, joka sisältää useita avaintekniikoita: signaalinkäsittely, herätyssanan havaitseminen, puheentunnistus, luonnollinen kielen ymmärtäminen (NLU) ja tekstistä puheeksi (TTS). Tässä on yksityiskohtainen erittely siitä, kuinka Alexa käsittelee näitä komentoja:
Signaalinkäsittely- ja herätyssanan havaitseminen
1. Signaalinkäsittely: Kun käyttäjä puhuu Alexa-yhteensopivaan laitteeseen, äänisyöttöä käsitellään ensin taustamelun, kuten ympäristön äänien, televisioiden tai muiden keskustelujen poistamiseksi. Tämä vaihe varmistaa, että Alexa keskittyy kohdesignaaliin, joka on käyttäjän äänikomento [1] [5].2. Herätyssanan havaitseminen: Alexa kuuntelee tiettyjä aktivointisanoja, tyypillisesti "Alexa" tai "Hey Alexa", joka aloittaa komennon käsittelyn. Kun herätyssana on havaittu, Alexa alkaa tallentaa ja käsitellä äänituloa [1] [2].
Puheentunnistus
3. Puhe-teksti-muuntaminen: Tallennettu ääni suoratoistetaan sitten Amazonin pilvipalvelimille, joissa se muunnetaan tekstiksi automaattisen puheentunnistuksen (ASR) tekniikan avulla. ASR analysoi ääniaallot vastaamaan kuvioita laajan äänikirjaston kanssa eri kielillä, jolloin se voi tunnistaa, mitä käyttäjä on sanonut [2] [3].Luonnollinen kielen ymmärtäminen (NLU)
4. Tarkoitus tunnistaminen: Kun Alexa on muuttanut puheen tekstiin, Alexa käyttää NLU: ta käyttäjän komennon taustalla olevaa aikomusta. NLU sisältää tekstin analysoinnin määrittääksesi, mitä toimintoa käyttäjä haluaa suorittaa, kuten toiston pelaaminen tai hälytyksen asettaminen. Se poimii myös keskeisiä yksityiskohtia tai "lähtöpaikkoja", joita tarvitaan pyynnön täyttämiseen, kuten tietyt taiteilijat tai laulunimikkeet [3] [4].5. Kontekstuaalinen ymmärrys: Alexan NLU on kontekstitietoinen, mikä tarkoittaa, että se voi käyttää aiempia vuorovaikutuksia tai seurantakysymyksiä tarkentaakseen ymmärrystään käyttäjän aikomuksesta. Esimerkiksi, jos käyttäjä pyytää Alexaa soittamaan jollekin, se saattaa pyytää selventämään, onko samanlaisissa nimissä useita yhteyksiä [10] [11].
Vastauksen luominen ja toimitus
6. Vastausformulaatio: Kun Alexa ymmärtää käyttäjän aikomuksen, se muotoilee vastauksen kyselemällä tietokantoja, sovellusliittymiä tai muita palveluita tarpeen mukaan. Tämä vastaus syntyy käyttämällä luonnollista kielen luomista (NLG), joka rakentaa kielioppisesti oikeita lauseita, jotka jäljittelevät luonnollista puhetta [3] [7].7. Teksti-puheeksi muuntaminen: Formuloitu vastaus muunnetaan sitten äänileikkeeksi edistyneen TTS-tekniikan avulla. Tämä tekniikka varmistaa, että Alexan ääni kuulostaa luonnolliselta ja kiinnostavalta, mallinnettu usein todellisten ihmisen äänien jälkeen [3] [8].
8. Äänen toisto: Lopuksi äänileike suoratoistetaan takaisin käyttäjän laitteeseen ja toistetaan ääneen, täydentämällä vuorovaikutusta [3].
Jatkuva parannus
Alexan ominaisuuksia parannetaan jatkuvasti koneoppimisella ja käyttäjän vuorovaikutustietojen kertymisellä. Tämän avulla Alexa voi tarkentaa puheentunnistuksen tarkkuutta, parantaa ymmärrystä monimutkaisista kyselyistä ja sopeutua käyttäjän mieltymyksiin ajan myötä [5] [7].Viittaukset:
[1] https://hackernoon.com/ai-for-noobs-how-amazon-alexa-works
[2] https://intuji.com/the-tech-behind-amazon-alexa/
[3] https://reolink.com/blog/how-does-alexa-work/
.
.
[6] https://developer.amazon.com/en-us/docs/alexa/conversations/how-alexa-conversations-works.html
.
.
[9] https://www.youtube.com/watch?v=U1YT_4XCGLY
.
[11] https://developer.amazon.com/en-us/alexa/alexa-skills-kit/nlu