Alexa xử lý các lệnh ngôn ngữ tự nhiên thông qua một quá trình tinh vi liên quan đến một số công nghệ chính: xử lý tín hiệu, phát hiện từ đánh thức, nhận dạng giọng nói, hiểu ngôn ngữ tự nhiên (NLU) và văn bản-to-loble (TTS). Dưới đây là một sự cố chi tiết về cách Alexa xử lý các lệnh này:
Xử lý tín hiệu và phát hiện từ
1. Xử lý tín hiệu: Khi người dùng nói chuyện với thiết bị hỗ trợ Alexa, đầu vào âm thanh được xử lý trước tiên để loại bỏ nhiễu nền, chẳng hạn như âm thanh xung quanh từ TV hoặc các cuộc hội thoại khác. Bước này đảm bảo rằng Alexa tập trung vào tín hiệu đích, đó là lệnh thoại của người dùng [1] [5].2. Phát hiện từ Word: Alexa lắng nghe các từ kích hoạt cụ thể, điển hình là "Alexa" hoặc "Hey Alexa", để bắt đầu xử lý lệnh. Khi từ thức được phát hiện, Alexa bắt đầu ghi và xử lý đầu vào âm thanh [1] [2].
Nhận dạng giọng nói
3. Chuyển đổi lời nói sang văn bản: Âm thanh được ghi lại sau đó được truyền đến các máy chủ đám mây của Amazon, nơi nó được chuyển đổi thành văn bản bằng công nghệ nhận dạng giọng nói tự động (ASR). ASR phân tích các sóng âm thanh để khớp các mẫu với một thư viện âm thanh rộng lớn bằng các ngôn ngữ khác nhau, cho phép nó xác định những gì người dùng đã nói [2] [3].Hiểu ngôn ngữ tự nhiên (NLU)
4. Nhận dạng ý định: Sau khi chuyển đổi bài phát biểu sang văn bản, Alexa sử dụng NLU để hiểu ý định đằng sau lệnh của người dùng. NLU liên quan đến việc phân tích văn bản để xác định hành động nào người dùng muốn thực hiện, chẳng hạn như chơi phát lại hoặc đặt báo thức. Nó cũng trích xuất các chi tiết chính hoặc "khe" cần thiết để thực hiện yêu cầu, như các nghệ sĩ hoặc tiêu đề bài hát cụ thể [3] [4].5. Hiểu theo ngữ cảnh: NLU của Alexa là nhận thức theo ngữ cảnh, có nghĩa là nó có thể sử dụng các tương tác trước đó hoặc các câu hỏi tiếp theo để tinh chỉnh sự hiểu biết của nó về ý định của người dùng. Ví dụ: nếu người dùng yêu cầu Alexa gọi cho ai đó, nó có thể yêu cầu làm rõ nếu có nhiều liên hệ có tên tương tự [10] [11].
Tạo và giao hàng phản hồi
6. Công thức phản hồi: Khi Alexa hiểu được ý định của người dùng, nó sẽ xây dựng phản hồi bằng cách truy vấn cơ sở dữ liệu, API hoặc các dịch vụ khác khi cần thiết. Phản hồi này được tạo ra bằng cách sử dụng tạo ngôn ngữ tự nhiên (NLG), xây dựng các câu chính xác ngữ pháp bắt chước lời nói tự nhiên [3] [7].7. Chuyển đổi văn bản thành giọng nói: Phản hồi được công thức sau đó được chuyển đổi thành một clip âm thanh bằng công nghệ TTS nâng cao. Công nghệ này đảm bảo rằng giọng nói của Alexa nghe có vẻ tự nhiên và hấp dẫn, thường được mô phỏng theo giọng nói thực sự của con người [3] [8].
8. Phát lại âm thanh: Cuối cùng, clip âm thanh được truyền lại cho thiết bị của người dùng và chơi to, hoàn thành tương tác [3].
Cải tiến liên tục
Khả năng của Alexa liên tục được tăng cường thông qua học máy và tích lũy dữ liệu tương tác của người dùng. Điều này cho phép Alexa tinh chỉnh độ chính xác nhận dạng giọng nói của mình, cải thiện sự hiểu biết của nó về các truy vấn phức tạp và thích ứng với sở thích của người dùng theo thời gian [5] [7].Trích dẫn:
[1] https://hackernoon.com/ai-for-noobs-how-amazon-alexa-
[2] https://intuji.com/the-tech-cre
[3] https://reolink.com/blog/how-does-alexa-work/
.
[5] https://www.cloudthat.com/resources/blog/the-advanced-voice-assistance-technology-amazons-alexa
[6] https://developer.amazon.com/en-US/docs/alexa/conversations/how-alexa-conversations-works.html
.
[8] https://www.amazon.science/blog/alexa-unveils-new-speech-recognition-text-to-speech-technologies
[9] https://www.youtube.com/watch?v=U1YT_4XCGLY
[10] https://www.amazon.science/latest-news/the-engineering-behind-alexas-contextual-speech-recognition
[11] https://developer.amazon.com/en-us/alexa/alexa-skills-kit/nlu