Công nghệ phát hiện cảm xúc của Alexa, được phát triển bởi Amazon, chủ yếu tập trung vào việc phân tích các đầu vào giọng nói để xác định trạng thái cảm xúc. Điều này đạt được thông qua các thuật toán nâng cao đánh giá cao độ, âm lượng và giọng điệu để xác định những cảm xúc như hạnh phúc, tức giận hoặc buồn bã [1] [7]. Trong khi các hệ thống nhận dạng cảm xúc khác như Aflictiva, Google Vision API và Microsoft ESTEM API thường dựa vào biểu cảm khuôn mặt và ngôn ngữ cơ thể ngoài phân tích giọng nói, cách tiếp cận của Alexa tập trung hơn vào các tương tác dựa trên giọng nói [2] [3] [4].
Sự khác biệt chính
1. Phương thức đầu vào:
- Alexa: Chủ yếu sử dụng phân tích giọng nói, tận dụng micrô và phần mềm dịch chuyển giọng nói để phát hiện trạng thái cảm xúc [4] [7].
- Các hệ thống khác: Thường kết hợp nhiều phương thức như biểu cảm khuôn mặt, ngôn ngữ cơ thể và phân tích văn bản. Ví dụ, ảnh hưởng sử dụng các thuật toán trên khuôn mặt và phân tích lời nói, trong khi API Google Vision tập trung vào các tín hiệu thị giác [2] [3] [8].
2. Ứng dụng và Tích hợp:
- Alexa: Được tích hợp vào các thiết bị nhà thông minh và trợ lý giọng nói, nhằm mục đích tăng cường tương tác của người dùng bằng cách phản ứng thích hợp với các tín hiệu cảm xúc [1] [9].
- Các hệ thống khác: Áp dụng rộng rãi trên các lĩnh vực khác nhau bao gồm quảng cáo, giáo dục và ô tô. Chẳng hạn, công nghệ của Affectiva được sử dụng trong cài đặt ô tô để theo dõi cảm xúc của người lái [3] [4].
3. Cách tiếp cận công nghệ:
- Alexa: Sử dụng các thuật toán AI tự giảng dạy cải thiện theo thời gian, tăng cường độ chính xác trong phát hiện cảm xúc [1]. Nó cũng sử dụng công nghệ TTS thần kinh (NTTS) cho các phản ứng cảm xúc âm thanh tự nhiên hơn [9].
- Các hệ thống khác: Có thể sử dụng các mô hình AI và kỹ thuật máy học khác nhau. Ví dụ, API cảm xúc của Microsoft đã cho thấy độ chính xác cao trong việc phát hiện những cảm xúc cụ thể như sợ hãi [2].
4. Mục đích và các trường hợp sử dụng:
- Alexa: Chủ yếu nhằm cải thiện trải nghiệm người dùng thông qua các tương tác cá nhân hóa. Nó có thể điều chỉnh các phản hồi dựa trên cảm xúc được phát hiện, chẳng hạn như cung cấp nội dung làm dịu khi người dùng nghe có vẻ khó chịu [3] [7].
- Các hệ thống khác: thường được sử dụng cho các ứng dụng rộng hơn như nghiên cứu thị trường, quảng cáo được nhắm mục tiêu và thậm chí bỏ phiếu chính trị [4] [8].
Tóm lại, trong khi phát hiện cảm xúc của Alexa chủ yếu tập trung vào giọng nói và tập trung vào việc tăng cường các tương tác của người dùng, các hệ thống khác rất đa dạng trong các phương thức và ứng dụng đầu vào của họ, phản ánh phạm vi sử dụng rộng hơn trong các ngành công nghiệp khác nhau.
Trích dẫn:[1] https://futurism.com/the-byte/amazon-alexa-analyzing-emotions
[2] https://www.aies-conference.com/2019/wp-content/papers/main/AIES-19_paper_161.pdf
[3] https://thenextweb.com/news/emotion-detecting-technology-is-everywhere-but-its-out-of-date
.
[5] https://scholarworks.uno.edu/cgi/viewcontent.cgi?article=4347&context=td
[6] https://www.mdpi.com/2071-1050/16/7/2721
.
.
[9] https://developer.amazon.com/en-US/blogs/alexa/alexa-skills-kit/2019/11/new-alexa-emotions-and-speaking-styles