Trong môi trường phức tạp, con người có thể hiểu ý nghĩa của lời nói tốt hơn AI, bởi vì chúng ta không chỉ sử dụng tai mà còn sử dụng cả mắt.
Ví dụ, chúng ta nhìn thấy miệng của ai đó đang cử động và bằng trực giác có thể biết rằng âm thanh mà chúng ta nghe thấy phải đến từ người đó.
Meta AI đang nghiên cứu một hệ thống đối thoại AI mới, nhằm dạy AI học cách nhận ra mối tương quan tinh tế giữa những gì nó nhìn thấy và nghe thấy trong một cuộc trò chuyện.
VisualVoice học theo cách tương tự như cách con người học cách thành thạo các kỹ năng mới, cho phép phân tách giọng nói nghe nhìn bằng cách học các tín hiệu thị giác và thính giác từ các video không được gắn nhãn.
Đối với máy móc, điều này tạo ra nhận thức tốt hơn, trong khi nhận thức của con người được cải thiện.
Hãy tưởng tượng bạn có thể tham gia các cuộc họp nhóm trong metaverse với các đồng nghiệp từ khắp nơi trên thế giới, tham gia các cuộc họp nhóm nhỏ hơn khi họ di chuyển qua không gian ảo, trong đó âm thanh vang và âm sắc trong cảnh sẽ được điều chỉnh theo môi trường.
Nghĩa là, nó có thể thu được thông tin âm thanh, video và văn bản cùng một lúc và có mô hình hiểu biết về môi trường phong phú hơn, cho phép người dùng có trải nghiệm âm thanh "rất tuyệt vời".
Thời gian đăng: 20-07-2022