Hệ thống nhận diện giọng nói của Microsoft đạt thành công mới

TẠ XUÂN QUAN• 24/08/2017 08:54

(QNO) - Trang tin Newatlas cho biết các nhà nghiên cứu của hãng Microsoft đã có được thành tựu quan trọng với hệ thống nhận dạng giọng nói đàm thoại. Tỷ lệ lỗi chỉ còn 5,1% tương đương với một diễn giả.

Các cột mốc phát triển của Speed từ 1971-2015/Newatlas

Các cột mốc phát triển của Speed từ 1971-2015. Ảnh: Newatlas

Một năm trước nhóm nghiên cứu của Microsoft đã hạ tỷ lệ lỗi xuống còn 5,9%, được coi là tỷ lệ lỗi trung bình đối với người thực trong một cuộc trò chuyện.

Trong hơn 20 năm, một bộ sưu tập các cuộc trò chuyện điện thoại được ghi lại gọi là Bảng điều khiển (Switchboard) đã được sử dụng để kiểm tra tính chính xác cho hệ thống nhận diện giọng nói. Điều này được thực hiện bằng cách giao nhiệm vụ cho con người hoặc máy ghi lại những cuộc trò chuyện qua điện thoại giữa những người lạ với chủ đề bao gồm chính trị và thể thao.

Để giảm tỷ lệ lỗi của hệ thống, nhóm nghiên cứu đã kết hợp một loạt các cải tiến trong các mô hình ngôn ngữ học dựa trên mạng nơ-ron. Về nâng cấp chung cho tất cả các thành phần của hệ thống, kích thước từ vựng của mô hình đã được tăng lên từ khoảng 30.000 từ cho đến 165.000 từ.

Mô hình ngôn ngữ mới cho phép hệ thống sử dụng toàn bộ cuộc đối thoại, cố gắng xác định rõ ràng các cụm từ cụ thể.

Nhóm ghi nhận rằng vẫn còn nhiều việc phải làm trong lĩnh vực nhận dạng giọng nói và bước đột phá mới nhất này không bao gồm các tác vụ phức tạp hơn như nhận dạng giọng nói trong môi trường lớn hoặc giải mã bài phát biểu mạnh mẽ. Các hệ thống nhận dạng giọng nói của Microsoft hiện đang được sử dụng trong các dịch vụ như Cortana và Speech Translator.

TẠ XUÂN QUAN