Ngày 10 tháng 6, Hội nghị quốc tế về xử lý âm thanh, lời nói và tín hiệu liên quan đến lĩnh vực như trò chơi ICASSP 2023 đã được tổ chức tại Rhodes Island, Hy Lạp.
Tại hội nghị này, bộ phận GVoice của Tencent Games Public R&D Operation System (CROS) đã trình bày thuật toán bộ lọc Neural Kalman đầu tiên trên thế giới (GVoice NKF), đã trở thành công nghệ phổ biến nhất trong cộng đồng Github năm nay. Thuận toán được ứng dụng phổ biến trong việc làm game.
ICASSP là hội nghị quốc tế lớn nhất và toàn diện nhất trên thế giới về âm học, giọng nói và xử lý tín hiệu, đồng thời đây cũng là một trong những hội nghị quốc tế hàng đầu có ảnh hưởng nhất trong lĩnh vực công nghệ giọng nói. Nhiều nhà làm game đã quy tụ để trao đổi về công nghệ lồng tiếng trong game. Tại hội nghị này, các học giả và đại diện của các nhà sản xuất ứng dụng từ khắp nơi trên thế giới đã cùng nhau chia sẻ những kết quả nghiên cứu mới nhất trong lĩnh vực công nghệ giọng nói, trao đổi những đổi mới công nghệ và kịch bản ứng dụng, đồng thời thảo luận về xu hướng phát triển của công nghệ giọng nói toàn cầu.
Yang Dong, người phụ trách thuật toán của Tencent Games GVoice NKF, đã giới thiệu về nền tảng nghiên cứu, quy trình nghiên cứu và kết quả ứng dụng mới nhất của thuật toán GVoice NKF, thu hút nhiều người tham gia. Trong số đó, Giáo sư Gerald Enzner, chuyên gia hàng đầu trong lĩnh vực âm học, đã đánh giá cao bước đột phá này trong công nghệ thuật toán và đã có cuộc trao đổi sâu với Yang Dong. Yang Dong cho biết, trong ngành, một thuật toán khử tiếng vang tốt cần phải đáp ứng các chỉ số ERLE và SDR.
GVoice NKF lần đầu tiên đề xuất và xác minh rằng tính năng lọc Kalman có thể sử dụng kiến trúc hỗn hợp xử lý tín hiệu số (MB) và hướng dữ liệu (DD) để hoàn thành nhiệm vụ loại bỏ tiếng vọng và xác minh rằng khung xử lý tín hiệu số tăng cường hiệu quả giọng lồng tiếng trong game, nhất là trò chơi nhập vai.
Hiện tại, trong cộng đồng Github, thuật toán GVoice NKF cũng rất được quan tâm và công nhận, chỉ trong thời gian ngắn đã đạt được 116 sao, đứng thứ 3 về số lượt yêu thích, đứng thứ 2 về thuật toán gốc và cho thấy tăng trưởng liên tục và nhanh chóng. Nó đã trở thành một trong những thuật toán loại bỏ tiếng vang phổ biến nhất trong cộng đồng Github vào năm 2023. Thuật toán GVoice NKF có thể cung cấp các chức năng như giọng nói nhóm, tin nhắn thoại, chuyển giọng nói thành văn bản, giải thích đồng thời bằng giọng nói hỗ trợ 10.000 người chơi giao tiếp với nhau trong cùng một phòng thoại hay game online, áp dụng cho UE4, Unity, Cocos, Native và các nền tảng khác. Tencent áp dụng điều này trong PUBG Mobile, Liên Minh Tốc Chiến, Thiên Nhai Minh Nguyệt Đao Mobile…
Ngoài lĩnh vực game, thuật toán GVoice NKF cũng đã được viết vào nhiều loại chip CPU như Qualcomm, MediaTek và Intel, giúp hình thành và triển khai các tiêu chuẩn giọng nói cho game.
Theo: Game4v