Thứ Bảy ngày 16 tháng 11 năm 2024

Nghiên cứu về AI của nhóm kỹ sư trẻ Việt Nam được công nhận cấp quốc tế tại PRICAI 2021

Mới đây, 2 đề tài nghiên cứu liên quan đến công nghệ xử lý tiếng nói của nhóm kỹ sư Zalo AI đã được công nhận tại Hội nghị Châu Á – Thái Bình Dương về trí tuệ nhân tạo (AI) quốc tế lần thứ 18 năm 2021 (18th The Pacific Rim International Conference on Artificial Intelligence, PRICAI).

PRICAI được biết đến là hội nghị quốc tế tập trung nghiên cứu về AI và ứng dụng trong lĩnh vực kinh tế – xã hội trên phạm vi Châu Á – Thái Bình Dương (APAC), được tổ chức lần đầu vào năm 1990 tại Nagoya (Nhật Ban) và từ đó cứ mỗi 2 năm một lần rời từ 2018 mỗi năm một lần (Seoul 1992, Beijing 1994, Cairns 1996, Singapore 1998, Melbourne 2000, Tokyo 2002, Auckland 2004, Guilin 2006, Hà Nội 2008, Daegu 2010, Kuching 2012, Gold Coast 2014, Phuket 2016, Nanjing 2018, Fiji 2019, Yokohama 2020  online và Hà Nội 2021). Theo giới nghiên cứu về AI, PRICAI là một trong rất ít hội nghị về công nghệ thông tin (IT) có thứ hạng cao trên thế giới. Đây là nơi quy tụ rất nhiều chuyên gia xuất sắc trên thế giới trong trong lĩnh vực AI nói riêng và lĩnh vực IT nói chung.

Việc các đề tài nghiên cứu của các kỹ sư Việt Nam được công nhận ở hội nghị quốc tế là một tín hiệu vui, phản ánh sự rút ngắn khoảng cách giữa Việt Nam và thế giới trong lĩnh vực mới mẻ như AI.

Nhóm kỹ sư AI tại Zalo vừa có 2 đề tài nghiên cứu được công bố tại PRICAI 2021.

Các công trình nghiên cứu được công nhận của nhóm kỹ sư Việt Nam đều liên quan đến công nghệ xử lý giọng nói (Speech Processing): Nghiên cứu về việc chuẩn hóa văn bản đa tác vụ cho hệ thống tổng hợp giọng nói (Multi-task Text Normalization Approach for Speech Synthesis) và Nghiên cứu các giải pháp để xây dựng hệ thống tổng hợp giọng nói đa ngôn ngữ (Learning Vietnamese-English Code-Switching Speech Synthesis Model Under Limited Code-Switched Data Scenario). Thực hiện đề tài này là các nhà nghiên cứu trẻ tuổi đến từ Zalo AI với tuổi đời chưa tới 30 gồm: Trang Trương (sinh năm 1994), Việt Lâm (1995), Cúc Bùi (1997), và Mạnh Cường (1999).

Được biết, đội ngũ này đã mất khoảng 6 tháng để nghiên cứu, thử nghiệm và 2 tháng để hoàn thành phần bài báo khoa học. Các đề tài đều xuất phát từ nhu cầu thực tiễn trong quá trình xây dựng các sản phẩm AI để phục vụ người dùng.

Cúc Bùi, thành viên nhóm nghiên cứu, chia sẻ: “Bọn mình cảm thấy module chuẩn hóa văn bản để tổng hợp giọng nói đang có nhiều hạn chế về từ viết tắt, từ mới, từ sai chính tả, và vấn đề ngắt nghỉ. Điều này có thể ảnh hưởng đến mức độ tự nhiên của giọng nói AI. Vì thế, chúng mình đã cố gắng xây dựng một mô hình nhằm cải thiện vấn đề đang gặp phải.”

Nghiên cứu về việc chuẩn hóa văn bản đa tác vụ cho hệ thống tổng hợp giọng nói

Hiện tại, cả “Nghiên cứu về việc chuẩn hóa văn bản đa tác vụ cho hệ thống tổng hợp giọng nói” và “Nghiên cứu các giải pháp để xây dựng hệ thống tổng hợp giọng nói đa ngôn ngữ” đều đang được ứng dụng vào thực tiễn. Cụ thể là 2 nghiên cứu đang được áp dụng vào hệ thống tổng hợp giọng nói nhằm hỗ trợ sản phẩm thực tế chạy trên trang Báo Mới và loa thông minh Kiki.  

Sau khi tham dự PRICAI 2021, nhóm kỹ sư vẫn tiếp tục các nghiên cứu còn dang dở nhằm cải thiện sản phẩm họ đang phụ trách tại Zalo. Nhóm cho biết, nếu có cơ hội hay ý tưởng tốt, họ vẫn sẵn sàng thực hiện các bài báo khoa học để chia sẻ tri thức tới cộng đồng AI.

Nói về mong muốn mang giải pháp AI của Việt Nam ra cộng đồng quốc tế, kỹ sư Mạnh Cường cho rằng: “Việc mang những kiến thức về AI của người Việt Nam ra thế giới là mong muốn của rất nhiều kỹ sư AI. Và mình cảm thấy khá tự hào khi được góp một phần nhỏ trong hành trình ấy.”

Nghiên cứu các giải pháp để xây dựng hệ thống tổng hợp giọng nói đa ngôn ngữ

Zalo AI hiện là một đơn vị hàng đầu trong nghiên cứu và ứng dụng AI trong nước, tập trung vào 4 mảng chính của AI là Thị giác máy tính (Computer Vision), Xử lý tiếng nói (Speech processing), Xử lý ngôn ngữ tự nhiên (NLP), và Big Data & Machine Learning (Dữ liệu lớn và Máy học).

Đây không phải là lần đầu tiên, Zalo có thành tích tốt về mặt học thuật trên phạm vi quốc tế. Vào đầu năm 2021, 2 kỹ sư trẻ của Zalo đã đạt Quán quân cuộc thi AI trên Kaggle – sân chơi AI lớn nhất thế giới. Zalo AI cũng nhiều lần đạt giải cao về xử lý tiếng nói và ngôn ngữ tự nhiên ở Việt Nam.

Thành tựu nghiên cứu về AI của Zalo đang được ứng dụng trên nhiều sản phẩm hiện có của hệ sinh thái nhằm mang đến trải nghiệm tốt nhất cho người Việt. Ngoài ra, Zalo cũng cung cấp ra cộng đồng các công cụ giúp phát hiện “đường lưỡi bò” (Nine-dash line) phi pháp, chuyển đổi văn bản thành giọng nói, phân loại hình ảnh, kiểm duyệt content miễn phí. Đặc biệt, sản phẩm trợ lý tiếng nói Kiki của Zalo dựa trên công nghệ tổng hợp tiếng nói và xử lý ngôn ngữ tự nhiên hiện đang khá phổ biến trên xe hơi điều khiển bằng giọng nói, trên ứng dụng nghe nhạc Zing MP3, và sắp tới sẽ xuất hiện trên hệ thống nhà thông minh.

MEDIAONLINE

Nguồn do Nhóm Truyền thông Zing cung cấp.