Thứ Bảy ngày 07 tháng 12 năm 2024

Mô hình ngôn ngữ lớn LLM tiếng Việt có nhiều lợi thế khi phục vụ người Việt

Sáng 16-12-2023, tại sự kiện thường niên về trí tuệ nhân tạo Zalo AI Summit 2023, một cuộc thi đấu thú vị đã diễn ra giữa các mô hình ngôn ngữ lớn (Large Language Model – LLM) trong và ngoài nước với con người. Tham gia thử thách này là các mô hình LLM GPT-4, GPT-3.5 (OpenAI), QWen (Alibaba), LLaMA (Meta), Kiki (Zalo) và 1 LLM Việt Nam ra mắt gần đây. Bên cạnh trí tuệ nhân tạo (AI), thử thách này còn có sự tham gia thi đấu của con người là quản trị viên Tinhte.vn.

Zalo đã hướng tới việc xây dựng ứng dụng AI tạo sinh (generative AI) văn bản tương thích và phục vụ tốt hơn cho người Việt Nam.

Mô hình ngôn ngữ lớn tiếng Việt này đã được Zalo bắt đầu xây dựng từ đầu năm 2023 và đã được ứng dụng để tạo ra hàng triệu bài thơ nhân dịp Ngày Quốc tế Phụ nữ 8-3 và Ngày Phụ nữ Việt Nam 20-10. Tại Zalo AI Summit 2023, Zalo lần đầu trình diễn mô hình ngôn ngữ lớn là phiên bản đang trong giai đoạn phát triển, có khả năng hiểu và trả lời các câu hỏi về nhiều lĩnh vực khác nhau bằng tiếng Việt.

Để thử thách khả năng của mô hình LLM mới, Zalo đã tịch hợp mô hình này vào trợ lý ảo Kiki để thi đấu kiến thức qua game Kahoot. Bộ đề thi gồm 20 câu hỏi ở nhiều lĩnh vực, được anh Trần Mạnh Hiệp, Quản trị viên Diễn đàn Tinh Tế, đặt ra và không chia sẻ trước với Zalo.

Game Kahoot thử tài trí tuệ các mô hình AI và người,do Tinhte.vn thực hiện.

Trong quá trình thử thách, mô hình LLM của Zalo thể hiện khá tốt ở các câu hỏi thường thức, kiến thức chung. Kiki cùng GPT-4 là hai công cụ trả lời đúng câu hỏi liên quan đến ca khúc “Wish You Were Here” của ban nhạc Pink Floyd. “Mình không nghĩ chatbot AI sẽ trả lời đúng câu này. Đây là một chủ đề ngẫu nhiên liên quan đến sở thích của mình, phải tìm hiểu mới biết được”, anh Mạnh Hiệp bình luận.

Một số câu hỏi khác liên quan đến chủ đề trong nước như nguồn gốc của rượu Bàu Đá, Kiki và GPT-4 cũng trả lời chính xác. Trong khi đó, các LLM khác lại gặp khó khăn. Đồng thời, cả 6 mô hình AI tham gia thử thách đều không vượt qua các câu hỏi về tốc độ tối đa trong đô thị hay con giáp của năm 2024.

Kết thúc thử thách, các mô hình ngôn ngữ lớn đều không thể vượt qua người chơi thật với bộ câu hỏi bằng tiếng Việt. Tuy nhiên, GPT-4 và Kiki là hai công cụ có sự thể hiện tốt. Mô hình LLM của Zalo AI tỏ ra không thua kém những LLM khác trên thế giới.    

Kiki xếp hạng 3 chung cuộc, chỉ sau một mô hình LLM là GPT-4 của OpenAI xếp thứ 2, và quản trị viên Tinhte.vn làn người chiến thắng.   

Kết quả màn so tài giữa Kiki, các mô hình ngôn ngữ lớn và con ngườ

Về việc các mô hình ngôn ngữ, kể cả GPT4 đều chưa thể vượt qua trí tuệ của người thật, anh Trần Mạnh Hiệp nhận định: “Các mô hình AI rất tuyệt vời, nhưng vẫn còn khoảng cách lớn để phát triển về cả ngôn ngữ và nội dung.” Anh cũng nói thêm: “Tôi cho rằng mô hình ngôn ngữ lớn của Zalo có ưu thế tốt nhờ công cụ được huấn luyện trên kho dữ liệu tiếng Việt.”

Theo TS Nguyễn Trường Sơn, Giám đốc Khoa học tại Zalo AI, dù có hàng chục nghìn mô hình ngôn ngữ lớn đang được phát triển, nhưng số sản phẩm hỗ trợ tốt cho tiếng Việt rất hiếm. Trong khi đó, việc phụ thuộc vào các giải pháp quốc tế cũng tiềm ẩn nhiều nguy cơ về bảo mật hay tốn kém chi phí do ngôn ngữ không tối ưu.

TS Nguyễn Trường Sơn, Giám đốc Khoa học, Zalo AI

Phiên bản Kiki tham gia Kahoot được phát triển trên mô hình ngôn ngữ lớn của Zalo AI. Mô hình dựa theo kiến trúc transformer, được huấn luyện bằng các kỹ thuật như Flash Attention với dữ liệu hướng dẫn chất lượng cao. Mô hình của Zalo AI đang hướng đến mục tiêu xử lý đa tác vụ, như: dịch văn bản, sáng tạo và viết nội dung, trích xuất thông tin trong văn bản và trả lời câu hỏi…

Hiện Zalo đang phát triển mô hình ngôn ngữ lớn của mình trên nhiều kích cỡ mô hình khác nhau, từ 1B đến 30B tham số. Phiên bản trình diễn tại Zalo AI Summit 2023 được huấn luyện trên mô hình 7B tham số.

TS Nguyễn Trường Sơn chia sẻ: “Đây là mô hình nền tảng được Zalo xây dựng. Sau đó, từng ứng dụng của LLM này sẽ được tinh chỉnh cho phù hợp với mục đích sử dụng trong tương lai.”

T.T.Z.

Nguồn do Nhóm Truyền thông Zing cung cấp.