Các nhà khoa học Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam vừa phát triển thành công phần mềm dịch ngôn ngữ hiếm, có thể dịch tự động tiếng Việt ra các ngôn ngữ khu vực Đông Nam Á.
Thích ứng với ngôn ngữ khó dịch
Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như: Google Translate của Google, Bing Translator của Microsoft… với chất lượng dịch rất tốt cho các câu đơn.
Thế nhưng việc dịch một đoạn văn bản dài hơn, có tham chiếu thực thể, ngữ cảnh giữa các câu làm ảnh hưởng tới chất lượng dịch, khiến nhiều câu dịch trở nên hài hước và có phần ngô nghê.
Ngoài ra, các sản phẩm dịch thuật thương mại yêu cầu khách hàng trả tiền theo thời gian sử dụng hoặc số lượng câu dịch. Bên cạnh đó, các hệ thống này không có chất lượng dịch tốt đồng đều cho tất cả các cặp ngôn ngữ đặc biệt là các ngôn ngữ nghèo tài nguyên như tiếng dân tộc thiểu số của Việt Nam hoặc các ngôn ngữ hiếm như tiếng Lào, Khmer… chất lượng dịch của Google
Translate hay Bing Translator chưa thực sự cao. Một vấn đề nữa của các hệ thống nói trên là khả năng thích ứng miền chuyên biệt. Nghĩa là, chúng có thể dịch tốt cho miền ngôn ngữ chung, phổ thông phục vụ đại chúng nhưng chất lượng dịch rất kém trong các miền ngôn ngữ mang tính chuyên môn như y tế, luật pháp, an ninh…
Để khắc phục các tồn tại nói trên, nhóm nghiên cứu tại Viện Công nghệ thông tin đã phát triển một hệ thống dịch thuật lấy tiếng Việt làm trung tâm, có khả năng dịch hai chiều sang các ngôn ngữ nghèo tài nguyên với chất lượng tốt. Cụ thể, phần mềm này có chất lượng luôn tương đương hoặc cao hơn Google Translate đối với cùng văn bản. Ngoài ra, phần mềm không hạn chế độ dài của văn bản.
Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.
Chủ nhiệm đề tài là TS Nguyễn Việt Anh và cộng sự đã nghiên cứu làm chủ công nghệ dịch máy tiên tiến nhất hiện nay, đồng thời xây dựng thành công hệ thống dịch văn bản đa ngữ giữa tiếng Việt với các ngôn ngữ của khu vực bao gồm tiếng Lào, tiếng Khmer, tiếng Thái Lan, tiếng Malaysia và tiếng Indonesia.
Theo nhóm nghiên cứu, các ngôn ngữ như Lào, Thái và Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy. Không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa.
Mô hình của Viện Công nghệ thông tin đã “học” được cách “thích ứng” với tất cả những đặc điểm đặc biệt này của các ngôn ngữ nói trên, cho phép nhanh chóng bổ sung các ngôn ngữ khác khi cần với chất lượng dịch tương đương các sản phẩm tiên tiến của nước ngoài.
Điểm đặc biệt là phần mềm dịch đa ngữ này chạy riêng (on premise): Lưu trữ dữ liệu tại chỗ, không phải sử dụng API của hãng cung cấp dịch vụ, đảm bảo an ninh, an toàn và không lộ lọt thông tin cho bên thứ ba.
Tự động dịch thuật với nhiều định dạng
Theo nhóm nghiên cứu, trong giai đoạn 2022 - 2023, để tập trung vào một số hợp đồng với đối tác nước ngoài, hệ thống tập trung vào triển khai kỹ thuật mô hình ngôn ngữ lớn (Large Language Models - LLMs) vào việc ưu tiên các cặp ngôn ngữ: Việt - Khmer và Khmer - Việt; Việt - Lào và Lào - Việt; Việt - Thái và Thái - Việt; Việt - Indo và Indo - Việt; Việt - Malay và Malay - Việt. Với ngôn ngữ tiếng Anh (tài nguyên dữ liệu rất dồi dào và thế mạnh ưu tiên của Google), hệ thống đảm bảo chất lượng gần tương đương Google Translate.
Do hệ thống được nhóm nghiên cứu tự phát triển, dựa trên hạ tầng kỹ thuật hỗ trợ lưu trữ dữ liệu ngôn ngữ lớn và năng lực siêu tính toán trí tuệ nhân tạo/học máy (AI/ML) mạnh nhất Việt Nam trên dòng chip tiên tiến trên thế giới, Viện Công nghệ thông tin hoàn toàn làm chủ các công nghệ liên quan và dễ dàng mở rộng ứng dụng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái… và các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga… khi cần.
Đặc biệt, hệ thống có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.
Hệ thống sử dụng công nghệ gồm học máy (Machine learning), công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing) hiện đại nhất tính đến thời điểm này để đạt được độ chính xác dịch thuật ở mức cao.
Hệ thống có khả năng cập nhật dữ liệu, tái huấn luyện mô hình nhằm nâng cao chất lượng dịch thuật, thích ứng với lĩnh vực chuyên môn của đơn vị. Hệ thống cho phép tự động dịch thuật với nhiều định dạng khác nhau, bao gồm dạng text (.txt), dạng file văn bản được số hóa (.rtf, .doc, .docx, .pdf, .html…) và giữ nguyên khuôn dạng (format) chính của các văn bản sau dịch.