Nhóm các nhà khoa học Trường Đại học Khoa học Tự nhiên (ĐHQG TPHCM) đã ứng dụng trí tuệ nhân tạo (AI) giải quyết bài toán dịch tự động văn bản chữ Nôm sang chữ Quốc ngữ.
Dịch tự động chữ viết tay đầu tiên của người Việt
PGS.TS Đinh Điền, Trường Đại học Khoa học Tự nhiên, ĐHQG TPHCM cho biết, chữ Nôm là thể loại chữ viết tay đầu tiên của người Việt Nam do các bậc tiền nhân xây dựng dựa trên chất liệu của chữ Hán.
Chữ Nôm được sử dụng trong gần 1.000 năm từ thế kỷ X đến thế kỷ thứ XIX. Trong suốt 10 thế kỷ đó, rất nhiều công trình về lịch sử, văn học, y học, nông nghiệp, địa lý… đã được biên soạn, viết bằng chữ Nôm và còn được lưu giữ cho đến ngày nay.
Tuy nhiên, phần lớn tài liệu chữ Nôm vẫn chưa được dịch (chuyển tự) sang chữ Quốc ngữ sử dụng con chữ Latin, và thực tế là hiện khá ít người có khả năng đọc được chữ Nôm để tìm hiểu, khai thác kho tàng văn hóa, tri thức, tư liệu lịch sử do người xưa để lại.
Vì thế, nhóm các nhà khoa học đã triển khai nhiệm vụ “Xây dựng hệ thống chuyển tự tự động văn bản chữ Nôm sang chữ Quốc ngữ” với mục tiêu then chốt là xây dựng hệ thống có khả năng dịch tự động chữ Nôm sang chữ Quốc ngữ.
Theo lời PGS.TS Đinh Điền, việc chuyển tự chữ Nôm sang chữ Quốc ngữ rất phức tạp do hai hệ chữ khác loại hình chữ viết. Chữ Nôm thuộc loại hình chữ ghi ý (ideographic), còn chữ Quốc ngữ thuộc loại hình chữ ghi âm vị (phonemic).
Cùng một chữ Nôm có thể được dịch sang nhiều chữ Quốc ngữ khác nhau tùy theo tri thức văn hóa, lịch sử, địa lý, tiếng Việt cổ, tiếng địa phương, từ chuyên ngành… Hay nói cách khác, việc chọn chữ Quốc ngữ nào cho bản dịch cần phải suy đoán, và việc suy đoán này phải sử dụng đến nhiều “tri thức” cả trong và ngoài ngôn ngữ (extra-linguistic).
“Khó khăn lớn nhất trong việc chuyển tự chữ Nôm sang chữ Quốc ngữ chính là việc chọn chữ Quốc ngữ đúng trong số các chữ Quốc ngữ khả dĩ của chữ Nôm. Việc chọn lựa này phụ thuộc vào ngữ cảnh, thể loại (văn xuôi/vần), lĩnh vực (văn học, y học, tôn giáo…) và cả vào niên đại, vùng miền”, PGS.TS Đinh Điền cho biết.
Do đó, vì nguyên tắc của học máy là nếu hệ thống/con người huấn luyện cho máy tính ngữ liệu thuộc thể loại, lĩnh vực nào thì máy sẽ dịch tốt hơn với những văn bản thuộc thể loại/lĩnh vực đó.
PGS.TS Đinh Điền thuyết minh và vận hành thị phạm tính năng chuyển tự tự động văn bản chữ Nôm sang văn bản chữ Quốc ngữ. |
Huấn luyện cho máy tính hiểu ngôn ngữ
Website chuyển tự (dịch) tự động từ chữ Nôm sang chữ Quốc ngữ góp phần bảo tồn và phát huy các giá trị văn hóa truyền thống của dân tộc, đặc biệt có thể được ứng dụng ngay để phát triển phần mềm dịch thuật trên thiết bị di động nhằm phục vụ du khách khi tham quan, tìm hiểu các địa điểm có sử dụng chữ Nôm.
Theo PGS.TS Đinh Điền, với công nghệ học máy, máy có thể “tự học” được cách chọn (suy đoán) chữ Quốc ngữ phù hợp với từng chữ Nôm thông qua ngữ cảnh trong rất nhiều các bản dịch Nôm - Quốc ngữ trước đó của con người.
Do đó, nếu hệ thống “dạy” cho máy tính bằng cách cung cấp (đưa vào kho ngữ liệu huấn luyện) cho máy càng nhiều bản dịch Nôm - Quốc ngữ chuẩn, thì máy sẽ càng “thông minh” hơn và cho kết quả dịch chính xác hơn.
“Khó khăn lớn nhất trong việc chuyển tự chữ Nôm sang chữ Quốc ngữ chính là việc chọn chữ Quốc ngữ đúng trong số các chữ Quốc ngữ khả dĩ của chữ Nôm đó. Việc chọn lựa này phụ thuộc vào ngữ cảnh, thể loại, lĩnh vực và cả vào niên đại.
Hệ thống hiện hữu chỉ mới chọn chữ Quốc ngữ theo ngữ cảnh có trong tập ngữ liệu huấn luyện mà tập huấn luyện này lại được huấn luyện chung (lẫn lộn thể loại, lĩnh vực, niên đại). Vì vậy, trong mô hình đề xuất, chúng tôi phân chia tập huấn luyện, cũng như mô hình ngôn ngữ theo thể loại và lĩnh vực” - PGS.TS Đinh Điền cho biết thêm.
Để huấn luyện máy học và xây dựng mô hình ngôn ngữ, trong công trình nghiên cứu vừa được nghiệm thu này, PGS.TS Đinh Điền và cộng sự đã xây dựng ngữ liệu cho lĩnh vực văn học, đời sống và tôn giáo.
“Mỗi lĩnh vực có những vốn từ khác nhau, giúp chúng ta giới hạn lại miền/lĩnh vực lựa chọn chữ Quốc ngữ (trong trường hợp chữ Nôm đa trị) để nâng cao khả năng chọn đúng được chữ Quốc ngữ tương ứng”, PGS.TS Đinh Điền phân tích.
Ngoài ra, nhóm nghiên cứu chủ động sử dụng thêm ngữ liệu chữ Quốc ngữ ở bên ngoài (rất lớn, hàng triệu câu) và đã được phân chia theo thể loại và lĩnh vực nói trên để huấn luyện cho mô hình ngôn ngữ N-gram của chữ Quốc ngữ ở đầu ra nhằm nâng cao khả năng chọn đúng chữ Quốc ngữ theo tính tự nhiên nhất của ngôn ngữ.
Vì nguyên tắc của học máy là nếu chúng ta huấn luyện cho máy tính hiểu được/biết được ngữ liệu thuộc thể loại, lĩnh vực nào thì máy sẽ dịch tốt hơn với những văn bản thuộc thể loại hay lĩnh vực đó.
Người sử dụng muốn dịch văn bản thể loại hay lĩnh vực nào, chỉ cần chọn (trên trình đơn) thể loại hay lĩnh vực muốn dịch để máy tính lựa chọn kiến thức đã học phù hợp với thể loại hay lĩnh vực mà máy đã được huấn luyện.
PGS.TS Đinh Điền và nhóm cộng sự đã xây dựng thành công mô hình ngôn ngữ và mô hình dịch trên những ngữ liệu thu thập được, đồng thời hoàn thiện thử nghiệm website hỗ trợ chuyển tự (dịch) tự động từ chữ Nôm sang chữ Quốc ngữ, và bộ công cụ “dịch máy” này cũng đã được nhóm triển khai nhiệm vụ trình diễn.
Tháng 4/2023, Trường Đại học Khoa học Tự nhiên và nhóm nghiên cứu đã đưa hệ thống chuyển tự chữ Nôm nói trên lên website chính thức của trường (https://tools.clc.hcmus.edu.vn/) nhằm phục vụ nhu cầu tra cứu của đông đảo người dân, các nhà khoa học và các tổ chức, doanh nghiệp.
Nhóm nghiên cứu đang tiếp tục phát triển thêm khối (module) nhận dạng văn bản ảnh (bằng cách chụp hình chữ Nôm thay vì phải gõ vào hay dán vào) hay còn gọi là OCR (Optical Character Recognization).
Khối nhận dạng này sẽ được tích hợp vào hệ thống chuyển tự hiện nay để qua đó du khách có thể dịch nội dung của các tài liệu, hình ảnh (liễn, câu đối, bia) được viết bằng chữ Nôm thường thấy ở các khu di tích, đền đài… chỉ bằng camera của điện thoại di động.