Sinh viên Việt vô địch với hệ thống đọc chữ Nhật cổ

GD&TĐ - Lý Tuấn Nam và Nguyễn Công Kha (du học sinh tại ĐH Nông nghiệp và Công nghệ Tokyo, ở Koganei) xuất sắc vượt qua 23 đội thi trên khắp xứ sở hoa anh đào, giành ngôi quán quân giải thưởng về trí tuệ nhân tạo các trường ĐH, CĐ toàn Nhật Bản.

Sinh viên Việt vô địch với hệ thống đọc chữ Nhật cổ

Cuộc thi bắt đầu từ tháng 2/ 2017 do Viện Điện tử, Thông tin và Truyền thông Nhật Bản (IEICE) hỗ trợ với đề bài các đội phải tạo ra một hệ thống trí tuệ nhân tạo tốt nhất để đọc bộ chữ Hiragana cổ, một trong hai bộ ký tự của tiếng Nhật.

Giáo sư Masaki Nakagawa (trái, ngoài cùng) là người hướng dẫn của Lý Tuấn Nam và Nguyễn Công Kha tại ĐH Nông nghiệp và Công nghệ Tokyo đánh giá cho biết nghiên cứu của hai sinh viên Việt Nam chắc chắn sẽ rất hữu ích trong việc nghiên cứu lịch sử Nhật Bản.
Giáo sư Masaki Nakagawa (trái, ngoài cùng) là người hướng dẫn của Lý Tuấn Nam và Nguyễn Công Kha tại ĐH Nông nghiệp và Công nghệ Tokyo đánh giá cho biết nghiên cứu của hai sinh viên Việt Nam chắc chắn sẽ "rất hữu ích trong việc nghiên cứu lịch sử Nhật Bản".

Sản phẩm của hai chàng trai Việt là một mạng lưới thần kinh ba lớp mô phỏng chức năng não của con người và đã học để nhận diện được tổng cộng hơn 300.000 ký tự cổ hiragana qua những hình ảnh từ 14 bản thảo chữ cổ viết tay, trong đó có tác phẩm "Một cuộc đời đầy đam mê" nổi tiếng của tác giả Ihara Saikaku viết từ thời Edo. Như vậy, trí tuệ nhân tạo này đọc được tới 96% số ký tự đơn, và 88% số bộ ghép gồm 3 ký tự.

Trao đổi với PV, anh Lý Tuấn Nam cho hay: "Sản phẩm của đội được ra đời sau 4 tháng miệt mài tìm tòi, thử nghiệm phát triển. Do đó, cả hai rất vui mừng vì sau một thời gian dài đầu tư, sản phẩm đã chiến thắng cuộc thi trí tuệ nhân tạo các trường ĐH, CĐ toàn nước Nhật".

Cuộc thi quy tụ 24 đội thi từ các trường ĐH, CĐ trên khắp xứ sở hoa anh đào.
Cuộc thi quy tụ 24 đội thi từ các trường ĐH, CĐ trên khắp xứ sở hoa anh đào.

Độ thử thánh ở cuộc thi là xây dựng hệ thống nhận dạng chữ viết tay trong 15 cuốn sách cổ của Nhật. Nhóm đã chạy thử nghiệm rất nhiều lần để nâng cao độ chính xác của sản phẩm trí tuệ nhân tạo dưới sự hướng dẫn của GS. Masaki Nakagawa (Đại học Nông nghiệp và Công nghệ Tokyo).

"Vì là dữ liệu ảnh được chụp (scan) từ các cuốn sách cổ nên ảnh thường có rất nhiều noisy (nhiễu) ví dụ như: chữ mất nét, các nét dính vào nhau, mực thấm từ mặt trước qua mặt sau... nên bước tiền xử lý ảnh phải làm rất cẩn thận

Sản phẩm trí tuệ nhân tạo của 2 chàng trai Việt đọc được tới 96% số ký tự đơn, và 88% số bộ ghép gồm 3 ký tự của bộ chữ Hiragana cổ.
Sản phẩm trí tuệ nhân tạo của 2 chàng trai Việt đọc được tới 96% số ký tự đơn, và 88% số bộ ghép gồm 3 ký tự của bộ chữ Hiragana cổ.

Ngoài ra chữ viết trong 15 bộ sách này sử dụng bộ ký tự cổ của Nhật ( hầu hết người Nhật hiện nay đều không đọc được) và trong các ký tự này có những ký tự có nhiều cách viết, hoặc 2 ký tự khác nhau có cùng cách viết nên việc nhận dạng cũng khó khăn hơn", Tuấn Nam chia sẻ.

Sinh viên Việt vô địch với hệ thống đọc chữ Nhật cổ ảnh 4
 Anh Công Kha biết thêm, hệ thống của nhóm dùng mạng neural để học những dữ liệu ảnh có sẵn, nên việc cho mạng neural học một lượng lớn dữ liệu (gần 300.000 ảnh) cũng là một thách thức không hề nhỏ.
Công Kha và Tuấn Nam xuất sắc giành giải Nhất - giải Thuật toán tốt nhất cuộc thi.
Công Kha và Tuấn Nam xuất sắc giành giải Nhất - giải Thuật toán tốt nhất cuộc thi.
Giấy chứng nhận của Viện Điện tử, Thông tin và Truyền thông Nhật Bản dành cho Tuấn Nam và Công Kha.
Giấy chứng nhận của Viện Điện tử, Thông tin và Truyền thông Nhật Bản dành cho Tuấn Nam và Công Kha.

Lý Tuấn Nam và Nguyễn Công Kha tốt nghiệp ngành Công nghệ thông tin tại ĐH Bách Khoa Hà Nội trước khi du học Nhật Bản.

Nguyễn Công Kha cho biết anh cũng tham gia vào một dự án sử dụng trí tuệ nhân tạo để giải mã các bài viết trên các thẻ bài bằng gỗ tìm thấy tại di tích Thành cổ Heijo ở tỉnh Nara của Nhật.

Trong thời gian tới, cá nhân Nguyễn Công Kha mong muốn xây dựng một hệ thống trí tuệ nhân tạo để đọc chữ Nôm, hệ thống chữ viết tượng hình do người Việt phát triển từ thế kỷ thứ 10.

Lý do là hiện không còn nhiều người có thể đọc được các bản thảo chữ Nôm nên nhiều văn bản cổ chưa được diễn dịch một cách chính xác, đầy đủ.

Theo dantri.com

Tin tiêu điểm

Đừng bỏ lỡ