Nhiều nghiên cứu cho thấy, phần lớn các ngôn ngữ đang tồn tại trên thế giới không được sử dụng; hàng chục ngôn ngữ chết không thể nhận ra. Các nhà ngôn ngữ học không hiểu đầy đủ về ngữ pháp, từ vựng và cú pháp của những ngôn ngữ ấy.
Việc nghiên cứu các ngôn ngữ bị lãng quên là rất khó, bởi phần lớn các ngôn ngữ ấy không thể so sánh được với ngôn ngữ tương tự khác. Một số ngôn ngữ còn thiếu cả quy tắc ngữ pháp hay dấu câu.
Phòng thí nghiệm Tin học và Trí tuệ nhân tạo thuộc Viện Công nghệ Massachusetts MIT (Mỹ) đã thực hiện bước đột phá trong giải mã các ngôn ngữ bị lãng quên.
Các nhà khoa học đã phát triển hệ thống mới, có khả năng tự động giải mã ngôn ngữ bị lãng quên mà không cần có kiến thức về sự liên quan với các ngôn ngữ khác. Hệ thống có thể xác định mối liên quan giữa các ngôn ngữ.
“Hệ thống hoạt động dựa trên 7 nguyên tắc liên quan đến hiểu biết về lịch sử ngôn ngữ. Theo những nguyên tắc này, ngôn ngữ nói chung chỉ phát triển theo cách có thể dự đoán trước” – bà Regina Barzilay, Giám đốc dự án phát triển hệ thống giải mã ngôn ngữ chết của MIT, cho biết như vậy.
Trong lịch sử tiến hóa ngôn ngữ, rất hiếm khi xảy ra trường hợp thêm vào hoặc loại bỏ toàn bộ âm thanh, mà thường xảy ra các trường hợp thay thế âm thanh. Chẳng hạn như một từ với chữ cái “p” trong ngôn ngữ mẹ (ngôn ngữ gốc) có thể được thay thế bằng chữ cái “b” trong ngôn ngữ con, tuy nhiên không có khả năng chuyển thành “k”.
Tận dụng những giới hạn về ngôn ngữ này, các nhà khoa học của MIT đã phát triển một thuật toán giải mã, có khả năng đối phó với không gian khổng lồ của các phép biến đổi ngôn ngữ.
Thuật toán này học cách nhúng các âm thanh ngôn ngữ vào một không gian đa chiều - nơi sự khác biệt trong cách phát âm được phản ánh thông qua các từ, cụm từ được vector hóa tương ứng. Hệ thống có mục đích phân đoạn các từ trong một ngôn ngữ cổ và ánh xạ chúng thành các từ tương đương trong ngôn ngữ liên quan.