Những nghiên cứu mới hé lộ khả năng một ngày nào đó con người có thể trò chuyện trực tiếp với động vật.
Rừng mưa Congo và bonobo
Trong rừng mưa Cộng hòa Dân chủ Congo, bà Mélissa Berthet - nhà nghiên cứu linh trưởng và ngôn ngữ học tại Đại học Rennes (Pháp) đã quan sát bonobo (tinh tinh lùn) thực hiện những tổ hợp âm thanh khiến các nhà khoa học phải chú ý.
Trong sáu tháng quan sát, bà ghi nhận bonobo dựng tổ cùng nhau và phát ra các tín hiệu kết hợp, trong đó một ví dụ là tiếng “yelp”, có nghĩa gần đúng là “hãy làm đi”, được thêm vào tiếng “grunt” mang hàm ý “nhìn tôi”, tạo thành thông điệp tương đương với: “Hãy cùng nhìn việc tôi đang làm và cùng nhau thực hiện”. Trong một trường hợp khác, một tiếng “peep”, diễn tả mong muốn làm điều gì đó, được theo sau bởi tiếng huýt sáo mang hàm ý “hãy ở lại cùng nhau”.
Bà Berthet cho rằng, các bonobo kết hợp hai âm thanh này trong những bối cảnh xã hội nhạy cảm nhằm duy trì hòa khí giữa các cá thể. Nghiên cứu gần đây của bà và đồng nghiệp ghi nhận khoảng 700 tiếng kêu từ 30 cá thể trưởng thành, phát hiện bonobo kết hợp một số hữu hạn các âm theo bốn cách khác nhau.
Một số tổ hợp được coi là “tầm thường”, tức ý nghĩa chỉ đơn giản bằng tổng của từng phần ghép lại, nhưng cũng có những tổ hợp “phi tầm thường”, khi một âm không chỉ ghép thêm vào mà còn thay đổi hoặc định hướng ý nghĩa của âm kia, tạo ra thông điệp hoàn toàn mới.

Tương đồng ở tinh tinh và chim
Những phát hiện ở bonobo không phải là ngoại lệ trong giới linh trưởng. Nhà sinh học tiến hóa Cédric Girard-Buttoz tại Trung tâm Nghiên cứu Thần kinh Lyon (Pháp), và đồng nghiệp báo cáo hồi tháng 5 rằng tinh tinh cũng có thể kết hợp một số hữu hạn các âm theo nhiều cách và trong một số trường hợp ý nghĩa của cụm âm không thể suy ra từ từng âm đơn lẻ.
Ví dụ, khi tiếng “hoot”, thường dùng khi nghỉ trên mặt đất, được theo sau bởi tiếng “pant”, biểu thị hành vi chơi đùa và thân thiện, cụm âm này lại kích hoạt hành vi leo cây, làm tổ và nghỉ cùng nhau, mặc dù từng âm đơn lẻ không gợi ý những hành vi đó.
Nghiên cứu năm 2016 về chim bạc má Nhật Bản cũng làm thay đổi cách hiểu về tính tổ hợp: Chim đáp ứng khác nhau với tiếng “cảnh báo” và tiếng “tập hợp”, nhưng khi hai tiếng này phát theo thứ tự nhất định, chim vừa tìm kiếm mối đe dọa vừa tập hợp lại; khi thứ tự đảo ngược, phản ứng khác hẳn.
Nghiên cứu năm 2023 tiếp tục mở rộng quan sát với tinh tinh trong môi trường tự nhiên, khi các nhà khoa học trình diện rắn giả, tinh tinh phát ra chuỗi âm “cảnh báo” và “tập hợp” để kích hoạt phản ứng tập trung của đồng loại nhằm ứng phó mối đe dọa. Những phát hiện này làm mờ đi ranh giới truyền thống giữa các đặc tính từng được coi là độc quyền của ngôn ngữ loài người và các hệ giao tiếp ở động vật.

Cá nhà táng và các “coda”
Trong môi trường biển sâu, cá nhà táng cũng cho thấy những thuộc tính giao tiếp đáng chú ý. Tổ chức phi lợi nhuận Project CETI tại New York theo dõi và ghi âm cá nhà táng ngoài khơi đảo Dominica ở vùng biển Caribbe, xây dựng cơ sở dữ liệu lớn về chuyển động và âm thanh nhằm tìm mối liên hệ giữa tiếng gọi và hành vi.
Theo ông Gašper Beguš - nhà ngôn ngữ học làm việc tại CETI, cá nhà táng phát ra các tiếng “click” bằng cách đẩy không khí qua cấu trúc giống môi trong ống mũi, các click này nhóm lại thành đơn vị được gọi là “coda”.
Nhóm nghiên cứu báo cáo rằng các coda khác nhau về nhịp điệu và tốc độ, họ mô tả sơ bộ hai dạng coda tương ứng như âm “a” và âm “I”. Những “nguyên âm” này có thể biến đổi tần số theo bốn mô thức: Tăng, giảm, giảm rồi tăng, hoặc tăng rồi giảm, gợi ý những tương đồng nhất định với nguyên âm và nguyên âm đôi trong ngôn ngữ người. Các mô tả chi tiết về nhịp điệu và biến thể tần số giúp xây dựng giả thuyết về một dạng tổ chức ngữ âm học ở loài này, dù cần thêm dữ liệu để xác nhận.
AI như công cụ giải mã
Khi khối lượng dữ liệu âm thanh tăng lên, AI trở thành công cụ then chốt để phát hiện các mẫu mà con người khó hoặc không thể nhận ra. Ông David Robinson - nhà nghiên cứu AI tại Earth Species Project, một tổ chức phi lợi nhuận ở Berkeley, California (Mỹ) cho biết, AI đang làm được điều mà các phương pháp truyền thống khó đạt tới: Tìm kiếm những mẫu ẩn, phân loại đơn vị âm và liên hệ chúng với hành vi ghi nhận đồng thời.
Các nhóm nghiên cứu ứng dụng kỹ thuật trích xuất đặc trưng âm thanh cùng thuật toán học máy để phân loại và nhóm các đơn vị, xác định biến thể tần số, nhịp điệu và cấu trúc chuỗi. Sau khi các đơn vị cơ bản được xác định, các nhà khoa học liên kết chúng với dữ liệu hành vi để suy luận về chức năng.
Một bước tiến quan trọng là sử dụng mô hình tạo sinh AI để tái tạo hoặc tạo ra chuỗi âm giả lập, cho phép các nhà nghiên cứu thử nghiệm phản ứng của động vật với các biến thể cụ thể trong điều kiện kiểm soát.
Những thí nghiệm này giúp kiểm chứng xem một mẫu âm nhất định có thể kích hoạt phản ứng hành vi nào, từ đó làm sáng tỏ vai trò xã hội hoặc chức năng thông tin của tín hiệu. Ông Beguš và đồng nghiệp từng huấn luyện mô hình tạo sinh AI để sản xuất các chuỗi mã giả của cá nhà táng, nhằm thu thập hiểu biết sâu hơn về tính phân biệt của các coda và khả năng chúng mang nghĩa.

Vấn đề định nghĩa: Ngôn ngữ là gì?
Câu hỏi liệu một hệ giao tiếp có thể gọi là “ngôn ngữ” hay không phụ thuộc cách định nghĩa. Một quan điểm cho rằng, ngôn ngữ gắn liền với tư duy phức tạp, chỉ xuất hiện khi loài có khả năng suy nghĩ trừu tượng và ngôn ngữ là phương tiện diễn đạt tư duy. Quan điểm khác cho rằng, ngôn ngữ chỉ là một dạng giao tiếp trong số nhiều hình thức, như cử chỉ hay biểu cảm gương mặt, không nhất thiết đòi hỏi tư duy trừu tượng.
Các thí nghiệm huấn luyện, trong đó một số động vật được dạy ký hiệu hay giao tiếp với con người như bonobo Kanzi, gợi ý rằng một số loài có thể học hệ ký hiệu, song điều đó khác với việc loài đó tự phát triển hệ giao tiếp tương tự như ngôn ngữ trong môi trường hoang dã. Do vậy, việc đánh giá đòi hỏi phải phân biệt năng lực nhận thức tiềm tàng, khả năng học hỏi dưới điều kiện thí nghiệm và việc sử dụng tự nhiên của các hệ tín hiệu.
Tiêu chí đánh giá và những đặc tính còn thiếu
Nhà ngôn ngữ học người Mỹ Charles Hockett từng liệt kê 16 đặc điểm để mô tả ngôn ngữ. Ba yếu tố chưa được chứng minh rõ ràng ở các loài khác gồm tính phi hiện tại - khả năng nói về những thứ không có mặt hay ở quá khứ và tương lai; năng suất - khả năng sản sinh câu mới chưa từng xuất hiện; và tính nhị phân - thông điệp có nghĩa được tạo ra từ các đơn vị nhỏ vô nghĩa kết hợp lại.
Khái niệm đệ quy, khi các cụm được lồng ghép tạo tầng nghĩa sâu hơn, cũng là tính năng tranh luận. Một số thí nghiệm, ví dụ công trình của bà Diana Liao tại Đại học Tübingen (Đức) cho thấy, quạ đen có thể học các nhiệm vụ xử lý lồng ghép trên màn hình cảm ứng, thực hiện tốt hơn khỉ macaque và tương đương trẻ em loài người trong thử nghiệm đó.
Tuy nhiên bằng chứng về việc quạ sử dụng đệ quy trong giao tiếp tự nhiên vẫn thiếu. Các nhà nghiên cứu nhấn mạnh rằng, phát hiện một vài đặc điểm tương đồng không đồng nghĩa hệ giao tiếp của động vật đã đạt toàn bộ tiêu chí ngôn ngữ của con người.
Sự khác biệt nằm ở quy mô nghĩa và phạm vi biểu đạt: Con người có khả năng tạo ra vô hạn câu mới dựa trên hệ ngữ pháp và vốn từ phong phú, điều chưa thấy rõ ở các loài khác. Mức độ tổ hợp và chỉnh sửa âm trong một số loài là nền tảng quan trọng để hiểu tiến hóa giao tiếp, nhưng vẫn cần dữ liệu dài hạn, quan sát tỉ mỉ và xác minh chéo để tránh diễn giải quá mức.
Phương pháp và triển vọng nghiên cứu
Hiện nay, phân tích giao tiếp động vật kết hợp trích xuất đặc trưng âm thanh, phân đoạn đơn vị, phân loại bằng thuật toán học máy và liên kết với dữ liệu hành vi. Khi kho dữ liệu mở rộng, AI giúp phát hiện mẫu ở quy mô lớn và tạo ra các chuỗi giả lập để thử nghiệm giả thuyết chức năng.
Những tiến bộ này hứa hẹn làm sáng tỏ các mức cấu trúc trong giao tiếp, từ đơn vị cơ bản tới tổ hợp phức tạp. Mặc dù, AI có thể giúp “dịch” mô thức âm thanh dưới dạng mô tả và mô phỏng, việc xác định ý nghĩa sâu xa vẫn đòi hỏi hiểu bối cảnh xã hội, lịch sử cá thể và trải nghiệm sống của từng loài.
Các nghiên cứu về bonobo, tinh tinh, chim và cá nhà táng cho thấy giao tiếp bằng âm thanh ở động vật phức tạp hơn người ta tưởng. AI đóng vai trò then chốt trong phân tích và mô phỏng các hệ giao tiếp này, giúp phát hiện tính tổ hợp, phân biệt các đơn vị âm và kiểm chứng giả thuyết chức năng.
Tuy nhiên, nhiều yếu tố then chốt của ngôn ngữ con người vẫn chưa tìm thấy ở các loài khác, và các nhà khoa học nhấn mạnh mọi kết luận phải dựa trên phân tích kỹ lưỡng, dữ liệu dài hạn và xác minh chéo.
Những nghiên cứu tiếp theo kết hợp quan sát tự nhiên, thử nghiệm có kiểm soát và phân tích AI sẽ quyết định mức độ con người có thể hiểu giao tiếp với loài vật, mở ra viễn cảnh con người từng bước “nói chuyện” với các loài khác trong tương lai.