Nhóm nghiên cứu đến từ Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Cá nhân hóa giọng đọc
Ngày 22/12, trong Hội nghị tổng kết công tác năm 2023 và triển khai kế hoạch năm 2024, lần đầu tiên Viện Hàn lâm Khoa học và Công nghệ Việt Nam sử dụng AI để tự động đọc báo cáo toàn văn với giọng đọc mô phỏng giống như của Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Đây là kết quả nghiên cứu của PGS.TS Lương Chi Mai - Viện Công nghệ thông tin và cộng sự, có tên là phần mềm thích nghi chuyển đổi văn bản thành tiếng nói tiếng Việt, thuật ngữ tiếng Anh là Adaptation Text-to-Speech (hay gọi tắt là là Adapt-TTS).
Tổng hợp tiếng nói (Speech Synthesis) là quá trình tạo ra tiếng nói con người một cách nhân tạo. Tổng hợp tiếng nói từ văn bản là quá trình chuyển đổi tự động một văn bản có nội dung bất kỳ thành lời nói.
Hệ thống được sử dụng cho mục đích này gọi là hệ thống tổng hợp tiếng nói. Một hệ thống tổng hợp tiếng nói gồm hai thành phần cơ bản: Phần xử lý ngôn ngữ tự nhiên và phần xử lý tổng hợp tiếng nói.
Khối xử lý ngôn ngữ tự nhiên có nhiệm vụ chuyển chuỗi các ký tự văn bản đầu vào thành một dạng chuỗi các nhãn ngữ âm đã được thiết kế trước của hệ thống tổng hợp tiếng nói.
Tức là thực hiện chuyển đổi văn bản đầu vào thành chuỗi dạng biểu diễn ngữ âm. Từ thông tin ngôn điệu và ngữ âm là chuỗi các nhãn phụ thuộc ngữ cảnh mức âm vị của văn bản đầu vào, tiếng nói ở dạng sóng tín hiệu được tạo ra bằng một kỹ thuật tổng hợp.
Khối tổng hợp tiếng nói có chức năng tạo ra tiếng nói từ các thông tin về ngữ âm, ngữ điệu do khối xử lý ngôn ngữ tự nhiên cung cấp. Trong thực tế, có hai cách tiếp cận cơ bản liên quan đến tổng hợp tiếng nói: Tổng hợp tiếng nói sử dụng mô hình nguồn âm và tổng hợp dựa trên việc ghép nối các đơn vị âm
TTS là hướng nghiên cứu nổi lên gần đây về giọng đọc nhân tạo được cá nhân hóa. Nhóm của PGS.TS Lương Chi Mai đã phát triển những khảo sát, nghiên cứu để trả lời cho một số câu hỏi - trong đó có câu hỏi về số lượng mẫu (thời gian thu âm) và thời gian huấn luyện của giọng cá nhân hóa cần đạt trong ngưỡng bao nhiêu để có thể có ứng dụng thực tế, trong khi vẫn đảm bảo giọng mới mang các đặc trưng của giọng nói mẫu.
Chỉ cần 10 phút lấy mẫu giọng nói
PGS.TS Lương Chi Mai đã công bố gần 50 công trình nghiên cứu và viết 4 cuốn sách làm tài liệu tham khảo có giá trị cho sinh viên đại học và học viên cao học trong lĩnh vực CNTT như: “Nhập môn đồ hoạ máy tính”; “An Introduction to Computer Vision and Image Processing”;… Ngoài ra, PGS.TS Lương Chi Mai cũng là chủ nhiệm của nhiều đề tài cấp Nhà nước...
PGS.TS Lương Chi Mai cho biết, hệ thống tổng hợp tiếng nói Text-to-speech (TTS) thông thường phải xây dựng trên các bộ cơ sở dữ liệu lớn khó thu thập, đây là bài toán khó nói chung cho các ngôn ngữ cũng như cho tiếng Việt nói riêng. Do tiếng Việt có tính đặc thù của ngôn ngữ như thanh điệu, ngữ điệu và tài nguyên hạn chế.
Để tạo ra giọng mới với mẫu quá nhỏ không đủ từ vựng thì kỹ thuật đề xuất cho phép những gì chưa có của giọng mới sẽ được mượn từ những người khác. Thích nghi cho tiếng Việt với dữ liệu mẫu cá nhân nhỏ có thông qua huấn luyện hoặc không huấn luyện sử dụng các mô hình học sâu (Deep learning) với kiến trúc End-to-End để tạo ra giọng đặc trưng riêng. Đây cũng là kỹ thuật tiên tiến và là chủ đề có tính thời sự hiện nay trên thế giới.
Kết quả nghiên cứu cho phép tạo giọng đọc mới với việc lấy mẫu giọng nói khá ngắn dưới 10 phút thay vì phải lấy mẫu dữ liệu lên đến khoảng 10 giờ như trước đây. Kết quả đã được chuyển giao thương mại cho một số đài phát thanh, truyền hình.
Giọng nói mô phỏng Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam được trình diễn trước các lãnh đạo các Bộ, ngành, cơ quan Trung ương đã một lần nữa khẳng định sự tiên phong trong nghiên cứu, triển khai ứng dụng công nghệ mới của một cơ quan nghiên cứu khoa học công nghệ hàng đầu Việt Nam.