Dùng AI biến giọng nói thành văn bản

Nhật Phong 25/11/2022 06:36

GD&TĐ - Giải pháp Memobot chuyên chuyển đổi giọng nói thành văn bản sử dụng công nghệ AI để tạo ra văn bản chính xác.

Giải pháp chuyển đổi file ghi âm thành văn bản sử dụng trí tuệ nhân tạo (AI).

Biến băng ghi âm thành văn bản, chỉnh sửa lỗi chính tả, xuất file hoàn chỉnh là sản phẩm của công nghệ AI do Công ty Cổ phần Giải pháp trí thông minh nhân tạo Việt Nam (VAIS) sáng tạo có tên Memobot.

Thay thế hoàn toàn ghi chép truyền thống

Xả băng ghi âm truyền thống là việc nghe và đánh máy, ghi chép thủ công lại tập tin ghi âm. Công việc ngồi nghe băng ghi âm hàng giờ và viết lại thành văn bản phức tạp và có nhiều điểm hạn chế: Tốn nhiều thời gian, thời lượng ghi âm dài gây khó khăn trong việc nghe lại các đoạn âm thanh từng phần của biên bản. Do vậy, việc ra một biên bản xả băng hoàn chỉnh mất nhiều thời gian, kéo theo các tiến độ công việc khác bị chậm trễ.

Ông Phạm Tấn Anh Vũ, thành viên phát triển Memobot, cho biết, trong các doanh nghiệp, công việc xả băng ghi âm ở các cuộc họp sẽ được nhóm thư ký xử lý. Khi đó, với tốc độ nói 100 – 250 từ/phút và tốc độ gõ 50 – 70 từ/phút sẽ tốn nhiều thời gian để ghi chép, chuyển đổi thành văn bản.

Sau đó là công đoạn rà soát lại nội dung, thư ký sẽ nghe toàn bộ file ghi âm kết hợp với dò văn bản một lần nữa để bảo đảm tính chính xác của văn bản chuyển đổi. Do mất nhiều thời gian và công đoạn, biên bản sẽ ra chậm, đôi khi cuộc họp chỉ 1 giờ nhưng 2 ngày sau mới có biên bản hoàn chỉnh.

Giải pháp Memobot chuyên chuyển đổi giọng nói thành văn bản sử dụng công nghệ AI để tạo ra văn bản chính xác. Giải pháp ứng dụng trong nhiều lĩnh vực như: Họp hành (lãnh đạo, thư ký ghi âm lại các buổi họp), phỏng vấn (nhà báo, luật sư, nhà tuyển dụng ghi âm lại các sự kiện, cuộc phỏng vấn), học tập (học sinh, sinh viên ghi âm lời thầy cô giảng bài), sáng tạo nội dung (người làm truyền thông YouTube/Podcasts ghi âm làm phụ đề video), sáng tác (nhà văn, nhà nghiên cứu ghi âm ngay khi vừa nảy ra ý tưởng).

Memobot đã đoạt giải Nhất hạng mục nhận dạng giọng nói với độ chính xác 95,2% tại cuộc thi Xử lý ngôn ngữ và giọng nói tiếng Việt 2019. Tại cuộc thi Startup Wheel 2022, ứng dụng Memobot là sản phẩm duy nhất nhận 2 giải thưởng quan trọng là giải Nhì và giải thưởng Dự án sáng tạo nhất.

Ngoài chức năng chuyển đổi giọng nói thành văn bản trong thời gian thực, Memobot còn cung cấp nhiều tính năng khác. Trực tiếp tham gia và ghi âm cuộc họp Meet, Zoom, Teams; Phân chia dữ liệu theo năm tháng và chủ đề; Tự động nhận biết và ngắt đoạn từng lời nói của nhiều người khác nhau; Hỗ trợ chuyển đổi các tệp âm thanh có định dạng khác nhau; Đồng bộ dữ liệu giữa điện thoại và website (memobot.io), có mặt ở cả hai phiên bản Android và iOS.

Tự động ngắt phân đoạn theo thời gian thực

Điểm nổi bật của Memobot là hỗ trợ tự động tạo phụ đề và ngắt đoạn từng lời của nhiều người khác nhau trong thời gian thực, giúp tiết kiệm tối đa thời gian xử lý băng ghi âm, trong khi xả băng ghi âm truyền thống phải nghe và viết lại thủ công, tự ngắt phân đoạn thời gian và phân biệt từng người nói. Bên cạnh đó,

Memobot cũng hỗ trợ đăng tải và xuất văn bản chuyển đổi ra các loại tệp có định dạng khác nhau, xử lý toàn bộ các công đoạn trên trong thời gian thực, chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, từ nào sai thì chỉ cần gõ lại từ đó chứ không cần gõ lại toàn bộ nội dung.

Mọi thông tin file ghi âm và văn bản đều được lưu trữ trên phần mềm. Người dùng dễ dàng nắm bắt và chia sẻ cho người khác, do đó, các cá nhân và doanh nghiệp khác cũng có thể tiếp nhận thông tin từ dữ liệu đã được lưu trữ lại. Từ đó, doanh nghiệp, cá nhân giải quyết được vấn đề xả băng ghi âm, dễ dàng lưu trữ, phân loại các loại tập tin, dữ liệu.

Ông Phạm Tấn Anh Vũ cho biết, với ứng dụng này, người dùng có thể chỉnh sửa nội dung văn bản trực tiếp kèm theo phân đoạn thời gian được thể hiện sẵn, chỉ cần gõ lại từ mà Memobot nhận diện sai, không cần gõ lại toàn bộ nội dung. Ngoài ra người dùng có thể sửa trực tiếp vào văn bản nếu thấy phần dịch của Memobot chưa được chính xác hay muốn bổ sung nội dung mới khi phần thu âm trước đó chưa đề cập đến nội dung đó.

Để đánh dấu phần ghi âm, người dùng tô đen phần chữ trong văn bản, Memobot sẽ đồng bộ phần tô đen giống với phần ghi âm, khi đó chỉ cần nhấp vào phần chữ tô đen thì phần thu âm giọng nói sẽ tự động phát đến đoạn tương ứng với dòng chữ đó.

Sau khi kết thúc quá trình chuyển đổi file ghi âm, Memobot hỗ trợ tải bản ghi qua nhiều định dạng khác nhau từ tệp word (doc), tệp âm thanh (mp3), tệp văn bản (txt), tệp phụ đề (srt)… và chia sẻ trực tiếp bản ghi thông qua những ứng dụng khác nhau như Instagram, Facebook, Zalo, Gmail, Drive, Twitter….

Các doanh nghiệp, tổ chức, đơn vị, cá nhân có nhu cầu có thể liên hệ trực tiếp Công ty Cổ phần Giải pháp trí thông minh nhân tạo Việt Nam (VAIS) để dùng thử sản phẩm, hoặc liên hệ Trung tâm Thông tin và Thống kê Khoa học và Công nghệ (CESTI, thuộc Sở Khoa học và Công nghệ TPHCM) để được hỗ trợ tư vấn triển khai chuyển giao công nghệ.