Những thay đổi cực nhỏ trong tiếng ho
Khi dịch bệnh bắt đầu lan ra ở Việt Nam, giữa năm 2021, một nhóm các nhà nghiên cứu, kỹ sư học máy và chuyên gia dịch tễ do anh Lê Công Thành (InfoRe) và TS Phạm Minh Tuấn (TFI Group) khởi động đã bắt tay vào một dự án cộng đồng mang tên AICOVIDVN. Dự án nhằm xây dựng các mô hình AI có khả năng phân biệt tiếng ho của người Việt mắc Covid-19 với những người khỏe mạnh khác.
Họ đào tạo các kiến trúc mạng thần kinh khác nhau dựa trên việc phân tích phổ tần (spectrum) của hàng chục nghìn mẫu tiếng ho chủ động. Nhờ hiểu biết về các rối loạn hô hấp đặc trưng do Covid-19 và những chỉ dấu sinh học có khả năng ảnh hưởng đến tiếng ho mà những nghiên cứu AI trước đó đã chỉ ra, nhóm dự án kỳ vọng rằng những thuật toán có thể tự phân loại và học được những đặc điểm “khuôn mẫu” về tiếng ho của người mắc Covid-19.
TS.BS Phạm Quang Thái (Viện Vệ sinh Dịch tễ Trung ương), cố vấn y tế của dự án, so sánh điều này với xét nghiệm PCR: Nếu các đoạn gene của mẫu xét nghiệm trùng với các đoạn gene của SARS-CoV-2, chúng ta kết luận người đó mắc Covid-19 chứ không phải cúm hay virus khác.
Tương tự, nếu AI phát hiện ra tiếng ho của một người có những đặc điểm khớp với các khuôn mẫu đặc trưng về tiếng ho của bệnh nhân F0 thì có thể chẩn đoán người đó đang dương tính với Covid-19.
Theo TS Phạm Minh Tuấn, việc phân tích tiếng ho để phát hiện các bất thường của hệ hô hấp đã được các nhà khoa học trên thế giới nghiên cứu từ ít nhất ba năm trước đại dịch. Các hệ thống dựa trên AI đã chứng minh được hiệu quả trong việc phát hiện bệnh lao (TB) và bệnh Alzheimer (căn bệnh có thể làm suy giảm trí nhớ và suy thoái các cơ thần kinh của dây thanh).
Để có thể tạo ra những mô hình tốt nhất cho Việt Nam, nhóm dự án quyết định huy động sức lực của cộng đồng. Ban đầu, khi chưa có bất kỳ mẫu tiếng ho người Việt nào, những thành viên cốt cán đã phải gõ cửa từng dự án nước ngoài để xin dữ liệu đào tạo nên mô hình.
Cùng với bộ dữ liệu âm thanh từ dự án Sound Dr. của FPT.AI, nhóm đã lấy được tầm 500 mẫu tiếng ho F0 và mở ra Thử thách cộng đồng lần thứ hai để xây dựng những mô hình mới trên tập dữ liệu người Việt. Các mô hình lần này có độ chính xác AUC đạt từ 91% đến 93% trên tập dữ liệu kiểm thử riêng biệt.
Tiếng ho khác nhau ở chủng virus khác nhau
Dữ liệu mà dự án thu thập được vào giữa năm ngoái chủ yếu thuộc về biến chủng Delta. Nhưng do đặc tính sinh học, các biến chủng Covid-19 có thể gây nên những tiếng ho khác nhau. “Chủng Delta thường tấn công ở vùng sâu của phổi tạo ra các hốc, khiến tiếng ho có âm dội đặc trưng.
Chủng Omicron phổ biến hiện nay lại gây ảnh hưởng nhiều đến hệ hô hấp trên, làm dây thanh nề lên, cổ họng khô rát, cùng với đó là phù nề xoang mũi, khiến tiếng ho phát ra giống kiểu ho khan kèm nghẹn”, TS.BS Phạm Quang Thái giải thích.
Chính bởi độ lệch của phân phối dữ liệu như vậy nên độ chính xác của những mô hình thu được trong giai đoạn hai đã giảm chỉ còn 64% khi thử trên dữ liệu thực tế. Bản thân các kỹ thuật viên cũng không khỏi hoang mang khi một số mô hình “giây trước đoán là dương tính, giây sau đã cho kết quả âm tính”.
Để “tiếp tế” dữ liệu cho AI học và thử nghiệm các mô hình này đối với người dùng, dự án AICOVIDVN đã bắt tay với các công ty khởi nghiệp về công nghệ y tế như Med247, iSofHcare, BookingCare và tổng đài Robotcall ở TPHCM để tích hợp AI chẩn đoán tiếng ho vào các ứng dụng của họ. Người dùng có thể gửi tiếng ho, phần mềm sẽ xem xét nguy cơ dương tính và đề xuất có nên tiếp tục xét nghiệm y tế (PCR) hay không.
“Nhờ đó, chúng tôi có thêm một kênh thu thập dữ liệu tiếng ho của bệnh nhân tốt hơn và đều đặn hơn. Nếu một người thường xuyên đóng góp tiếng ho, cả lúc bình thường và khi ốm đau, thì thuật toán sẽ rất dễ dàng tìm ra những thay đổi trong tiếng ho và có thể chẩn đoán cực kì chính xác khả năng nhiễm Covid”, TS Vũ Xuân Sơn nói. Bên cạnh đó, dự án vẫn luôn duy trì một website tại địa chỉ https://tiengho. aicovidvn.org/ để bất kì ai cũng có thể tải các file ghi âm tiếng ho của mình lên.
TS Vũ Xuân Sơn nói rằng, việc phát triển AI nhận biết tiếng ho cho bệnh Covid thực chất không chỉ dừng lại ở mỗi căn bệnh, mà còn có thể mở rộng ra cho nhiều bệnh liên quan đến đường hô hấp khác. Trong lúc phát hiện tiếng ho Covid-19, dự án đã thu thập được một phần nhỏ dữ liệu có dán nhãn bệnh nền về tình trạng hút thuốc lá, viêm phổi, hen suyễn, COPD, tim mạch, tiểu đường…, cung cấp hiểu biết ban đầu cho việc ghi nhận đặc điểm của các bệnh ngoài Covid.