Công cụ chống đạo văn DoIT: Xây dựng cộng đồng, chia sẻ dữ liệu

Nhật Phong 16/03/2021 12:03

GD&TĐ - Hệ thống kiểm tra đạo văn có tên DoIT do nhóm nghiên cứu của Trường Đại học Công nghệ, ĐHQGHN xây dựng được kỳ vọng có thể giúp phát hiện sự sao chép trong các sản phẩm học thuật của Việt Nam.

Ảnh minh họa

Hệ thống cũng góp phần nâng cao tính nghiêm túc trong học tập và nghiên cứu.

Phát hiện cả những ký tự bất thường

Vào khoảng 5 - 6 năm trước, một số trường đại học ở Việt Nam như ĐH Kinh tế Quốc dân, ĐH Kinh tế TP Hồ Chí Minh, ĐH Hoa Sen… đã mua các phần mềm kiểm tra đạo văn của nước ngoài để đánh giá bài làm hay các sản phẩm học thuật của người học. Tuy nhiên điểm yếu của các phần mềm ngoại là chỉ bán theo số lượng lớn tài khoản cho các đơn vị với chi phí bản quyền cao nên những người có nhu cầu kiểm tra cá nhân lại không thể sử dụng. Để tạo ra phần mềm trong nước, dễ dàng sử dụng bằng tiếng Việt, nhóm nghiên cứu bao gồm các giảng viên và sinh viên của Trường Đại học Công nghệ, ĐHQGHN đã nghĩ đến xây dựng phần mềm chống đạo văn.

Anh Nguyễn Ngọc Sơn, cựu sinh viên Trường ĐH Công nghệ, thành viên nghiên cứu chính và đang làm việc tại Công ty Cổ phần Metis cho biết, cái khó nhất và quan trọng nhất làm nhóm nghiên cứu phải “đau đầu” chính là “làm sao để có thể phát hiện sự tương đồng trong văn bản trên hàng terabytes dữ liệu trên Internet mà vẫn phải đảm bảo chất lượng, tốc độ kiểm tra cũng như khả năng chịu tải trên một hạ tầng phần cứng bị giới hạn.

Nhóm quyết định thiết kế hệ thống để cân bằng tải, sử dụng các kiến trúc và công nghệ mới như kiến trúc vi dịch vụ (microservices) và hàng đợi (queue) để các tài liệu gửi lên luôn luôn được đẩy vào danh sách “xếp hàng”. Nhờ vậy, khi có số lượng người dùng lớn, hệ thống cũng không bị quá tải mà luôn xử lý theo giới hạn xử lý tối đa của phần cứng. Song song với đó, nhóm cũng liên tục thử trên rất nhiều thư viện lập trình và nền tảng công nghệ khác nhau, từ trả phí đến mã nguồn mở, cũng như từ các thuật toán tương đồng đến các công nghệ big data và các hạ tầng phần cứng ở nhiều nơi để tìm ra giải pháp tối ưu tốc độ truy vấn tương đồng và đảm bảo kết quả trả về một cách nhanh nhất.

Qua 4 phiên bản khác nhau, nhóm đã xây dựng và phát triển hoàn thiện được hệ thống hỗ trợ nâng cao chất lượng tài liệu DoIT phục vụ nhu cầu sử dụng của hàng nghìn thầy cô, sinh viên mỗi năm. Không chỉ được tích hợp khả năng kiểm tra chính tả, kiểm tra bài tập theo nhóm, hỗ trợ nhiều loại định dạng văn bản khác nhau và có thể áp dụng triển khai nội bộ cho các đơn vị, điểm vượt trội nhất của phần mềm này là khả năng xử lý tiếng Việt. Nhờ phát triển được một thuật toán riêng, sử dụng độ đo bất đối xứng nên việc kiểm tra, tính điểm trùng lặp giữa một câu văn ngắn và một câu văn dài trở nên chính xác hơn; hệ thống cũng phát hiện được cả những ký tự ẩn bất thường trong văn bản mà học viên có thể sử dụng để “lách luật”.

Kết nối xây dựng cộng đồng chia sẻ dữ liệu

Điểm mấu chốt nhất của phần mềm kiểm tra đạo văn không chỉ là công nghệ xử lý dữ liệu lớn mà chính là cơ sở dữ liệu (CSDL) để hệ thống có thể so sánh. Với những phiên bản đầu tiên, dữ liệu để nhóm nghiên cứu của ĐH Công nghệ kiểm tra đến từ những kho tài liệu phổ biến tại Việt Nam như Wikipedia, tailieu.vn hay 123doc. Đồng thời, nhóm cũng xây dựng một hệ thống riêng để có thể tự động phát hiện và thu thập nguồn dữ liệu mới.

Dù đang có khoảng hơn 300 triệu dữ liệu tiếng Anh và 50 triệu dữ liệu tiếng Việt, thì nguồn quan trọng nhất và cũng là dữ liệu mà nhóm thực sự muốn làm giàu cho CSDL, chính là các khóa luận, luận văn, luận án... từ các trường đại học. “Dữ liệu nội sinh sẽ có giá trị cao hơn rất nhiều dữ liệu trôi nổi trên Internet, bởi có những giới hạn: Ví dụ như người dùng tải lên thì mình mới lấy được và nhiều trang web cũng không chia sẻ miễn phí đầy đủ nội dung các tài liệu”, nhóm nghiên cứu cho biết. Nếu không có bộ CSDL đủ lớn, phần mềm phát hiện đạo văn dù có tối tân đến đâu cũng không thể phát huy hết hiệu quả.

Thực tế này cũng có thể thấy ngay cả với việc Việt Nam áp dụng Turnitin - phần mềm có CSDL học thuật đồ sộ với tổng cộng khoảng 45 tỷ trang web, hơn 337 triệu bài làm của sinh viên và hơn 130 triệu bài viết từ các cuốn sách và các ấn bản học thuật, thì cũng gặp phải hạn chế do không thể cập nhật CSDL của tất cả các trường đại học, cơ sở nghiên cứu trong nước bởi vẫn có quá ít các đơn vị sử dụng. Đây cũng chính là mục tiêu mà nhóm nghiên cứu Trường ĐH Công nghệ hướng đến: Xây dựng được một cộng đồng liên kết và chia sẻ dữ liệu giữa các đơn vị đào tạo. Khi có CSDL như vậy, việc phát hiện sự trùng lặp sẽ chính xác hơn rất nhiều.

Nhóm đang liên tục cải tiến phần mềm như nghiên cứu để loại trừ các câu văn phổ thông (ví dụ lời cảm ơn, phụ lục) trong trùng lặp văn bản, đồng thời tiếp tục phát triển thêm các phần mềm liên quan đến dữ liệu, tri thức và giáo dục như Simidoc, EasyCheck, VOJS. “Nếu không có công cụ hỗ trợ, giáo viên dù thấy bài làm quen quen nhưng cũng sẽ khó tìm được tài liệu để đối chứng. Chúng tôi hi vọng phần mềm sẽ góp phần vào việc nâng cao chất lượng giáo dục và thúc đẩy sự nghiêm túc, chuyên nghiệp và cả sáng tạo trong học tập và nghiên cứu của sinh viên, học viên”, anh Nguyễn Ngọc Sơn chia sẻ.

Hệ thống nâng cao chất lượng tài liệu DoIT đã được sử dụng ở khoảng 15 trường như ĐH Quốc gia Hà Nội, ĐH Luật, ĐH Vinh... và được người dùng cá nhân từ 60 trường trải nghiệm. Mỗi ngày, vào thời điểm cao điểm như mùa nộp khóa luận, hệ thống DoIT xử lý từ 700 đến hàng nghìn tài liệu với tốc độ xử lý trung bình cho khoảng 50 trang là 1 phút.