Họ đã trả Google 3.500 USD để chạy ứng dụng trên hàng nghìn máy tính cùng một lúc và thu ngắn thời gian huấn luyện trong thực tế xuống còn 48 giờ. Sau khi đào tạo robot trong môi trường ảo, nhóm nghiên cứu quyết định thử nghiệm nó ngoài đời thực.
Bàn tay robot với tên gọi là Dactyl đã học được cách tự di chuyển, theo tiết lộ của nhóm hơn 20 nhà nghiên cứu trong tuần này. Nhiệm vụ của nó chỉ đơn giản là xoay chuyển khối lập phương được đánh sẵn các chữ O, P, E, N, A, I sao cho chữ hiện trên mặt ngửa của khối trùng khớp với các lựa chọn ngẫu nhiên mà nhóm nghiên cứu đưa ra.
Giáo sư Ken Goldberg, chuyên gia về robot từ ĐH California, người không tham gia cuộc nghiên cứu cho biết thành tích mà OpenAI đạt được rất đáng kể bởi họ đã chứng minh cách robot huấn luyện trong môi trường ảo hoạt động thế nào ở thế giới thực. Phòng thí nghiệm của ông đang cố thực hiện một nghiên cứu tương tự với bàn tay robot Dex-Net có thiết kế đơn giản hơn và sẽ thao tác một vật thể phức tạp hơn khối lập phương.
Giáo sư Goldberg cho biết: “Trọng tâm ở đây là ý tưởng có thể đạt được nhiều tiến bộ từ mô phỏng. Đây chính là con đường hợp lý về phía trước, bởi việc thực hiện thí nghiệm vật lý luôn khó khăn.
Các ngón tay của Dactyl trong thế giới thực được theo dõi bởi các chấm hồng ngoại và camera. Trong luyện tập, mọi chuyển động mô phỏng đưa khối lập phương về gần mục tiêu đề ra sẽ mang lại cho Dactyl một phần thưởng nhỏ. Làm rơi khối lập phương và Dactyl sẽ phải chịu hình phạt gấp 20 lần.
Quá trình này được gọi là học tập tăng cường. Phần mềm robot sẽ lặp lại các nỗ lực của nó tới hàng triệu lần trong môi trường mô phỏng để đạt được kết quả cao nhất. OpenAI sử dụng 1 thuật toán gần giống với thuật toán mà họ đã từng sử dụng để đào tạo A.I có thể đánh bại người chơi trong game “Dota 2”.
Trong thời gian thực, đội ngũ nghiên cứu đã phải tốn gần 1 năm để bàn tay máy có thể cử động như bây giờ. Vậy câu hỏi là tại sao các cơ chế lại khác nhau?
Vấn đề có thể lý giải là do bàn tay trong môi trường ảo không hiểu được sự tồn tại của ma sát. Vậy nên mặc dù có ngón tay làm bằng cao su, Dactyl vẫn thiếu những nhận biết của con người để tìm ra góc bám tốt nhất.
Các nhà nghiên cứu đã phải thêm các thay đổi về trọng lực, góc tay và nhiều biến đổi khác vào môi trường mô phỏng để phần mềm có thể học cách hoạt động theo phương hướng thích nghi nhất; qua đó thu hẹp được sự khác biệt trong kết quả thực tế và kết quả mô phỏng.
Mục tiêu của OpenAI là phát triển trí thông minh nhân tạo hay máy móc có thể suy nghĩ và học hỏi như con người theo hướng an toàn đối với nhân loại và có thể phân phối rộng rãi. Tỉ phú Musk đã từng cảnh báo nếu các hệ thống A.I chỉ được phát triển bởi các công ty vì lợi nhuận hoặc các chính phủ mạnh mẽ, chúng có thể 1 ngày sẽ mang trí tuệ vượt qua con người và trở thành hiểm họa lớn hơn cả chiến tranh hạt nhân với Triều Tiên.