Robot nhận thức về môi trường
Các nhà khoa học tại MIT đang hướng tới robot có thể thực hiện các mệnh lệnh như: “Đi vào bếp và lấy cho tôi một tách cà phê”. Để đạt được điều này, nhóm các nhà nghiên cứu tin rằng robot sẽ phải nhận thức được môi trường vật lý giống như con người.
Trong một tuyên bố, giáo sư ngành hàng không vũ trụ của MIT Luca Carlone cho biết để thực hiện bất kỳ nhiệm vụ hoặc đưa ra bất kỳ quyết định nào, cần phải có một hình ảnh trong trí óc về môi trường. Với con người, nhiệm vụ này không vất vả gì nhưng với robot, đây lại là vấn đề phức tạp liên quan tới chuyển đổi các giá trị pixel, về những gì robot thấy thông qua camera, trở thành những hiểu biết về thế giới xung quanh.
Để tìm ra giải pháp cho vấn đề này, ông Carlone cùng SV đã tạo ra một đại diện về nhận thức môi trường vật lý cho robot. Mô hình có tên Đồ thị cảnh động 3D cho phép robot mau chóng tạo ra một bản đồ 3D về môi trường xung quanh nó.
Bản đồ này sẽ bao gồm con người, các bức tường, phòng, đồ vật được gắn nhãn ngữ nghĩa như cái bàn, cái ghế cũng như bất kỳ cấu trúc nào mà robot có thể nhìn thấy. Nhờ đó, robot có thể trích xuất thông tin từ bản đồ để hiểu vị trí của phòng và vật thể, đồng thời nhận biết chuyển động của con người trên đường đi của nó.
Giáo sư Carlone nói rằng, đại diện nhận thức trên rất quan trọng vì nó cho phép robot ra quyết định nhanh chóng và lên kế hoạch về đường đi của mình. Nó không khác nhiều so với những gì con người thực hiện.
Ông cho biết, những con robot này không chỉ sẽ trở thành người giúp việc nhà tuyệt vời, mà còn còn phù hợp với những công việc cấp cao khác như làm việc với con người tại nhà máy và tìm kiếm người sống sót tại bất kỳ khu vực gặp thảm họa nào.
Cho tới bây giờ, tầm nhìn và sự tiến bộ về điều hướng của robot được thực hiện theo 2 tuyến. Bản đồ 3D của robot cho phép nó tái tạo lại môi trường xung quanh theo 3 chiều khi khám phá trong thời gian thực. Robot đã có thể phân biệt được các vật thể khác nhau như xe hơi với xe đạp trong hình ảnh 2D.
Mô hình do Giáo sư Carlone và sinh viên cùng với tác giả chính của nghiên cứu Antoni Rosinol tạo ra là lần đầu tiên tạo ra môi trường của robot ở thời gian thực dạng 3D, đồng thời việc dán nhãn cho các vật thể, cấu trúc và con người bao gồm đứng yên và chuyển động đều nằm trong bản đồ đó.
Nhận dạng không gian làm việc
Thành phần chính của mô hình mới trên là một thư viện nguồn mở có tên Kimera mà nhóm đã phát triển trước đó để tạo ra một mô hình hình học 3D về môi trường, đồng thời mã hóa sự tương đồng ví dụ như giữa một vật thể là cái ghế so với một cái bàn.
Ông Carlone nói rằng nhóm muốn Kimera là sự pha trộn giữa việc lập bản đồ cũng như hiểu biết về ngữ nghĩa trong bản đồ 3D. Vậy Kimera hoạt động như thế nào? Kimera hoạt động hoàn toàn theo thời gian thực, dựa vào các luồng hình ảnh mà camera của robot chụp được và các chuyển động quán tính do các cảm biến của robot thu được. Sử dụng dữ liệu này, Kimera ước lượng quỹ đạo của robot hoặc camera, đồng thời tái tạo lại hiện trường trong lưới 3D.
Lưới 3D mà Kimera tạo ra sử dụng mạng lưới thần kinh đã được đào tạo với sự trợ giúp của hàng triệu hình ảnh trong thế giới thực. Cuối cùng, robot có một bản đồ 3D về thế giới xung quanh. Khi đó mỗi gương mặt đều được mã hóa theo màu sắc như một phần của các vật thể, cấu trúc hoặc con người.
Theo MIT, nếu robot chỉ làm việc trên một mạng lưới như vậy để điều hướng trong môi trường của mình, nó sẽ tốn thời gian cũng như tốn kém về mặt tính toán. Để giải quyết vấn đề này, ông Carlone và nhóm đã xây dựng Kimera và phát triển một thuật toán để chuyển đổi lưới dày đặc của Kimera thành đồ thị cảnh 3D động vốn là đồ họa máy tính phổ biến thường được dùng trong các công cụ trò chơi video cho môi trường 3D.
Các thuật toán sẽ chia lưới của Kimera thành các lớp 3D riêng biệt để robot có thể nhận thức trực quan thông qua ống kính cụ thể. Theo ông Karlone, với các đại diện chia lớp này, robot sẽ không phải hiểu ý nghĩ của hàng triệu điểm và khuôn mặt trong lưới ban đầu. Trong các lớp này, nhóm nghiên cứu cũng đã cố gắng phát triển các thuật toán giúp robot dễ nhận biết hình dáng và chuyển động của con người trong môi trường thời gian thực.