Tuy nhiên, những hình ảnh tiêu chuẩn được chụp bởi điện thoại thông minh hoặc máy ảnh kỹ thuật số chỉ thể hiện cảnh từ một góc nhìn cụ thể. Thực tế, chúng ta có thể di chuyển xung quanh và quan sát từ các góc nhìn khác nhau.
Các nhà khoa học đang nỗ lực để cung cấp trải nghiệm phong phú cho người dùng. Nhờ đó, cho phép quan sát một cảnh từ các góc nhìn khác nhau. Tuy nhiên, phương pháp này đòi hỏi người dùng sử dụng camera chuyên dụng.
Tiến sĩ Nima Kalantari, Khoa Khoa học Máy tính và Kỹ thuật tại Đại học Texas A&M và nghiên cứu sinh Qinbo Li đã phát triển một phương pháp dựa trên máy học. Qua đó, cho phép người dùng chụp một bức ảnh và sử dụng nó để tạo ra những góc nhìn mới lạ về khung cảnh.
"Lợi ích là giờ đây, chúng ta không bị giới hạn trong việc chụp một cảnh theo cách cụ thể. Chúng ta có thể tải và sử dụng bất kỳ hình ảnh nào trên Internet, ngay cả những hình ảnh đã 100 năm tuổi. Về cơ bản là làm cho nó sống lại và nhìn từ các góc độ khác nhau", Tiến sĩ Kalantari nói.
Để tạo hình ảnh mới, các nhà nghiên cứu đã sử dụng thông tin liên quan đến khoảng cách giữa các đối tượng trong cảnh. Nhờ vậy, tạo ảnh tổng hợp từ một máy ảnh ảo được đặt tại các điểm khác nhau trong cảnh.
Trong nhiều thập kỷ qua, một số phương pháp đã được phát triển để tổng hợp các hình ảnh. Tuy nhiên, hầu hết phương pháp trong số đó yêu cầu người dùng chụp thủ công nhiều ảnh của cùng một cảnh từ các góc nhìn khác nhau.
Tuy nhiên, các phương pháp này không được thiết kế để tạo ra các hình ảnh mới từ một hình ảnh đầu vào duy nhất. Để đơn giản hóa quy trình, các nhà nghiên cứu đã đề xuất thực hiện tương tự, nhưng chỉ với một hình ảnh.
Mặc dù cách này dễ tiếp cận hơn đối với người dùng, nhưng đây là một ứng dụng khó xử lý đối với hệ thống. Các nhà khoa học đã thiết lập một mạng học sâu, tạo ra chế độ xem mới dựa trên hình ảnh đầu vào duy nhất.
Mạng học sâu được xem một tập hợp lớn các hình ảnh. Một yếu tố quan trọng của cách tiếp cận này là lập mô hình cảnh đầu vào, nhằm khiến quá trình đào tạo trở nên đơn giản hơn.
Các nhà nghiên cứu đã chuyển đổi hình ảnh đầu vào thành hình ảnh đa mặt phẳng. Nhờ phương pháp này, mạng học cách suy ra vị trí của các đối tượng trong cảnh.