Apple показала новую ИИ-модель, которая умеет восстанавливать полноценные 3D-объекты всего по одному изображению.
При этом в ней учитываются отражения, блики и поведения света при изменении угла обзора.
Речь идет о модели под названием LiTo (Surface Light Field Tokenization). Она сразу учитывает, как свет взаимодействует с поверхностью объектов. При повороте виртуальной модели отражения и блики выглядят реалистично, а не «приклеенными».
В основе лежит «латентное пространство» — способ представления данных в виде числовых векторов. Проще говоря, модель не хранит картинку как набор пикселей, а сжимает ее в компактное математическое описание: форму объекта и поведение света на его поверхности. Это ускоряет расчеты и позволяет системе «додумывать» недостающие детали.
Дальше работает стандартная для таких систем схема:
- энкодер сжимает информацию об объекте в латентное представление
- декодер восстанавливает из него полноценную 3D-модель уже с учетом геометрии и визуальных эффектов вроде бликов и отражений
Главное отличие LiTo от большинства аналогов заключается в том, что этой модели достаточно одной картинки. Обычно для 3D-реконструкции требуется серия снимков с разных углов, но здесь модель учится угадывать недостающие данные.
Для обучения Apple использовала тысячи 3D-объектов, снятых со 150 ракурсов и при разных условиях освещения. При этом в модель подавались не все данные сразу, а случайные фрагменты, из которых она училась восстанавливать полную картину. Со временем система научилась одновременно понимать и форму объекта, и то, как меняется его внешний вид при повороте и изменении света.
После этого исследователи добавили еще один этап: отдельную модель, которая по одной фотографии предсказывает нужное латентное представление. Уже из него финальный декодер собирает полноценный 3D-объект. [9to5]
🙈 Нет комментариев