Нейросеть Sora от OpenAI научилась создавать реалистичные видеоролики

Время на прочтение: 2 минут(ы)

Sora – новая разработка OpenAI, которая позволяет создавать видеоролики по результатам текстовых запросов пользователя. Компания презентовала программный продукт на основе искусственного интеллекта и сообщила о начале его тестирования ограниченным кругом пользователей.

Нейросеть Sora является моделью искусственного интеллекта, которая на текущий момент создает лишь отдельные сцены в формате видео, поэтому говорить о полноценных сюжетных фильмах и роликах пока не приходится. Особенность нейросети – генерация фрагментов видеоконтента на основе текстовых формулировок.

Примеры работы Sora впечатляют динамикой происходящего в кадре, стабильностью и правильностью цветокоррекции и логичной демонстрацией привычных сцен. Однако при внимательном рассмотрении становится понятно, что нейросеть допускает отдельные огрехи (например, не очень точно отрисовывает мелкие детали и движения). Тем не менее, достигнутый прогресс уже можно назвать впечатляющим. К счастью, о замене дизайнеров, режиссеров и других творческих профессий речь пока не идет.

OpenAI стремилась научить искусственный интеллект моделировать физический мир в движении. Главная задача проекта не сводится к созданию контента, ведь Sora нацелена на то, чтобы помогать людям решать проблемы взаимодействия в реальном мире. Результаты работы нейросети будут полезны в продуктах, которые заточены на взаимодействие пользователя с виртуальной и дополненной реальностью, а также для удешевления процесса съемок.

Разработчики столкнулись со множеством трудностей при создании нейросети. Так, им удалось оставить основные объекты в кадре неизменными на протяжении длительного времени, в том числе тогда, когда они перестают быть основной точкой внимания на протяжении целого видеоролика. Технически Sora наследует подходы GPT (вместо токенов применяются патчи) и использует технологии DALL·E 3. Все видео генерируются в вертикальной и горизонтальной ориентации с разрешением FullHD. Нейросеть также способна создавать статическую графику (изображения) с разрешением 2048×2048. Для генерации контента требуются компьютеры высокой мощности с современными чипами.

Ознакомиться с техническим отчетом можно по ссылке.

Примеры работ искусственного интеллекта доступны по ссылке.

Поделиться публикацией