Нейросети, которые создают оригинальные видео по текстовому описанию, уже существуют. И хотя пока они не в состоянии заменить кинематографистов или мультипликаторов полностью, подвижки в этом направлении уже есть. Disney Research и Rutgers разработали нейросеть, которая может создать грубую раскадровку и видео по текстовому сценарию.
Как отмечается, система работает с естественным языком, что позволит применять её в ряде областей вроде создания учебных видеороликов. Также эти системы помогут сценаристам визуализировать их идеи. При этом заявлено, что цель — не заменить писателей и художников, а сделать их работу более эффективной и менее утомительной.
Разработчики заявляют, что перевод текста в анимацию является непростой задачей, поскольку данные на входе и выходе не имеют фиксированной структуры. Потому большинство подобных систем не могут обрабатывать сложные предложения. Чтобы обойти ограничения предыдущих подобных программ, разработчики построили модульную нейронную сеть, состоящую из нескольких компонентов. В их число входит модуль обработки естественного языка, модуль разбора сценариев, а также модуль, генерирующий анимацию.
Для начала система анализирует текст и переводит сложные предложения в простые. После этого создаётся 3D-анимация. Для работы используется библиотека из 52 анимированных блоков, список которых был расширен до 92 за счёт добавления похожих элементов. Для создания анимации используется игровой движок Unreal Engine, который опирается на предварительно загруженные объекты и модели. Из них система выбирает подходящие элементы и формирует видеоролик.
Для обучения системы исследователи составили набор описаний из 996 элементов, взятых из более чем 1000 сценариев с IMSDb, SimplyScripts и ScriptORama5. После этого были проведены качественные тесты, в которых 22 участникам довелось оценить 20 анимаций. При этом 68 % сказали, что система создала вполне достойную анимацию на основе входных текстов.
Тем не менее, команда признала, что система не идеальна. Её список действий и объектов не является исчерпывающим, и иногда лексическое упрощение не сопоставляет глаголы с аналогичными анимациями. Исследователи намерены устранить эти недостатки в дальнейшей работе.