Нейросеть научилась анимировать лица с помощью записи речи
- Автор
- Дата публикации
- Автор
Инженеры из Microsoft Research научились анимировать лица на статичных фотографиях при помощи необработанных записей речи этих людей.
В традиционном формате анимирования статичных изображений используется перенос информации с видеоролика на необходимый кадр. В таком случае для оживления картинки используется видеоряд, при этом часто существует только аудиоряд, который и необходимо использовать.
Созданный Microsoft алгоритм — контекстно-зависимый. Модель выделяет из аудиоролика не только речь человека и ее фонетические особенности, но и эмоциональный ряд и даже сторонний шум. Благодаря этому на видеоряд можно наложить разные аспекты речи: крик, возмущение, разочарование или радость.
Такой подход позволит накладывать на статичную картинку не только прямую и безэмоциональную речь, но и живую. Сейчас алгоритм понимает шесть базовых эмоций, которые он может проанимировать.
"Пуск" сломался: очередное обновление Windows 10Для обучения нейросети авторы использовали тысячи видеозаписей речи 34 человек, сказанной с нейтральным выражением, и 7,4 тыс. — с различным эмоциональным окрасом. Кроме того, для обучения авторы взяли 100 тыс. отрывков видеороликов из TED.