Новая нейросетевая модель смогла воссоздать лицо человека по голосу
- Автор
- Дата публикации
- Автор
Программа способна составить примерный портрет человека, но точность реконструкции оставляет желать лучшего.
Алгоритм получил название Speech2Face. На основе записи голоса он может точно определить пол и чуть менее точно — национальность. Еще менее точно программа может предсказать возраст говорящего.
Для обучения нейросети ученые использовали массив более чем из миллиона коротких видео, на которых говорили люди. Программа разделяла видео и аудиодорожку. Сначала она обрабатывала лицо человека на видео, воссоздавая его в анфас. Затем программа работала с аудиодорожкой, создавая спектрограмму — зависимость мощности сигнала от времени. Затем результаты двух алгоритмов объединили и лицо соотнесли со спектрограммой.
Обучив нейросеть на большом массиве данных, ученые протестировали модель на фотографиях лиц людей. Оказалось, алгоритм хорошо угадывает пол человека, но редко может определить его возраст с точностью до десяти лет, а также лучше всего воссоздает внешность людей с европейской и азиатской внешностью. Последний факт ученые объясняют неравномерностью выборки по национальностям.
Ученые сказали, что точность воссоздания внешности по голосу всегда будет довольно низкой из-за множества особенностей, влияющих на речь. Голос также может меняться в течение жизни, поэтому его точное сопоставление с внешностью едва ли возможно.
The Boring Company сравнила езду на авто по городу и в тоннелеИсследователи сосредоточились на прогнозировании таких параметров, как пол, возраст и национальность. И если первый и третий параметры система определяла с высокой точностью, то над расчетом возраста создателям Speech2Face еще стоит поработать. Ученые отмечают, что их программа поможет лучше понять корреляцию внешности человека с его голосом.
Другая группа ученых ранее создала нейросеть, которая может угадывать имя человека по фотографии, выбирая один из нескольких вариантов. Точность определения составила 54–64 процента, что выше случайного выбора из двух вариантов, где вероятность правильного ответа равна 50 процентам.