Новая компьютерная система для чтения по губам превосходит человека во много раз
- Автор
- Дата публикации
- Автор
Исследователи разработали новый искусственный интеллект для чтения по губам, который во много раз превосходит человеческие возможности.
Чтение по губам нельзя назвать точной научной дисциплиной. Однако благодаря возможностям современных компьютеров, а в частности нейросетям, можно разработать искусственный интеллект, который справится с чтением по губам намного лучше человека. Watch, Attend and Spell (WAS) – это новая система программного обеспечения с искусственным интеллектом, разработанная учеными из Оксфорда в сотрудничестве с компанией DeepMind, Google. Система WAS использует компьютерное зрение и методы машинного обучения, чтобы научиться читать по губам, смотря телевизионные передачи длительностью более 5000 часов.
Исследовательская группа сравнивала способности машины и человека-эксперта разбираться в том, что говорилось в видео, сосредоточившись лишь на движениях губ людей в кадре. В результате ученые обнаружили, что новое программное обеспечение было более точным по сравнению с профессионалом. Человек правильно распознавал лишь 12 процентов слов, в то время как искусственный интеллект WAS был способен распознать более 50 процентов слов. Ошибки машины заключались только в потере буквы «с» на концах слов.
Новое программное обеспечение может повлиять на ряд новейших разработок, в том числе помочь слабослышащим в ориентации в пространстве. Также в будущем подобную систему можно будет использовать для создания субтитров к видео в реальном времени. Кроме того, подобные технологии могут повысить точность и скорость преобразования речи в текст, особенно в шумных местах, где микрофоны просто не слышат пользователя.