Быстрее аналогов в десятки раз: ИИ от Facebook преобразовывает текст в речь за 500 миллисекунд

Автор
1084
Быстрее аналогов в десятки раз: ИИ от Facebook преобразовывает текст в речь за 500 миллисекунд

Новый ИИ генерирует голос за 500 миллисекунд. Его разработали инженеры Facebook, они заявили, что их метод быстрее аналогов в несколько десятков раз.

Социальная сеть Facebook представила высокоэффективную систему на основе ИИ, которая быстро преобразовывает текст в речь. Ее можно использовать в режиме реального времени и с использованием обычных процессоров. Исследователи рассказали о новом подходе для сбора данных — он позволил производить секунду звука за 500 миллисекунд.

Система Facebook сможет производить высококачественные голоса без необходимости использования специализированного оборудования. Специалисты компании отмечают, что система достигла 160-кратного ускорения по сравнению с аналогами. Это сделает его пригодным даже для устройств с ограниченными вычислительными возможностями.

Система Facebook состоит из четырех частей, каждая из которых фокусируется на различных аспектах речи: лингвистической, особенностях произношения, акустической модели и нейронной кодировке голоса.

ИИ преобразовывает текст в последовательность лингвистических цепочек — предложения и единицы звука, которые отличаются друг от друга в зависимости от того, в каком слове они используется. Модель также отвечает за особенности происхождения и стиль — ИИ может интерпретировать и прогнозировать ритмы речи, предложения и частоты.

Даже на нечетких снимках: ИИ научили искать далекие галактики

Встраивание стилей позволяет системе создавать новые голоса —"мягкие","быстрые","формальные", при этом для их изменений требуется лишь небольшое количество данных. Для каждого стиля требуется всего 30 до 60 минут, утверждает Facebook — на порядок меньше, чем несколько часов записей, которые нужны для аналогичной системы Amazon.