Connect with us

Hi, what are you looking for?

Наука и технологии

Искусственный интеллект от Facebook получил голос Билла Гейтса

Искусственный интеллект от Facebook получил голос Билла Гейтса

Искусственный интеллект от Facebook получил голос Билла Гейтса

Разработчики сервиса MelNet от Facebook добились вполне правдоподобного синтеза голоса при воспроизведении коротких фраз.

Для наглядности фразы озвучены «клонами» известных людей, пишет Хроника.инфо со ссылкой на internetua.com.

Времена, когда искусственный голос был безжизненным и неэмоциональным, похоже, скоро останутся в прошлом. Сразу несколько команд разработчиков добились значительных успехов в синтезе настоящего живого аудио. Это уже не старые системы, которые нарезают звуки и слова, компонуя из них фразы. Программы WaveNet, SampleRNN и подобные продукты используют системы машинного обучения для анализа образцов звуков и последующего «озвучивания» текста.

В Facebook, разрабатывающем систему MelNet, пошли другим путем и предложили искусственному интеллекту поработать со спектрограммами. Исследователи утверждают, что их продукт хорошо воспроизводит тонкие последовательности, содержащиеся в голосе спикера, которые, как ни странно, практически невозможно описать словами, но легко уловить человеческим ухом. Для проверки этого утверждения можно прослушать образцы фраз, которые алгоритм произносит голосом известных людей. В частности, разработчики MelNet «синтезировали» Билла Гейтса, Стивена Хокинга, Салмана Хана, Стивена Вольфрама и еще нескольких известных персон (в категории «Selected Speakers» можно выбрать конкретного спикера и прослушать одну и ту же фразу в исполнении разных ораторов).

Создан GPS, устойчивый к глушению сигнала

В качестве одного из ресурсов для анализа использовался 452-часовой набор аудио из известной программы TED. Остальные обучающие данные были взяты из аудиокниг, которые выбраны из-за «очень оживленной манеры» докладчиков, и, соответственно, максимальной сложности задачи. Несмотря на то, что короткие фразы звучат вполне правдоподобно, MelNet пока не умеет работать с эмоциональной наполненностью длинных текстов. Например, система не может создать драматический эффект или перепады вербального напряжения на протяжении абзаца или страницы текста.