OpenAI представила нейросеть для генерации голоса Voice Engine

Время на прочтение: 5 минут(ы)

OpenAI продолжает расширять возможности применения искусственного интеллекта. Компания поделилась результатами разработки нейросети Voice Engine, которая на основе текста или голоса способна создать 15-секундный аудио сэмпл. Нейросеть генерирует естественно звучащую речь. Примечательно, что текущая модель способна создавать эмоциональные и реалистичные голоса.

Voice Engine разработана в конце 2022 года. Нейросеть ранее использовалась для поддержки предустановленных голосов, доступных в API софта для преобразования текста в речь, а также в продуктах ChatGPT Voice и Read Aloud.

В компании осторожно и осознанно подходят к более широкому выпуску технологии из-за рисков неправильного использования синтетического голоса. В организации надеются начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих дискуссий и результатов тестов разработчик примет более обоснованное решение о том, стоит ли и как развертывать эту технологию в больших масштабах.

Способы применения Voice Engine

Чтобы лучше понять потенциальное использование этой технологии, в конце прошлого года OpenAI начали ее частное тестирование с небольшой группой доверенных партнеров.

Несколько примеров:

Оказание помощи в чтении детям и людям, не умеющим читать, с помощью естественно звучащих, эмоциональных голосов, представляющих более широкий круг говорящих, чем это возможно при использовании лишь предустановленных голосов. Age of Learning – компания, занимающаяся образовательными технологиями и развитием академических успехов детей, использует технологию для создания заранее подготовленного закадрового контента. Они также используют Voice Engine и GPT-4 для создания персонализированных ответов в режиме реального времени для взаимодействия со студентами. Благодаря этой технологии Age of Learning смогла создать больше контента для более широкой аудитории.

Перевод контента, например, видео и подкастов, чтобы авторы и компании могли обращаться к большему количеству людей по всему миру, свободно и своим собственным голосом. Одним из первых, кто внедрил это, является HeyGen – платформа визуального повествования с искусственным интеллектом. Она работает со своими корпоративными клиентами для создания индивидуальных, похожих на человека аватаров для различного контента: от маркетинга и до демонстраций продаж продуктов. Они используют Voice Engine для перевода видео, поэтому могут переводить голос говорящего на несколько языков и охватить глобальную аудиторию. При использовании для перевода Voice Engine сохраняется родной акцент исходного говорящего. Например, произношение на английском языке с использованием аудио образца французского говорящего приведет к созданию речи с французским акцентом.

Охват глобальных сообществ путем предоставления услуг в удаленных условиях. Dimagi создает инструменты для местных медицинских работников, позволяющие им предоставлять различные услуги, например, консультирование кормящих матерей. Чтобы помочь работникам развивать свои навыки, Dimagi использует Voice Engine и GPT-4 для получения интерактивной обратной связи на основном языке для каждого работника, включая суахили или более неформальные языки, такие как шэн или смешанный кодовый язык, популярный в Кении.

Невербальная поддержка, например, терапевтическое применение для людей с заболеваниями, влияющими на речь, и улучшение образования людей с особенностями в обучении. Livox – альтернативное коммуникационное приложение с искусственным интеллектом, которое поддерживает устройства дополнительной и альтернативной коммуникации (AAC), что позволяет людям с ограниченными возможностями общаться. Используя Voice Engine, разработчики могут предлагать людям уникальные невербальные и нероботизированные голоса на многих языках. Их пользователи могут выбирать речь, которая лучше всего их представляет, а для многоязычных пользователей поддерживать единый голос на каждом разговорном языке.

Помощь пациентам в восстановлении голоса и тем, кто страдает от внезапных или дегенеративных нарушений речи. Институт нейробиологии Нормана Принса в Род-Айленде, входящий в некоммерческую систему здравоохранения, который является основным учебным филиалом медицинской школы Университета Брауна, изучает возможности использования искусственного интеллекта в клиническом контексте. Они пилотируют программу, предлагающую Voice Engine людям с онкологическими или неврологическими нарушениями речи. Поскольку Voice Engine достаточно короткого аудио образца врачи из учреждения смогли восстановить голос юной пациентки, потерявшей беглую речь из-за сосудистой опухоли головного мозга, используя звук из видео с ее участием, записанного для школьного проекта.

Безопасное использование голосового движка

Партнеры, тестирующие Voice Engine сегодня, согласились с политикой использования, которая запрещает выдавать синтетический голос за другое физическое лицо или организацию без согласия или законного права. Кроме того, условия сотрудничества с партнерами требуют явного и осознанного согласия от первоначального автора. Партнеры также должны четко сообщить своей аудитории, что голоса, которые они слышат, генерируются искусственным интеллектом. Внедрен ряд мер безопасности, включая водяные знаки для отслеживания происхождения любого звука, генерируемого Voice Engine, а также упреждающий мониторинг того, как он используется.

OpenAI отмечает, что любое широкое внедрение технологии синтетического голоса должно сопровождаться процедурами аутентификации голоса, которые проверяют, что исходный говорящий сознательно добавляет свой голос в услугу. Кроме того, сформулирован список запрещенных голосов для обнаружения и предотвращения создания слишком похожих голосов известных лиц.

Последствия применения технологии

В настоящее время компания планирует провести предварительное тестирование технологии, а не выпускать ее для открытого использования. Разработчик связывает такие действия с необходимостью повышения устойчивости общества к вызовам, создаваемым все более убедительными генеративными моделями.

Организация считает важным осуществить:

Постепенный отказ от голосовой аутентификации как меры безопасности для доступа к банковским счетам и другой конфиденциальной информации;

Изучение политики защиты использования голосов людей искусственным интеллектом;

Обучение общественности пониманию возможностей и внедрение ограничений технологий искусственного интеллекта, включая противодействие возможностям введения в заблуждение с помощью контента, созданного искусственным интеллектом;

Ускорение разработки и внедрения методов отслеживания происхождения аудиовизуального контента, чтобы всегда было понятно, взаимодействуете ли вы с реальным человеком или с искусственным интеллектом.

 

Важно, чтобы люди понимали, куда движется эта технология независимо от того, будет ли в конечном итоге осуществлено ее широкое внедрение. Необходима общественная дискуссия с политиками, исследователями, разработчиками и творческими людьми о роли и значении синтетических голосов.

Поделиться публикацией