Neuropolis

Создатели вирусного виртуального ассистента Maya открывают доступ к своей базовой модели ИИ

Узнайте о новой модели CSM-1B от Sesame — базе для реалистичного голосового помощника Maya! Эта модель с открытым исходным кодом (Apache 2.0) генерирует речь из текста и аудио, легко клонирует голос, но не имеет строгих ограничений по использованию.

2 минуты

Компания Sesame представила CSM-1B – базовую модель, лежащую в основе реалистичного голосового помощника Maya. Эта модель с миллиардом параметров доступна по лицензии Apache 2.0, что позволяет использовать её в коммерческих проектах с определёнными ограничениями.

Функциональность CSM-1B

CSM-1B генерирует RVQ-аудиокоды из текстового и аудиоввода. RVQ (residual vector quantization) – это метод кодирования аудио в дискретные токены, применяемый в таких технологиях, как SoundStream от Google и Encodec от Meta. Архитектура CSM-1B основана на модели семейства Llama от Meta, дополненной компонентом аудиодекодера. Усовершенствованный вариант этой модели используется в голосовом помощнике Maya.

Открытый исходный код и этические аспекты

CSM-1B – это базовая модель генерации речи, способная воспроизводить различные голоса, но не заточенная под конкретного говорящего. Благодаря "загрязнению" данных в процессе обучения, модель демонстрирует некоторую функциональность на языках, отличных от английского, хотя её эффективность в этом случае ограничена. Подробная информация о наборах данных, использованных для обучения, не раскрывается.

Модель практически не имеет встроенных защитных механизмов. Sesame призывает к ответственной разработке и использованию CSM-1B, исключая имитацию голоса без согласия человека, создание вводящего в заблуждение контента (например, фейковых новостей) или любые вредоносные действия. Это особенно актуально в свете предупреждений Consumer Reports о недостатке мер безопасности во многих популярных инструментах клонирования голоса.

Демонстрация возможностей

Демонстрация на платформе Hugging Face показала, что клонирование голоса с помощью CSM-1B занимает менее минуты. После этого становится возможным генерировать речь на любые темы, в том числе спорные, такие как политические выборы или распространение дезинформации. Это подчеркивает необходимость этичного использования подобных технологий.

Технологии и финансирование Sesame

Голосовые помощники Sesame – Maya и Miles – имитируют естественную речь, включая нюансы дыхания и неточности произношения, и могут прерываться во время разговора, подобно Voice Mode от OpenAI. Компания Sesame, соучредителем которой является Брендан Айриб (создатель Oculus), получила инвестиции от Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо голосовых помощников, компания разрабатывает прототип очков дополненной реальности для длительного ношения, которые будут интегрированы с её собственными моделями искусственного интеллекта.

Источник:techcrunch.com