Компанія Sesame представила базову ШІ-модель CSM-1B (1 млрд параметрів), що працює під ліцензією Apache 2.0 і лежить в основі реалістичного голосового асистента Maya.
Про це повідомляє techcrunch.com.
CSM-1B використовує RVQ (залишкове векторне квантування) для перетворення тексту й аудіо у звукові коди. Ця технологія вже застосовується в SoundStream (Google) і Encodec (Meta). Модель базується на Llama від Meta та містить власний аудіодекодер, що дозволяє генерувати різноманітні голоси без точного налаштування на конкретний тембр.
Sesame не розкриває, на яких даних навчали CSM-1B, і не гарантує захист від зловживань. Компанія лише закликає не використовувати модель для шахрайства, дезінформації чи імітації голосів без згоди.
Демо на Hugging Face показало, що голос можна клонувати менш ніж за хвилину, після чого генерувати будь-які висловлювання, зокрема на чутливі теми. Consumer Reports уже застерігала про відсутність ефективних захистів у подібних голосових ШІ.
їSesame, заснована співтворцем Oculus Бренданом Айрібе, привернула увагу завдяки своїм голосовим асистентам, що відтворюють природну мову з паузами та перебоями, подібно до OpenAI. Також компанія працює над AI-окулярами для повсякденного носіння, а її розробки фінансують Andreessen Horowitz, Spark Capital та Matrix Partners.
