Новый стандарт в обработке голоса
Разработчики утверждают, что их модель способна улавливать паралингвистические сигналы: темп речи, эмоциональный окрас и даже возраст собеседника. В тестах на восприятие акустических характеристик модель набрала 82.18 баллов, обойдя аналоги от OpenAI и Google.
«Мы создали систему, которая не просто распознает слова, а понимает контекст и эмоциональное состояние пользователя в реальном времени», — отмечают инженеры компании.
- Модель обучена на 10 000 авторских профилях личностей.
- Поддержка английского и китайского языков.
- Интеграция через API для разработчиков.
FAQ
Что делает StepAudio 2.5 особенным?
Модель использует специализированное обучение с подкреплением (RLHF) для поддержания стабильности личности, предотвращая «выход из роли» во время долгих диалогов.
Кто стоит за StepFun?
Компания основана Цзяном Дасинем, бывшим руководителем проектов Cortana и Bing в Microsoft.
