StepFun бросает вызов OpenAI с новой моделью StepAudio 2.5

Шанхайский стартап StepFun представил StepAudio 2.5, модель для работы с голосом, которая превосходит конкурентов в распознавании эмоций и контекста.

StepFun бросает вызов OpenAI с новой моделью StepAudio 2.5
Шанхайская лаборатория StepFun представила StepAudio 2.5 Realtime — систему, которая обрабатывает голос напрямую без промежуточного преобразования в текст.

Новый стандарт в обработке голоса

Разработчики утверждают, что их модель способна улавливать паралингвистические сигналы: темп речи, эмоциональный окрас и даже возраст собеседника. В тестах на восприятие акустических характеристик модель набрала 82.18 баллов, обойдя аналоги от OpenAI и Google.

«Мы создали систему, которая не просто распознает слова, а понимает контекст и эмоциональное состояние пользователя в реальном времени», — отмечают инженеры компании.

  • Модель обучена на 10 000 авторских профилях личностей.
  • Поддержка английского и китайского языков.
  • Интеграция через API для разработчиков.

FAQ

Что делает StepAudio 2.5 особенным?

Модель использует специализированное обучение с подкреплением (RLHF) для поддержания стабильности личности, предотвращая «выход из роли» во время долгих диалогов.

Кто стоит за StepFun?

Компания основана Цзяном Дасинем, бывшим руководителем проектов Cortana и Bing в Microsoft.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *