В отделе SberDevices, передовом техническом подразделении Сбербанка, группа экспертов в области искусственного интеллекта и обработки речи совершила значительный прорыв. Они разработали новейшую нейросеть GigaAM, способную с беспрецедентной точностью распознавать человеческую речь на русском языке и определять эмоциональную окраску высказываний.
Согласно заявлениям разработчиков, GigaAM была обучена на колоссальном объеме разнообразных речевых данных, включая записи из различных источников – от запросов в умные колонки до телефонных разговоров. Благодаря этому она превосходит ведущие ИИ-решения в сфере распознавания речи, такие как NeMo-Conformer-RNNT и Whisper-Large-v3, допуская на 20-35% меньше ошибок в словах при распознавании коротких запросов.
GigaAM представляет собой не просто отдельную модель, а целое семейство продвинутых акустических моделей с открытым исходным кодом, что делает их доступными для использования, улучшения и адаптации под конкретные нужды разработчиков по всему миру. В состав семейства входят:
- GigaAM – основная модель для широкого спектра задач обработки речи и звука, включая распознавание речи, определение эмоций, идентификацию диктора и многое другое.
- GigaAM-CTC – специализированная модель для высокоточного распознавания русскоязычных речевых запросов. При тестировании на 7 наборах данных, от запросов в колонки до телефонных записей, она продемонстрировала впечатляющие результаты.
- GigaAM-Emo – акустическая модель, предназначенная для выявления эмоций в речевом сигнале. На крупнейшем русскоязычном датасете эмоций Dusha эта модель показала наилучшие результаты среди конкурирующих решений, таких как DUSHA baseline и TIM-Net.
Разработчики GigaAM отмечают, что открытый исходный код моделей призван стимулировать дальнейшие научные исследования в области распознавания и обработки речи. Однако спектр потенциальных областей применения этих передовых технологий выходит далеко за рамки академических кругов.
Потенциальное применение
В сфере клиентского сервиса интеграция GigaAM позволит автоматизировать процессы обработки звонков и чатов, быстро классифицировать запросы клиентов, находить релевантную информацию и определять настроение обратившихся благодаря анализу эмоций в речи. Все это приведет к повышению качества обслуживания и удовлетворенности клиентов.
Маркетологи и специалисты по рекламе также могут извлечь выгоду из внедрения GigaAM. Анализируя эмоциональную окраску речи потенциальных потребителей в рамках фокус-групп или при общении с продавцами, компании смогут лучше понимать предпочтения, потребности и эмоциональные реакции своей целевой аудитории. Это поможет создавать более эффективные и привлекательные рекламные кампании и стратегии продвижения.
В образовательной сфере GigaAM может использоваться для автоматической оценки правильности произношения, интонации и эмоционального наполнения речи студентов или участников тренингов. Такой мониторинг и обратная связь существенно повысят эффективность развития навыков коммуникации и публичных выступлений.
Кроме открытых исходных кодов для научных целей, разработчики предоставляют и коммерческие версии GigaAM через API SaluteSpeech и приложение SaluteSpeech App. Это позволяет компаниям и организациям интегрировать передовые технологии распознавания речи и анализа эмоций в свои продукты и бизнес-процессы.
По нашему мнению, создание GigaAM несомненно стало важной вехой в развитии российских технологий искусственного интеллекта. Теперь экспертам предстоит исследовать все возможности этих продвинутых моделей и находить новые способы их применения для решения практических задач в различных отраслях.