Новости
На Pixel работает новая функция распознавание голоса от Google в автономном режиме
Опубликовал
До сих пор Google использовал облачную обработку. Он использует «граф декодера» — компонент алгоритма, который сопоставляет произнесенные слова с написанными словами и занимает 2 ГБ памяти.
Кроме того, процесс распознавания голоса был длительным (пользователи что-то говорили и требовалось время на обработку) и уровень задержки был довольно высоким.
Новый распознаватель речи переводит весь процесс в автономный режим, что означает распознавание голоса будет происходить намного быстрее.
Используя технологию RNN-преобразователь (RNN-T), Google удалось сжать свои речевые алгоритмы, чтобы их можно было легко разместить на смартфоне с небольшим размером 80 МБ.

Для тех кто не знает RNN-T — это тип модели которая обрабатывает всю входную последовательность, непрерывно работая над входными выборками для получения выходных данных.
Благодаря этому улучшенная технология распознает речь по буквам (она транскрибирует, как вы говорите) с гораздо большей точностью для лучшего и быстрого преобразования голоса в текст.
Тем не менее, эта функция в настоящее время доступна на Gboard для пользователей Pixel только и поддерживает американский английский .
Ожидается, что Google в конечном итоге сделает новую систему распознавания голоса доступной на большем количестве языков для других смартфонов.
