Back
Blog
9 June 2020ВКонтакте

Читать не надо слушать: запускаем распознавание голосовых сообщений

Столько мемов о том, как все не любят голосовые! А кто эти 30 миллионов пользователей, которые записывают аудиосообщения? Признавайтесь 🙂 Для сравнения: это почти треть тех, кто активно пользуется ВКонтакте каждый месяц.

Понимаем представителей обеих сторон. Голосовые сообщения любят за скорость — в дороге, например, удобнее говорить, а не писать. Ещё аудио ценят за особый уровень близости: они передают интонации, акценты, эмоции — почти как живой разговор. Но есть и минусы: например, запись не послушаешь во время звонка или встречи, наушники не всегда под рукой, а нужную информацию сложно найти в переписке.

Мирим два лагеря с помощью искусственного интеллекта: наши разработчики создали совершенно новую технологию распознавания голосовых сообщений — вы уже можете её попробовать в приложении VK. Расскажем подробнее, как она работает.

Что умеет новая технология?

Она расшифровывает голосовые сообщения длительностью до 30 секунд. Нажмите на кнопку с буквами рядом с аудио — и увидите текст. Нейросеть даже расставляет знаки препинания!

Более того, голосовые теперь учитываются при поиске: если в аудио есть фраза, которую вы ищете, запись покажется в списке найденного вместе с текстовыми сообщениями.

Как работает распознавание голосовых?

Расскажем в общих чертах о жизни каждого голосового сообщения. После того, как вы его запишете и отправите, аудио попадёт на сервер — там хранится модель, которую мы используем для распознавания. Запись обрабатывается тремя нейросетями и возвращается в переписку в виде текста.

Почему нейросети три? Одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Так вы увидите в расшифровке связный текст.

Как видите, распознавание полностью автоматизировано. У сотрудников ВКонтакте и любых других сторонних лиц нет доступа к вашим личным сообщениям: как голосовым, так и текстовым.

Читать не надо слушать: запускаем распознавание голосовых сообщений, image #1

Чем технология ВКонтакте отличается от других?

Мы создали собственную технологию, чтобы учесть все особенности ВКонтакте.

Высокая нагрузка
Каждый день серверы ВКонтакте обрабатывают сотни миллионов голосовых сообщений разной длительности, качества и наполнения. Всё это создаёт огромную нагрузку — и ни одно из существующих решений для речи на русском языке не могло с ней совладать.

Условия общения
С друзьями в чате общаются совсем не так, как с голосовыми помощниками: сообщения записываются на бегу с посторонними шумами, большим количеством сленга и сокращений.

Наша нейросеть готова ко всем трудностям. Гул толпы, лай собаки, смех друзей или музыка на фоне не помешают распознать аудио, а модные словечки или вырвавшееся на эмоциях ругательство сохранятся и в тексте.

Как модель обучалась?

Чтобы познакомить модель со сленгом, участники программы VK Testers записывают специально подготовленные фразы. Из них алгоритмы и запоминают новые слова.

Нейросеть, которая отвечает за пунктуацию, обучается на субтитрах фильмов и текстах русской классической литературы. Она проанализировала миллионы строк, чтобы правильно расставить запятые в вашем «Слушай, купи, пожалуйста, огурцы и молоко».

Также тестировщики оценивали каждое расшифрованное сообщение. Мы изучали эту информацию, чтобы понять, хорошо ли нейросети справляются со своей работой. И выяснили, что большинству результат распознавания нравится.

Однако искусственный интеллект в чём-то похож на человека: иногда ошибается, но становится лучше, если его обучать. Этим мы не перестаём заниматься. Так что со временем качество расшифровки будет становиться всё выше.

Почему распознаются только аудио до 30 секунд?

Это 90% от всех голосовых сообщений, которые записывают ВКонтакте. Так что мы начали с самого популярного, а в будущем распознавание станет доступно и для более длинных аудио.

Какие планы?

Функция появится ещё и в версии для компьютера, а расшифровывать можно будет как более длинные, так и пересланные сообщения.

Не хотите слушать голосовое? Не нужно, прочитайте его. Хотите записать? Записывайте, не боясь, что собеседник занят. Распознавание голосовых делает мир добрее, а наше отношение друг к другу теплее. Будьте собой и общайтесь как нравится!