Содержание
- Как воспользоваться
- Ключевые особенности и отличия от существующих решений
- Безопасность и ограничения
- Дальнейшее развитие
- Обновления по горячим следам
- Обновления по горячим следам 2
- Телеграм-бот для расшифровки голосовых сообщений
- Проблемы перевода голосовых сообщений в текст
- Способы расшифровать голосовые сообщения в «Телеграме»
- Боты для перевода голоса в текст
- Возможные проблемы и сложности
- Обзор
Мессенджеры *Машинное обучение *Развитие стартапа Искусственный интеллект Голосовые интерфейсы *
Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).
Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help
и /faq
.
Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).
Как воспользоваться
Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot
в Телеграме. Затем:
- Введите команду
/start
для старта; /help
и/faq
помогут понять основные допущения и ограничения в работе;
Мы тщательно протестировали основные ограничения и свели список основных проблем и краевых кейсов в вышеописанные команды. Если вы найдете новые краевые кейсы, там указаны прямые контакты, можете написать нам. Мы не прячемся и не кусаемся.
Ключевые особенности и отличия от существующих решений
Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в “джейсончики” в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.
Мы гордимся тем, что:
- Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
- Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
- Бот “пытается” быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;
Мы НЕ делаем следующих вещей:
- Мы НЕ собираем данные о пользователях;
- Мы НЕ занимаемся “продажей аудитории” инвесторам или третьим лицам;
- Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
- Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;
Безопасность и ограничения
Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для “длинных” аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.
У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.
Мы полностью шифруем весь трафик и данные. Мы не “дарим” ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.
Дальнейшее развитие
Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.
Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.
Обновления по горячим следам
- FAQ с самыми актуальными вопросами для тех, но не нашел его в самом телеграме — https://habr.com/ru/post/591563/#comment_23749573
- Важно — я настроил вроде бота, чтобы его не нужно было делать админом в группе (пишите в комментариях или в личку про свой опыт)
- Важное обновление — баг с “затором” в боте пофикшен
- Остался баг с пересылкой файлов с мобильных клиентов и / или из вотсаппа и / или из музыкальной библиотеки телеграма.
Обновления по горячим следам 2
- Баг с пересылкой файлов пофиксили, все оказалось проще — дело было в отсутствующем MIME-типе;
- Еще раз пофиксили баги с заторами, вроде дело было в том, что если ответить 500 телеге, то она начинает копить сообщения, и потом это приводит к затору;
- Навесили try/catch в несколько ключевых мест;
- Темы
- Полезно знать
1 20.12.2020
Как часто вам шлют голосовые сообщения в Telegram вместо того, чтобы написать текст вручную? Мне – очень часто. Но если одни только так и общаются, экономя время на наборе сообщения и заодно передавая, как они говорят, живую эмоцию, я отношусь к голосовым довольно скептически. Во-первых, по голосовым невозможно искать, а, во-вторых, на их прослушивание приходится тратить кратно больше времени, чем на прочтение текстовых посланий, пытаясь выцепить из бесполезных междометий и «голосовых протяжек» основную информацию. Хорошо, что голосовые сообщения можно переводить в текст. Не знали? Сейчас научу.
Вас не бесят голосовые сообщения? Меня — очень, но с ними можно бороться
Что такое ярлыки на Android, зачем они нужны и как ими пользоваться
Как вы, вероятно, знаете, Telegram славится обилием ботов. Это такие мини-приложения для мессенджера, которые отвечают за выполнение определённых задач. Есть бот Gmail, который позволяет получать входящую почту прямо в Telegram, есть бот Spotify, который позволяет слушать в интерфейсе мессенджера музыку из одноимённого сервиса, а есть боты – да, их много, — которые отвечают за расшифровку голосовых сообщений и транскрибирование, то есть перевод в текст. Они-то нам и нужны.
Телеграм-бот для расшифровки голосовых сообщений
Несмотря на то что ботов для перевода голосовых сообщений в текст очень много, работают они все плюс-минус одинаково, поэтому мы разберём принцип их работы на примере Voicy.
- Перейдите по этой ссылке и добавьте бота себе;
- Откройте чат с ботом и нажмите кнопку «Старт»;
Не забудьте выбрать язык голосовые сообщений
- После активации бота перешлите в него голосовое;
- Дождитесь распознавания и прочитайте сообщение.
Huawei официально выпустила бету Harmony OS. Как она работает на смартфоне
Разработчики Voicy утверждают, что их бот использует для распознавания речи самые продвинутые алгоритмы, но иногда качество перевода голоса в текст оставляет желать лучшего. Причём совершенно не понятно, по какому принципу возникают ошибки. Например, бот может распознать какие-то нетипичные слова вроде «пармиджано реджано», но ошибиться с распознаванием слова «сырок». Кроме того, у него совсем плохо с идентификацией аббревиатур и отдельных букв. Почему-то их он пытается превратить в отдельные слова.
Проблемы перевода голосовых сообщений в текст
Голосовые сообщения в текст не всегда переводятся с изначальной точностью
Готовясь к написанию этой статьи, я попробовал попользоваться ещё и VoiceMsgBot. Это другой бот с функцией перевода голосовых сообщений в текст. Но мне он понравился ещё меньше. Как показал мой личный опыт, процент брака у него оказался даже выше, чем у Voicy. То есть многие из них сообщений, которые я пересылал ему для интерпретации, выходили совсем малопонятными. Нет, конечно, разобрать их смысл можно, но только если знать, о чём говорит ваш собеседник. В противном случае вам придётся просто переслушивать послание самому.
Как на Android убрать фон фотографии
Что я могу сказать по поводу всех этих ботов-интерпретаторов? Ну, на самом деле это очень неоднозначная штука. Некоторые сообщения у них получается интерпретировать очень чётко и безошибочно, причём зачастую даже удивляешься, как им это удаётся. Однако время от времени они выдают такую дичь, что приходится самостоятельно возвращаться к сообщению и прослушивать его от и до, чтобы понять, о чём пытался сказать собеседник. Это занимает больше времени и очень неудобно. Поэтому ни Voicy, ни VoiceMsgBot назвать панацеей я не могу.
Список полезных сервисов пополняет транскрибирующий «Телеграм»-бот, голосовое аудио в текст получится перевести быстро и точно. Если пользователю неудобно прослушивать сообщения через микрофон, он может трансформировать их в читаемый формат, не прерывая общения.
Содержание
Способы расшифровать голосовые сообщения в «Телеграме»
Боты по озвучке в текст используют технологии распознавания речи сторонних разработчиков. Получив запрос, сервер сначала сканирует содержание файла, а затем конвертирует его в текст. По такому алгоритму работают любые роботы-транскрибаторы.
Качество перевода зависит от того, насколько «чистой» и понятной для распознавания была запись.
В Telegram множество транскрибирующих ботов, таких как VoiceToText, Silero, RealSpeaker и пр. Их функциональные возможности идентичны: поддержка иностранных языков, пересылка текста отправителю. Некоторые из них предполагают ограниченное использование. Лимит на длину аудио в 60 секунд имеется у большинства бесплатных роботов. Общее ограничение по размеру файла в 20 Мб устанавливает сам «Телеграм».
Чтобы найти оптимальный способ расшифровать запись, потребуется немало времени. Поэтому я сразу расскажу о бесплатных рабочих вариантах.
Боты для перевода голоса в текст
Для постоянного пользования рекомендую 2 проверенных сервиса, поддерживающих несколько иностранных языков для распознавания. Качество транскрибации на уровне, однако сообщения не форматируются. Текст не разбивается на предложения, а отдельные его части не разделяются запятыми. Разобрать голосовое сообщение при частых несвязных отступлениях иногда сложно.
Тем не менее представленные ниже роботы справляются с транскрибацией быстрее остальных, а точность набранных сообщений близка к оптимальной.
Voicy
«Войси-бот» – грамотный транскрибатор, умеющий переводить не только голосовые заметки, но и музыкальные треки различных форматов (OGG, FLAC, WAV, MP3).
Инструкция:
- В поисковой строке мессенджера наберите @voicybot.
- Запустите бота, нажав Start.
- Кликните по ссылке Engine, чтобы выбрать сервис транскрибации.
- Установите язык по линку Language.
- Отправьте голосовую запись.
- Дождитесь ответа.
Бот работает по 4 алгоритмам различных сервисов по распознаванию речи. Для наиболее точного результата пользователь самостоятельно выбирает один из 2 бесплатных «движков».
Варианты:
- Nanosemantics.
- Wit.ai.
- Google Speech.
- Platinum Fund.
«Движки» отображены по приоритетности. Первые 2 – бесплатные. Nanosemantics – быстрый и точный, не требует дополнительных настроек. Wit.ai используется по умолчанию, предполагает ограничение на длину записи больше 50 секунд.
2 последних «движка» – платные и безлимитные. Соответственно, перевод у них будет точнее.
Transcriber bot
Бот работает на базе неизвестной платформы, однако востребован пользователями из более 20 стран. Для настройки @transcriber_bot достаточно указать язык (Russian). Бот умеет транскрибировать звуки и изображения. Для отправки файла воспользуйтесь опцией «Переслать» или нажмите на скрепку.
Робот выводит сообщение по мере считывания. Как только загрузите файл в «Телеграм»-бот, голосовое аудио в текст будет постепенно переводиться онлайн.
Возможные проблемы и сложности
Роботы распознают речь по различным алгоритмам. Качество перевода будет зависеть от исходника в первую очередь. Неточности появляются при чтении с акцентом или ошибками, фоновом звучании в момент паузы. В результате смысловая нагрузка фразы изменяется.
Распространенная проблема – идентификация аббревиатур и отдельных букв. Алгоритмы могут определить незнакомые сокращения как похожие по звучанию слова и фразы. В результате предложение утрачивает целостность, читателю приходится возвращаться к его началу для поиска сути.
Боты, переводящие звук в текст, используются для чтения голосовых посланий, а также для начитки важных заметок. Чтобы преобразовать записанную речь в сообщение, достаточно переслать боту оригинальное аудио. В Telegram для этих целей чаще используют бесплатные сервисы Voicy и Transcriber.
Обзор
В этой статье я разберу очень простой способ перевести голосовое сообщение сразу в не форматированный текст. Это мега классный функционал работает внутри Telegram, который мы сейчас разберём.
Данный способ очень удобен если у вас нет возможности прослушать сообщение, например вы заняты, находитесь в общественном месте, не хотите беспокоить окружающих или просто не хотите чтобы кто то ещё кроме вас услышал голосовое сообщение, которое адресовано только вам. Из любых ваших голосовых заметок в избранном или из любых голосовых сообщений в личку вы с лёгкостью практически моментально можете преобразовать голосовые сообщения в текстовые.
Перевод голосового сообщения в текстовое сообщение мы будем делать с помощью Telegram бота: https://t.me/voicybot или в поиске Telegram ищите @voicybot.
Данного бота создал Никита Колмогоров наполовину разработчик, наполовину предприниматель. Как он говорит: «Если я могу построить что — то быстрое и эффективное, я строю это сам-если я не могу (независимо от того, не нахожусь ли я на правильном уровне знаний или просто не имею времени) Я делегирую задачи своему доверенному списку подрядчиков». Подробную информацию о Никите смотрите на его сайте: https://borodutch.com Его Telegram канал: Золото Бородоча https://t.me/golden_borodutch.
Voicy — это Telegram бот, который преобразует речь в текст из любых голосовых сообщений и аудиофайлов, которые он получает. Бот поддерживает более 100 языков и работает с нейронными сетями распознавания речи Wit или Google.
Voicy в настоящее время установлен на 1 808 940 чатов, распознано 50 421 850 голосовых сообщений, что приводит к 21,74 годам речи.
У него есть и другие замечательные Telegram боты которые помогают решать те или иные проблемы, пару популярных ботов вы найдёте ниже, основной список ботов вы найдёте на сайте автора.
Shieldy — Антиспам Telegram-бот, который останавливает 99,99% назойливых спамеров, прося пользователей пройти через очень простой процесс, похожий на капчу, и ограничивая новичков только возможностью отправлять текст (без медиа). Совершенно бесплатно и с открытым исходным кодом. Ссылка на бота: https://t.me/shieldy_bot
Рэнди Марш — Telegram bot, который позволяет администраторам каналов и групп проводить розыгрыши призов среди участников чата или подписчиков канала. Совершенно бесплатно и с открытым исходным кодом. Ссылка на бота: https://t.me/randymbot
К сожалению, Телеграм ограничивает максимальный размер доступных для ботов файлов до 20 мегабайт, помните об этом ограничении когда отправляете на перевод ваш аудио файл.
Как работает Voicy бот?
Google Speech — это более продвинутый движок распознавания речи. После того, как Войси получает ваш файл, он загружает его в Google Cloud Storage, распознает при помощи Google Speech, а после удаляет файл с Google Cloud Storage и пересылает вам готовый текст. Инструмент Google Speech не бесплатный, цены на распознавание речи указаны в их справке.
Итак для того, чтобы перевести голосовые сообщения в текстовые внутри Телеграм мы используем бота @voicybot. В использовании бот очень прост. После первого запуска, вам нужно выбрать язык на котором вы переводите голос в текст, здесь вы будите удивлены более 100 языков в списке. После того как выбрали язык пересылаете боту аудио, а он распознаёт речь и в ответ после обработки присылает вам готовый текст.
Теперь вы можете прочитать, скопировать, отформатировать этот текст. Я например делаю себе голосовые заметки в разделе избранное в Telegram, надиктовываю в дороге мысли, идеи, придумываю заголовки к постам, а потом пересылаю боту, а он переводит мне всё в текст.
ДА!!! Данного бота можно добавить в общую или закрытую Telegram группу (чат группа) как администратора, установить ему язык перевода и он будет автоматически сразу моментально переводить все голосовые сообщения в текстовые.
Подробный видео урок по настройке Voicybot смотрите ниже.
Если вам не достаточно перевода голосовых сообщений внутри Telegram в текст, то рекомендую ознакомиться с видео курсами ниже.
3 мини видео курсы по обработке текста, картинок и видео.
Современная жизнь, это общение через интернет, а это заставляет изучать вас как быстро набрать текст, как сделать классную картинку в редакторе, скомпоновать видео клип и др.
Но вот беда, можно с головой погрузиться и потратить всё время побеждая самостоятельно технические трудности, а можно использовать простых помощников внутри компьютера и простые программы и сервисы которые сэкономят вам время в 2-5 раз.
Научим вас тратить в 2-5 раз времени меньше на набор текста, обработку картинок и создание видео с помощью технологий.
Обучающий курс из 3 модулей поможет вам мега быстро со скоростью речи печатать текст на любых языках, создавать красивые заставки без знаний программы Photoshop и монтировать простые видео для любых ваших целей.
А вы знали, что текст можно не печатать руками, он сам наберётся под диктовку голосом?
А вы знали, что создать крутой рекламный плакат, баннер, визитку можно всего за один вечер?
Записи мини видео курсов, дополнительные мануалы, pdf, ссылки на сервисы доступны в закрытой зоне на специальном сайте. Всё по делу сухая практика и реальные примеры.
Перейти на сайт узнать подробнее =>> https://aleksnovikov.ru/k/12
Жду ваших комментариев и обратную связь, для этого вы найдёте форму ниже. Укажите каких уроков и мануалов вам не хватает, что разобрать, предложите свою идею! Обратите также, внимание на кнопки в сайтбаре, там вы найдёте ссылки на мои социальные сети.
Для загрузки видео любого объема. Просто отправь боту ссылку на нужное видео и выбери качество. Кстати, с помощью бота можно загрузить также аудиодорожку видео.
Скачать видео из TikTok
@ttsavebot
Без водяного знака!
Скачать фото и видео из Instagram
@SaveAsBot
Для фото и видео любого объема (автоматически бот высылает еще и текст поста). Правда, если видео весит больше 50 Мб, бот пришлет внешнюю ссылку для скачивания, а не отправит файл в чат.
Перевести аудио в текст
@voicybot
Для тех, кто не хочет или не может слушать голосовые. Отправь аудио боту, а он переведет его в текстовый формат.
Записать телефонный разговор
@PhoneRecordBot
Как говорится, на случай важных переговоров.
Проверить грамотность
@SpellBot
Этот бот умеет исправлять орфографические ошибки и простейшие ошибки пунктуации, убирает повторяющиеся слова, а еще подсчитывает количество слов и символов в тексте с пробелами и без.
Распознать текст на фото
@scannertext_bot
Чтобы не перепечатывать текст с фото или скриншота. Важно: этот бот распознает только печатный текст!
Подобрать фильм или сериал под настроение
@kinomanbot
Выбери категорию «Популярное» или включи фильтрацию по жанрам, и бот подберет для тебя целый топ фильмов или сериалов на выбор. Здесь же, кстати, можно прочитать описание.
Узнать погоду
@WeathersBot
Сколько градусов сейчас, сколько будет завтра, через пять дней или 10? Спроси у бота!
Преобразовать видео в Gif
@vgifbot
Достаточно отправить видео или ссылку на него (бот поддерживает контент из Telegram и Instagram) в чат.
Сделать мем со своим текстом
@memingbot
Использовать его просто: после запуска бота введи @memingbot в любом диалоге, а после напечатай текст, который хочешь использовать для мема. В появившемся выше окошке останется только выбрать подходящую картинку. Если запутаешься, на канале всегда доступна понятная видеоинструкция.
Выучить английский язык
@AndyRobot
Твой идеальный друг по переписке для изучения английского языка. С роботом Энди можно разговаривать, учить новые слова, грамматику или играть.
Читай также
Что о тебе говорит твое поведение в социальных сетях?
16 лайфхаков Telegram: отложенные сообщения, самоуничтожающиеся файлы, режим невидимки и другие полезные функции
Новый лайфхак для Telegram: как поставить на звук уведомлений голосовое сообщение?
Купить рекламу Проверь себя Тест: как хорошо ты помнишь «Голодные игры» Рекомендуем Функции, о которых ты не знал: как с помощью мессенджеров сделать общение легче и веселее? 26 июля Топ лучших каналов в Telegram, на которые стоит подписаться прямо сейчас: мода, гороскопы, образование, светские сплетни и не только 19 августа Web3 – новый тренд в технологиях после NFT и криптовалюты. Как заработать на «Интернете будущего»? 08 августа
ли со статьей или есть что добавить?