@zblesk I can both read and write in English quite well, it's fine, feel free to ask for a proper translation too!
I was previously using NocoDB as the editor, API and webhook source. But I'll probably cut that down to just the editor and use good ol' SQL for the rest. But I'm working on a very small scale there – a #Rhasspy-based personal voice assistant would be the primary client. So I can get away with a lot of cut corners :blobcatwinktongue:
🗣️ Что-то я уже давно не трогал #Rhasspy.
Выпущена ранняя версия Rhasspy 3, а в ней распознаёт речь уже Whisper (по моделям от OpenAI), а синтезирует Piper. Всё ещё без облаков.
Whisper даже без закрытого словаря показывает впечатляющую точность. Для русского языка, да.
Даже модель tiny-int8 (43Мб), пригодная для Raspberry Pi 4, довольно шустро выдаёт похожий текст. А если чётко произнести, то даже правильный.
А small (968Мб) настолько суров, что даже восстанавливает по паузам пунктуацию, бьёт на предложения и замечает (по интонации?) вопросы!
Я как-то дальнейшее развитие своей говорилки планировал из расчёта на закрытый словарь, но похоже, что он не потребуется, можно сосредоточиться на тексте.
Что до Piper — после Larynx улучшение инкрементальное, но заметное. Голос звучит куда естественнее, фонемы соединяются органичнее.
Всё ещё местами странное ударение и добавились неловкие паузы, но "чтение первого абзаца случайной статьи с Википедии" теперь вызывает куда меньшее недоумение.
Забавная история рядом с #Rhasspy.
Когда-то Kitt AI выпустил Snowboy для улавливания ключевых слов в звуковом потоке — что как раз нужно для активации голосового помощника.
В духе проприетарщины, к сожалению, они предоставляли только несколько "универсальных" моделей, а персональные тренировали исключительно у себя в веб-консоли, и полученные оттуда модели работали по 30 дней ( :blobcatangery: ), после чего должны были быть натренированы заново.
Но что-то у них пошло не так и в декабре 2020 они свои сервисы повыключали, но оставили на гитхабе код. Что именно произошло дальше, я несколько теряюсь, но Seasalt AI довольно оперативно сделали для него генерацию персональных моделей без срока годности.
А Майк, автор Rhasspy, некоторое время спустя собрал из трудов Seasalt AI генератор моделей, который записывает образцы слова в браузере, обрезает, тренирует модель и отдаёт на скачивание:
https://github.com/rhasspy/snowboy-seasalt
Благодаря всему этому, наконец-то, у моего помощника есть собственное имя.
Я всё-таки пошёл копать, как устроен голос Larynx в #Rhasspy, с целью избавиться от странной аномалии, которая меня уже много месяцев донимает: произношения "шесть" как [шос].
Оказалось, что косяк случается ещё до того, как в дело вступает какой-либо машинлёрнинг. Там тупо в словаре для слова "шесть" были фонемы "ʂ oː s tʲ". Почему и откуда, вопрос тоже интересный, но для другого раза.
А что случается это *до* машинлёрнинга это *очень* хорошая новость — благодаря этому изменение несложно сделать руками в уже собранном и установленном языковом профиле, ничего тренировать не надо.
Больше никакого "шос градусов"!
Теперь затолкать бы эту правку в проект: https://github.com/rhasspy/gruut/issues/36
🗣️ Незадолго до того, как остаться без работы, я готовил для нашего корпоративного мероприятия свой рассказ о том, как я сталкивался с разным голосовым управлением, как меня это в итоге привело к #Rhasspy и что надо бы делать дальше.
А поскольку в задуманном ранее виде материал уже явно не увидит свет, а терять его жалко, я адаптировал его для блога.
«Программист с помощью нейросетей создал себе девушку»
(Продолжение темы с #РегулярныеВыражения
https://naked-science.ru/community/538315 )
…а ведь я с #Rhasspy (локальным голосовым помощником) двигался в ту же сторону. Просто те составные части, что использовал Брайс, пока ещё локально попросту не запустить, а жёстких внешних зависимостей я у себя в системе сознательно избегаю.
Я подхожу больше с прагматической стороны — напоминания о делах по дому, сводки на день и другая подобная информационная рутина.
И в отличие от Брайса, я сам с усам и останавливать меня некому, ы-ы-ы-ыхы-хы-хы-хы :blobfoxfloofdevil:
@arnoudwokke en oh ja: google home / alexa vervangen met #HomeAssistent & #Rhasspy spraakaansturing natuurlijk. Zou leuk zijn als #Tweakers daar een flink artikel aan zou kunnen wijden.
#tweakers #Rhasspy #homeassistent
@chonar
What kind of hardware do you use to interact? I guess you need some sort of microphone (obviously), but it needs to look nice to fit into your living room.
A comm badge would be the best solution, I guess 😉. #HomeAssistant #Rhasspy
@homeassistant
@rara верно, #Rhasspy.
Микрофон – тупо недорогая веб-камера. Logitech C310, кажется.
Я брал массив микрофонов Respeaker для Raspberry Pi для этой цели даже, но его драйвер оказался с такими лютыми приколами, что я потерялся, разгребая их, и так его и не задействовал.
Вернулся к Rhasspy ≈полгода спустя и уже с машинкой на x86_64 (Respeaker там воткнуть некуда) и запустил с тем, что первым попалось под руку. Но это сработало настолько хорошо, что я уже больше года железо не трогаю.
В списке дел валяется мысль сделать из малинки и респикера говорилку-сателлит (тупо голосовой передатчик в обе стороны, подключенный к основному узлу для обработки), но до этого когда ещё дойдёт…
(Edit: а, поправочка – на Respeaker я пытался настроить ещё не Rhasspy, а ныне почивший Snips. У кого на гитхабе был прекрасный слоган "We make technology disappear".)
"This is why we can't have nice things" and why open solutions like #Rhasspy are absolutely necessary to eventually embrace the full potential of #voice control.
From docs on #Kanzi, an #Alexa skill for #Kodi
https://lexigr.am/docs/why.html#why-can-t-i-install-these-from-the-alexa-app
#kodi #alexa #kanzi #voice #Rhasspy
Майкл Хэнсен, автор #Rhasspy, оказывается, теперь работает в Nabu Casa — это компания, основанная ядром разработчиков #HomeAssistant для развития открытых систем умного дома вокруг HA и будет помогать компании сделать 2023 "Годом Голоса".
Для контекста, ещё не так давно он работал над Mycroft, тоже голосовым ассистентом, тоже в основном открытым, но частично облачным.
Это всё происходит на фоне недавнего сокращения команды Alexa в Amazon.
Источник: https://community.rhasspy.org/t/rhasspy-is-joining-nabu-casa/4007
@vas3k отличный пост!
У меня с Xiaomi получше сложилось, уже года 4 всё живо. Бесит только неимоверно, что они в рамках бренда для устройств сопоставимых размеров не смогли договориться о размерах батареек. Где-то CR2032, где-то CR2450, где-то ещё какая-то блажь, но это забота около раза в год и обычно крошечная — кроме случаев, когда запас батареек надо пополнить.
Но вместо дэшборда у меня гвоздь системы — локальный голосовой помощник. Всё по заветам DIY, немного корявенький, но свой, и если чего-то не хватает, быстро подкручивается — общается и с Nextcloud, и с Home Assistant, и вообще со всем на что хватит терпения. Рассказывал у себя с тегом #Rhasspy. Пушечная вещь, рекомендую.
Welcome @rhasspy 👋🤖. #Rhasspy the #opensource #voiceassitant can be found on #Mastodon as well now. Hoping to build some great, open #voicetech together 😃 #STT #TTS #robots #raspberrypi #smarthome #homeasistant
#homeasistant #smarthome #raspberrypi #robots #TTS #stt #voicetech #mastodon #voiceassitant #opensource #Rhasspy
@TechNews ... or you can build a #DIY #privacy respecting, #cloudfree #opensource #smartspeaker with @sepia or @mycroft_ai or #Rhasspy for example 😉
#Rhasspy #smartspeaker #opensource #cloudfree #privacy #diy
@ivan #NodeRED, однозначно. Очень простая для понимания модель на базе сообщений, завёрнутая в приличный интерфейс, в котором можно начинать с простого и постепенно дойти до JS.
У меня голосовой помощник на #Rhasspy обрабатывает с его помощью команды, и JS мне до сих пор не потребовался, хотя видов команд уже пара десятков.
На глаза ещё попадался n8n, но по-моему он ориентирован на использование в компаниях, что отражается на ассортименте доступных для него узлов. У NodeRED ассортимент пошире на несколько порядков.
@devlight70 с #Rhasspy это, надо сказать, совсем несложно: https://rhasspy.readthedocs.io/en/latest/
Мой вообще на NodeRED без единой строчки собственного кода работает.
🎤 Хроники #Rhasspy
Ну, успех. Теперь вместе с #NocoDB и #NodeRED мой голосовой помощник понимает фразы вида:
"Где $предмет?" (и отвечать!)
"$предмет теперь $где" (и записывать!)
Список предметов и мест приходится пока поддерживать прямо из морды NocoDB, поскольку свободный голосовой ввод (заранее неизвестных слов) работает так себе, но даже возможность напоминать себе, где лежат определённые редко используемые вещи, а также "перекладывать" их в системе учёта без экранов – это удобно.
🎤 Хроники #Rhasspy
Давно не было обновлений. События как-то не располагали. Продолжил делать домашнюю инвентаризацию.
1. Баг, с которым я столкнулся в 📃 #NocoDB, оказался не совсем багом и 11 дней назад кто-то это всё-таки зарепортил: https://github.com/nocodb/nocodb/issues/1421 Поведение сомнительное, ну да ладно. Говорят, улучшат.
2. 📃 #Baserow обзавёлся официальным способом запуска через 🐳 #Docker Compose, довольно монструозным, но подробным, модульным и гибким. Похож на подход Funkwhale.
Так что я его запустил пощупать. Приятно, что изменения вещает в реалтайме: изменения появляются у других пользователей немедленно.
Но его лицензионная модель это что-то с чем-то. Значительная часть фич, в т. ч. принципиальных для использования во внутренней сети (ручное создание пользователей, например), заперта на подписку в $5/мес/лицо. Серьёзно?
Поскольку код открыт и на Python, обойти это не составит большого труда, но поскольку живое отображение мне не особо надо, я скорее просто не буду его использовать. 🤷♀️
#docker #Baserow #NocoDB #Rhasspy
🎤 #Rhasspy #NodeRED
Новая команда: "Расскажи анекдот". Реализация элементарная, но не безмозглая:
- GET https://www.anekdot.ru/random/anekdot/ (иногда даже смешно!)
- HTML-узел на селектор .text.desktop, выдать массив текстов
- Взять из массива первый элемент
- Если анекдот длинный (длину буду подбирать) — сказать "Сейчас", потому что преобразование в речь может задержаться
- Отправить анекдот ответом