@MrClicko #Whisper wurde mit fast 700'000 Stunden #Sprache trainiert.
Das sind über 77 Jahre Geplapper!
⅔ dieser 681'070 Stunden waren #Englisch; #Deutsch nur 2% (#transkribiert nach (Hoch-)Deutsch)+½% (#übersetzt nach Englisch). Ob davon etwas CH-Deutsch war, ist nicht überliefert. Erstaunlich, dass trotz des wenigen Inputs das Modell in Deutsch doch sehr gut und auch in CH-Deutsch noch OK abschneidet. #STT #SpeechToText
https://arxiv.org/abs/2212.04356
#Whisper #sprache #englisch #deutsch #transkribiert #ubersetzt #stt #speechtotext
Diese Woche hat @MrClicko einen Blogpost publiziert, in dem er sich #Whisper auf Züritütsch genauer annimmt. Die Transkription nach Hochdeutsch ist überraschend gut, wenn auch nicht perfekt, wie er schreibt.
Möglicherweise wurde Whisper gar nicht mit CH-deutschen Input trainiert, zumindest fand ich in der Dokumentation nichts darüber. Dann wäre die Erkennungsqualität noch viel erstaunlicher! Aber auch so ist sie bereits faszinierend.
https://blog.clickomania.ch/2023/01/17/whisper-spracherkennung/
Ich durfte im Oktober an einer #LunarRing-Demo Schweizerdeutsch in eine Pipeline von #Whisper und #StableDiffusion füttern und war begeistert.
Trotz altem Telefon als Inputdevice und vereinfachten Modellen hat mich das Erlebnis "hinde use ghaue". (Insbesondere StableDiffusion nutzte nur wenige Iterationen, damit es lokal auf dem Rechner laufen konnte, was sich auf die Korrektheit des rechten Bildes auswirkte).
Cc @MrClicko https://waldvogel.family/@marcel/109597794060066355
#lunarring #Whisper #stablediffusion
Am #ETH #AI+X Summit vor ein paar Wochen gab es eine Kunstinstallation, wo man seinen Wunsch in ein altes Wahlscheibentelefon sprechen durfte und dann aus diesem Text (via #Whisper) und dem aufgenommenen Bild (via #StableDiffusion) dieser Wunsch "verwirklicht" wurde.
Hier was aus meinem schweizerdeutschen "Ich wäri gärn än Trammschofför" wurde (via Englisch!).
PS: @bleeptrack: Weisst du noch, wer diese Installation gemacht hatte? Kann eure Ecke im Programm nicht finden. #DigitalArt
#eth #ai #Whisper #stablediffusion #DigitalArt
@Canniuanos Whisper erchännt Schwyzertüütsch choge guet, au gmischt mit Wörter vu ännet äm Röschtigrabe innere lärmigä Umgäbig. Het mi vum Hocker ghaue.
Das isch dä Output vu "Ich wäri gärn an Tramschofför". Mer beachti de änglischi #Prompt wo #Whisper druus erzüügt het. Geil, ey, gopf! (In Echtzyt ufem Rächner diräkt dänäbät.)