
Member Content
Wenn wir über Sprach-KI sprechen, denken die meisten sofort an Cloud-Dienste: Aufnahme wird hochgeladen, kurz warten, Ergebnis kommt zurück als block oder stream. Für viele Teams ist das inzwischen zwar „funktional“, aber es fühlt sich trotzdem nach einem Kompromiss an: Datenschutz, Kosten, Abhängigkeit von Dritten – und oft eine gewisse Reibung im Alltag.
Genau deshalb hat mich das Projekt Handy.computer neugierig gemacht.
Als ich zum ersten Mal von Handy.computer gelesen habe, war ich ehrlich gesagt ziemlich skeptisch. Die Frage war für mich nicht „funktioniert das?“, sondern: Wie gut können lokale Sprachmodelle schon wirklich sein? Erkennungsraten, Tempo, Umgang mit Fachbegriffen, seltenen Worten… all das ist in meinen Augen im Alltag für die Nutzung entscheidend.
Aber ich hab’s trotzdem installiert – weil die Idee so verlockend war:
Nebenbei: mich hat es auch technisch gereizt. Wie weit ist Sprach-KI heute wirklich schon? Nicht auf dem Papier – sondern in der Praxis.
Und dann kam der Moment, wo man unweigerlich nur noch sagen kann: WOW.
Bei mir wurde praktisch jedes Wort sauber übernommen – auch eher seltene Begriffe . Und das Timing: Die Transkription ist annähernd instant .
Was mich besonders überzeugt hat: Deutsch und Englisch funktionieren bei mir problemlos , ohne dass ich irgendwas extra einstellen musste.
Auf dem Mac ist der Einstieg wirklich simpel:
Option + Leertaste drücken, sprechen – und Handy.computer schreibt den Text direkt in dein aktuelles Eingabefeld. (Unter Windows und Linux geht das Setup ebenfalls ähnlich.)
Mit den richtigen Berechtigungen kann es sogar den Text wie mit einer Tastatur direkt am Cursor einfügen – also genau dort, wo man gerade schreibt. Wenn man schon mal mit Whisper Flow gearbeitet hat, fühlt sich das schnell „ähnlich“ an, nur eben lokaler.
Timo hatte ja schon berichtet: Viele Mitarbeitende bei DECAID nutzen inzwischen überwiegend Sprache statt Tippen – weil es schneller und oft auch einfacher ist.
Bisher lief dafür bei uns viel über Whisper Flow . Als wir dann aber über Handy.computer gestolpert sind, haben einige im Team ziemlich schnell umgestellt – einfach weil die lokale Lösung in der Praxis überzeugend war.
Und die Gründe sind ziemlich klar:
Ich nutze aktuell Parakeet V3 (NVIDIA) . Das läuft bei mir wirklich sehr gut.
Was mich auch beruhigt: Das Modell ist nicht riesig (ca. 500 MB ). In meinem Activity Monitor konnte ich beim Transkribieren kaum einen „Sprung“ sehen – es scheint also ressourcenschonend zu laufen.
Außerdem wichtig für das eigene Gefühl von Kontrolle:
Und ja: auch auf GitHub ist das Projekt inzwischen gut sichtbar – über 20k Sterne .
Da das Modell unter der relativ freien CC BY 4.0 license läuft, darf es ebenfalls kommerziell eingesetzt werden.
Nicht alles ist perfekt – aber das meiste ist in der Praxis eher „Workarounds“ als echte Blocker:
Ich bin wirklich begeistert, was lokale und Open Source KI heute schon leisten kann.
Und das Spannende ist nicht nur die Technik (Erkennung, Tempo, Qualität), sondern die Kombination aus Perspektiven:
Für mich ist das gerade genau der Punkt, an dem Sprach-KI aus „cooler Spielerei“ zu „echtem Werkzeug“ wird.
Ich bin begeistert 🚀


0 Comments
Login or Register to Join the Conversation
Create an AccountLog in