Artikel

Member Content

Handy.computer: Local & Open Source Transkription direkt auf deinem Laptop

Wenn wir über Sprach-KI sprechen, denken die meisten sofort an Cloud-Dienste: Aufnahme wird hochgeladen, kurz warten, Ergebnis kommt zurück als block oder stream. Für viele Teams ist das inzwischen zwar „funktional“, aber es fühlt sich trotzdem nach einem Kompromiss an: Datenschutz, Kosten, Abhängigkeit von Dritten – und oft eine gewisse Reibung im Alltag.

Genau deshalb hat mich das Projekt Handy.computer neugierig gemacht.

Mein Einstieg: erst skeptisch, dann WOW

Als ich zum ersten Mal von Handy.computer gelesen habe, war ich ehrlich gesagt ziemlich skeptisch. Die Frage war für mich nicht „funktioniert das?“, sondern: Wie gut können lokale Sprachmodelle schon wirklich sein? Erkennungsraten, Tempo, Umgang mit Fachbegriffen, seltenen Worten… all das ist in meinen Augen im Alltag für die Nutzung entscheidend.

Aber ich hab’s trotzdem installiert – weil die Idee so verlockend war:

Keine Daten verlassen den Rechner (lokal läuft alles)
Kostenlos und Open Source (FOSS) als Grundprinzip
und aus Datenschutz-Perspektive ist das einfach nochmal ein ganz anderer Mindset: Bei Sprachtranskriptionen steckt ja oft eine Menge Inhalt drin, den man wirklich nicht unbedingt „irgendwohin“ schicken will.

Nebenbei: mich hat es auch technisch gereizt. Wie weit ist Sprach-KI heute wirklich schon? Nicht auf dem Papier – sondern in der Praxis.

Das Ergebnis: fast jede Silbe sitzt

Und dann kam der Moment, wo man unweigerlich nur noch sagen kann: WOW.

Bei mir wurde praktisch jedes Wort sauber übernommen – auch eher seltene Begriffe . Und das Timing: Die Transkription ist annähernd instant .

Was mich besonders überzeugt hat: Deutsch und Englisch funktionieren bei mir problemlos , ohne dass ich irgendwas extra einstellen musste.

Wie ich es nutze

Auf dem Mac ist der Einstieg wirklich simpel:

Option + Leertaste drücken, sprechen – und Handy.computer schreibt den Text direkt in dein aktuelles Eingabefeld. (Unter Windows und Linux geht das Setup ebenfalls ähnlich.)

Mit den richtigen Berechtigungen kann es sogar den Text wie mit einer Tastatur direkt am Cursor einfügen – also genau dort, wo man gerade schreibt. Wenn man schon mal mit Whisper Flow gearbeitet hat, fühlt sich das schnell „ähnlich“ an, nur eben lokaler.

Cloud vs Local in der Praxis: warum viele bei DECAID gewechselt sind

Timo hatte ja schon berichtet: Viele Mitarbeitende bei DECAID nutzen inzwischen überwiegend Sprache statt Tippen – weil es schneller und oft auch einfacher ist.

Bisher lief dafür bei uns viel über Whisper Flow . Als wir dann aber über Handy.computer gestolpert sind, haben einige im Team ziemlich schnell umgestellt – einfach weil die lokale Lösung in der Praxis überzeugend war.

Und die Gründe sind ziemlich klar:

kostenlos
lokal, damit auch datenschutzfreundlicher
gute Erkennung
offline und ohne laufende Abhängigkeit von Cloud-Backends die ja bekannterweise gerne mal down sind

Technisch kurz eingeordnet: Modell, Größe, Performance

Ich nutze aktuell Parakeet V3 (NVIDIA) . Das läuft bei mir wirklich sehr gut.

Was mich auch beruhigt: Das Modell ist nicht riesig (ca. 500 MB ). In meinem Activity Monitor konnte ich beim Transkribieren kaum einen „Sprung“ sehen – es scheint also ressourcenschonend zu laufen.

Außerdem wichtig für das eigene Gefühl von Kontrolle:

Die Sprachaufzeichnungen werden zwischengespeichert und dann schrittweise gelöscht .
Man kann ein History Limit auf 0 setzen, dann werden die Daten direkt nach der Transkription gelöscht (wenn man das will).

Und ja: auch auf GitHub ist das Projekt inzwischen gut sichtbar – über 20k Sterne .

Da das Modell unter der relativ freien CC BY 4.0 license läuft, darf es ebenfalls kommerziell eingesetzt werden.

Kleine Einschränkungen

Nicht alles ist perfekt – aber das meiste ist in der Praxis eher „Workarounds“ als echte Blocker:

Aktuell nur auf Computer/Laptop , nicht auf dem Smartphone.
Schneidet Füllwörter wie z.b. „ähm“ nicht automatisch raus.
Manchmal muss man 1–2 Sekunden warten , bis die Transkription startet. (Laut Version-Status ist handy aktuell allerdings noch bei 0.8.x – also eher etwas, das sich mit Updates verbessern dürfte.)

Mein Take Away: Lokale KI ist nicht mehr „Demo“, sondern Alltag

Ich bin wirklich begeistert, was lokale und Open Source KI heute schon leisten kann.

Und das Spannende ist nicht nur die Technik (Erkennung, Tempo, Qualität), sondern die Kombination aus Perspektiven:

Datenschutz
Unabhängigkeit
Open-Source-Ökosystem
und ein Gefühl von „Ich behalte die Kontrolle über den Stack“

Für mich ist das gerade genau der Punkt, an dem Sprach-KI aus „cooler Spielerei“ zu „echtem Werkzeug“ wird.

Ich bin begeistert 🚀

Melde dich an um diese Masterclass zu schauen

0 Comments

Active Here: 0

My Profile Image

Logout Edit Profile

Write a New Comment

Login or Register to Join the Conversation

Create an Account Log in

Be the first to leave a comment.

Someone is typing...

No Name

Set

Moderator

4 years ago

Confirm Delete

Delete

Edit

Your comment will appear once approved by a moderator.

This is the actual comment. It's can be long or short. And must contain only text information.

(Edited)

2 Replies

No Name

Set

Moderator

2 years ago

Delete Forever

Delete

Edit

Your comment will appear once approved by a moderator.

This is the actual comment. It's can be long or short. And must contain only text information.

(Edited)

Load More Replies

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.

Load More Comments

Simon Sommer

Head of DECAID Community

Simon ist ein Innovationsenthusiast, der in verschiedenen Rollen als Gründer und C-Level Executive digitale Geschäftsmodelle von der Idee bis zur Skalierung begleitet. In seiner aktiven Rolle in der Tech- und Startup-Szene, fördert er den Austausch über Zukunftsthemen wie KI und Circular Economy. Durch DISO ventures unterstützt er als Venture Architekt Unternehmen dabei, innovative Projekte umzusetzen und nachhaltig am Markt zu etablieren.

Nächstes Webinar: