Simple Subtitling ist ein Open-Source-Tool zur Erzeugung von Audio-Untertiteln, das sich auf die automatische Erzeugung von Untertiteln und die Kennzeichnung von Sprechern für Video- oder Audiodateien konzentriert. Das von Jaesung Huh entwickelte Projekt, das auf GitHub gehostet wird, zielt darauf ab, eine einfache und effiziente Lösung zur Erzeugung von Untertiteln zu bieten. Werkzeuge durch die Audioverarbeitungstechnologie .....
Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um natürliche und flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, wodurch es sich für Hörbücher, Videosynchronisationen oder Lernhilfen eignet. Benutzer können wählen...
Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf das Verstehen, die Erzeugung und den Dialog von Audio konzentriert. Es unterstützt eine breite Palette von Audio-Verarbeitung Aufgaben wie Spracherkennung, Audio-Q&A, und Sprache Emotion Anerkennung. Das Modell wurde mit über 13 Millionen Stunden Audiodaten vortrainiert, kombiniert mit innovativen...
On-Device AI ist eine KI-App, die komplett offline läuft und für Apple-Geräte entwickelt wurde, die iOS, macOS und visionOS unterstützen. Sie bietet ein lokales Large-Scale Language Model (LLM), Sprachtranskription in Echtzeit, Dokumentenanalyse usw. und kann ohne Internetverbindung verwendet werden, um den Datenschutz zu gewährleisten. Benutzer können Sprache...
Vexa ist eine Open-Source-Plattform für die Echtzeit-Transkription von Meetings und das Wissensmanagement, die effiziente Meeting-Aufzeichnungen und intelligente Wissensextraktionsdienste für Unternehmen und Privatpersonen bietet. Es verbindet sich automatisch mit Google Meet, Zoom und anderen Plattformen durch API-gesteuerte Meeting-Roboter, transkribiert Sprache in Text in Echtzeit und unterstützt 99 Arten von...
realtime-transcription-fastrtc ist ein Open-Source-Projekt, das sich auf die Umwandlung von Sprache in Text in Echtzeit konzentriert. Es nutzt die FastRTC-Technologie, um Audioströme mit geringer Latenz zu verarbeiten, kombiniert mit nativen Whisper-Modellen für eine effiziente Spracherkennung. Das Projekt wird von dem Entwickler sofi444 betreut, der...
Transkriptor ist ein KI-gesteuertes Transkriptionstool, das sich auf die schnelle Umwandlung von Audio und Video in Text konzentriert. Es unterstützt über 100 Sprachen mit einer Genauigkeitsrate von bis zu 99% und eignet sich für eine Vielzahl von Szenarien wie Meetings, Interviews, Notizen im Klassenzimmer und mehr. Benutzer können Dateien hochladen, direkt aufzeichnen oder über Links zu Zoom, Go...
Otter.ai ist ein KI-gestütztes Meeting-Management- und Sprachtranskriptionstool mit der Kernfunktionalität, Sprache in Echtzeit in Text umzuwandeln und automatisch Meeting-Notizen, Zusammenfassungen und Aktionspunkte zu erstellen. Otter.ai wird von einem intelligenten KI-Meeting-Agenten angetrieben, der automatisch an Meetings wie Zoom, Google Meet usw. teilnimmt und die...
TurboScribe ist ein KI-basiertes Transkriptionswerkzeug, das sich auf die schnelle Umwandlung von Audio und Video in Text konzentriert. Es unterstützt mehr als 98 Sprachen mit einer Genauigkeitsrate von 99,8% für Benutzer, die Sprachinhalte effizient verarbeiten müssen. Benutzer können Dateien hochladen, um Transkripte oder Untertitel zu generieren, die einfach zu bedienen sind und schnell...
Aqua Voice ist ein intelligentes sprachbasiertes Texterstellungswerkzeug, das sich auf die schnelle Umwandlung von Benutzersprache in formatierten Text konzentriert. Es wurde 2023 von Finnian Brown und Jack McIntire gegründet, hat seinen Sitz in San Francisco, USA, und ist Teil von Y Combinator W24 ...
Dolphin ist ein Open-Source-Modell, das von DataoceanAI in Zusammenarbeit mit der Tsinghua-Universität entwickelt wurde und sich auf Spracherkennung und Spracherkennung für asiatische Sprachen konzentriert. Es unterstützt 40 Sprachen in Ostasien, Südasien, Südostasien und dem Nahen Osten sowie 22 chinesische Dialekte. Das Modell basiert auf über 210.000 Stunden trainierter Audiodaten...
TwinMind ist ein intelligentes Tool, das von ThirdEar AI, Inc. entwickelt wurde und sich "alles für Sie merkt". Es kann Gespräche, Meetings oder Vorlesungen aufzeichnen und in Echtzeit in Text umwandeln, in mehr als 100 Sprachen, und kann offline verwendet werden, auch wenn das Telefon in der Tasche ist. Die Nutzer müssen sich nicht selbst Notizen machen, TwinMind wird...
Wispr Flow ist ein sprachgesteuertes Texteingabetool, das Benutzern hilft, schnell am Computer zu schreiben. Mit einer "3x schneller als Tippen"-Erfahrung können Benutzer Text in jede Anwendung, wie Word, Slack oder Gmail, nur durch natürliches Sprechen eingeben.Wispr Flow unterstützt mehr als 100 Sprachen...
Local-NotebookLM ist ein Open-Source-Projekt, das darauf abzielt, lokal betriebene, intelligente Werkzeuge zur Dokumentenverarbeitung und Inhaltserstellung bereitzustellen. Es ist von Google NotebookLM inspiriert und konzentriert sich darauf, Nutzern dabei zu helfen, PDF- und andere Dokumente in eine Vielzahl von Ausgabeformaten wie Podcasts, Interviews oder Vorlesungen usw. umzuwandeln und dabei die lokale Bereitstellung zu unterstützen ....
AssemblyAI ist eine Plattform, die sich auf Sprach-KI-Technologie konzentriert und Entwicklern und Unternehmen effiziente Sprache-zu-Text- und Audio-Analyse-Tools zur Verfügung stellt. Sein Kern Highlight ist die Universal-Familie von Modellen, insbesondere die neu veröffentlichte Universal-2, die AssemblyAIs fortschrittlichste Sprache-zu-Text...
FireRedASR ist ein Spracherkennungsmodell, das vom Little Red Book FireRed-Team entwickelt wurde und als Open Source zur Verfügung steht. Es konzentriert sich auf die Bereitstellung von hochpräzisen, mehrsprachenunterstützten automatischen Spracherkennungslösungen (ASR). Das Projekt wird auf GitHub für Entwickler und Forscher gehostet, bietet ein industrietaugliches Design und unterstützt Mandarin, chinesische Dialekte,...
WhisperChain ist ein KI-basiertes Open-Source-Projekt, das auf GitHub gehostet und vom Entwickler Chris Choy geleitet wird. Es wird hauptsächlich dazu verwendet, Sprache in Text umzuwandeln und den Ausdruck durch KI-Technologie automatisch zu optimieren, indem redundante umgangssprachliche Wörter (wie "ah", "hmm" und andere Füllwörter) entfernt werden, um den Text zu verbessern ....
LLPlayer ist ein Open-Source-Medienplayer für Sprachschüler, der auf GitHub gehostet und vom Entwickler umlx5h erstellt wurde. Es integriert eine Vielzahl von nützlichen Funktionen, wie z. B. zweisprachige Untertitel-Anzeige, AI automatisch generierte Untertitel, Echtzeit-Übersetzung und Wortsuche, usw. Es zielt darauf ab, Benutzern zu helfen, ihre Sprache zu verbessern, indem sie Videos...
CapsWriter-Offline ist ein Spracheingabe- und Untertitel-Transkriptionstool für PC, das auf GitHub gehostet und vom Entwickler HaujetZhao erstellt wurde. Es läuft komplett offline und benötigt keine Internetverbindung, um Sprache in Text und Audio-/Videodateien in Untertitel umzuwandeln. Es unterstützt unbegrenzte Aufnahmezeit, Chinesisch und Englisch .....