RealtimeVoiceChat
RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Echtzeitgespräche mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden das Mikrofon zur Spracheingabe, das System nimmt das Audio über den Browser auf, wandelt es schnell in Text um, generiert eine Antwort aus einem großen Sprachmodell (LLM) und wandelt dann den Text in Sprachausgabe um, das Ganze...
Transkriptor
Transkriptor ist ein KI-gesteuertes Transkriptionstool, das sich auf die schnelle Umwandlung von Audio und Video in Text konzentriert. Es unterstützt über 100 Sprachen mit einer Genauigkeitsrate von bis zu 99% und eignet sich für eine Vielzahl von Szenarien wie Meetings, Interviews, Notizen im Klassenzimmer und mehr. Benutzer können Dateien hochladen, direkt aufzeichnen oder über Links zu Zoom, Go...
Conch Speech (MiniMax Audio): KI-Tool zur Erzeugung natürlicher Sprache
MiniMax Audio ist ein KI-Spracherzeugungstool von MiniMax, dessen Hauptfunktion die schnelle Umwandlung von Text in sehr ähnliche natürliche Sprache ist. Es basiert auf dem Modell Speech-02, mit einer Sprachsynthese Ähnlichkeit von bis zu 99%, Studio-Qualität, und Unterstützung für mehr als 30 Sprachen und eine breite Palette von Mund...
TwinMind
TwinMind ist ein intelligentes Tool, das von ThirdEar AI, Inc. entwickelt wurde und sich "alles für Sie merkt". Es kann Gespräche, Meetings oder Vorlesungen aufzeichnen und in Echtzeit in Text umwandeln, in mehr als 100 Sprachen, und kann offline verwendet werden, auch wenn das Telefon in der Tasche ist. Die Nutzer müssen sich nicht selbst Notizen machen, TwinMind wird...
OpenAI-Echtzeit-Agenten
OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-APIs von OpenAI genutzt werden können, um multi-intelligente Körpersprachanwendungen zu entwickeln. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt aus OpenAI Swarm), das es Entwicklern ermöglicht, komplexe multi-intelligente Körpersprachsysteme in kurzer Zeit zu erstellen. Das Projekt ...
Bürgschaft
Bailing (Bailing) ist ein Open-Source-Sprachdialog-Assistent, der entwickelt wurde, um einen natürlichen Dialog mit dem Benutzer durch Sprache zu führen. Das Projekt kombiniert Spracherkennung (ASR), Voice Activity Detection (VAD), Large Language Model (LLM) und Sprachsynthese (TTS) Technologien, um einen Sprachdialogroboter ähnlich dem GPT-4o zu implementieren...
"Always-On" Deepseek AI Assistant: Aufbau eines intelligenten Sprachinteraktionssystems auf Basis von Deepseek-V3
Always-On AI Assistant ist ein innovatives KI-Assistentenprojekt, das durch die Integration von fortschrittlichen Technologien wie Deepseek-V3, RealtimeSTT und Typer ein leistungsfähiges und permanent online verfügbares KI-Assistenzsystem schafft. Das Projekt ist speziell für technische Entwicklungsszenarien optimiert und bietet eine komplette...
Xiaozhi AI Chatbot
Xiaozhi AI Chatbot ist ein Open-Source-Projekt, das auf dem ESP32-Entwicklungsboard basiert und Benutzern helfen soll, ihren eigenen KI-Chat-Begleiter zu bauen. Das Projekt wird von Shrimp entwickelt und dient hauptsächlich zu Lehrzwecken, um mehr Menschen den Einstieg in die Entwicklung von KI-Hardware zu erleichtern und zu verstehen, wie man das große Sprachmodell auf reale Hardwaregeräte anwendet. Projekt ...
Fisch-Agent
Fish Speech Derivative Project Fish Agent ist ein revolutionäres End-to-End-KI-System zum Klonen von Sprache, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Sein wichtigstes Merkmal ist die innovative, semantische taglose Architektur, die nicht auf traditionelle Sprachen wie Whisper ..... angewiesen ist.
Sprach-Pro
Voice-Pro 是一个基于 Gradio WebUI 的多功能工具,支持语音转文字、文本转语音、实时翻译、YouTube 视频下载和人声分离。它集成了 Whisper、Faster-Whisper 和 Whisper-Timestamp...
Ichigo (lama3-s)
Ichigo ist ein Open-Source-Echtzeit-Sprach-KI-Projekt, das darauf abzielt, textbasierte Sprachmodelle mit nativen "Hör"-Fähigkeiten zu erweitern. Das Projekt verwendet frühe Fusion Techniken inspiriert von Meta Chameleon paper.Ichigo Ziel ist es, eine Open-Source-Daten, Open-Source-gewichtet native Gerät Sprache zu werden...
AI Hear
如果你在用 MacBook,试试 AI Hear:可以录音、实时本地语音转文字、并翻译、最终导出字幕。可以用它辅助你听跨国会议、英文有声书。 AI Hear是一款本地运行的软件,提供一键实时翻译和转录功能,支持多种语言。...
Fukumaru Chione
Funmaru Thousand Voices ist eine mehrsprachige KI-Stimmensyntheseplattform, die realistische und natürliche Stimmerzeugungslösungen bietet. Benutzer können Textinhalte einfach in professionelle Audiodateien umwandeln und die Erstellung exklusiver KI-Stimmen (Stimmklone) aus Null-Samples unterstützen, um individuelle Bedürfnisse zu erfüllen. Die Plattform bietet auch eine Videoübersetzungsfunktion, um den Benutzern zu helfen,...
durch Zuhören verstehen
Tongyi Listening and Understanding ist ein von Aliyun lancierter, lernfähiger KI-Assistent, der sich auf das Transkribieren und Analysieren von Audio- und Videoinhalten konzentriert. Er stützt sich auf die leistungsstarken KI-Modelle von AliCloud, um Audio- und Videoinhalte in Echtzeit in Text zu transkribieren, und bietet Übersetzungen, Zusammenfassungen, Positionierungen und andere Funktionen. Tongyi Listening Woo unterstützt mehrere Sprachen und Szenarien, um Nutzern zu helfen...
Tencent Smartfilm (Entwickler der Instant-Messaging-Plattform QQ)
腾讯智影是腾讯公司推出的在线智能视频创作平台,通过云端服务提供的强大AI工具,能支持文本配音、数字人播报、自动字幕识别等功能,它集素材搜索、视频剪辑、渲染出口和发布于一体,为用户带来便捷的视频编辑和...