Zugang aus Übersee: www.kdjingpai.com

Ctrl + D Lesezeichen für diese Seite

Multimodale interaktive Produkte in Echtzeit

 Website einreichen

BAGEL
BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...
05-22 9930Gelobt
RealtimeVoiceChat
RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Echtzeitgespräche mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden das Mikrofon zur Spracheingabe, das System nimmt das Audio über den Browser auf, wandelt es schnell in Text um, generiert eine Antwort aus einem großen Sprachmodell (LLM) und wandelt dann den Text in Sprachausgabe um, das Ganze...
05-06 1.2 K0Gelobt
Stepsailor: Integration von KI-Befehlsleisten in bestehende SaaS-Produkte
Stepsailor ist ein Werkzeug für Entwickler mit einer KI-Befehlsleiste als Kernstück. Entwickler können es nutzen, um ihre Softwareprodukte so zu gestalten, dass sie verstehen, was der Benutzer sagt, z. B. wenn der Benutzer "neue Aufgabe hinzufügen" sagt, wird die Software automatisch ausgeführt. Es wird über ein einfaches SDK in SaaS-Produkte integriert und erfordert keine Kenntnisse der Entwickler ...
04-10 8210Gelobt
OpenAvatarChat: ein modular aufgebautes Werkzeug für den digitalen menschlichen Dialog
OpenAvatarChat ist ein Open-Source-Projekt, das vom HumanAIGC-Engineering-Team entwickelt und auf GitHub gehostet wird. Es ist ein modulares Werkzeug für den digitalen menschlichen Dialog, das es den Benutzern ermöglicht, die volle Funktionalität auf einem einzigen PC auszuführen. Das Projekt kombiniert Echtzeit-Video, Spracherkennung und digitale menschliche Technologie...
04-05 9820Gelobt
VideoMind
VideoMind ist ein quelloffenes, multimodales KI-Tool, das sich auf Schlussfolgerungen, Fragen und Antworten sowie die Erstellung von Zusammenfassungen für lange Videos konzentriert. Entwickelt wurde es von Ye Liu von der Polytechnischen Universität Hongkong und einem Team des Show Lab an der Nationalen Universität von Singapur. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgabe in Planung, Positionierung, Überprüfung...
04-02 1.0 K0Gelobt
MoshiVis
MoshiVis ist ein Open-Source-Projekt, das von Kyutai Labs entwickelt und auf GitHub gehostet wird. Es basiert auf dem Moshi-Sprache-zu-Text-Modell (7B-Parameter), mit etwa 206 Millionen neuen Anpassungsparametern und dem eingefrorenen PaliGemma2-Visual-Coder (400M-Parameter), der es dem Modell ermöglicht,...
03-28 1.0 K0Gelobt
Qwen2.5-Omni
Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde am 26. März 2025 veröffentlicht, und der Code und die Modelldateien werden auf GitH.... gehostet.
03-27 1.6 K0Gelobt
xiaozhi-esp32-server: Xiaozhi AI-Chatbot als quelloffener Backend-Dienst
xiaozhi-esp32-server ist ein Tool zur Bereitstellung von Backend-Diensten für den Xiaozhi AI Chatbot (xiaozhi-esp32). Es ist in Python geschrieben und basiert auf dem WebSocket-Protokoll, damit Benutzer schnell einen Server zur Steuerung von ESP32-Geräten erstellen können. Dieses Projekt ist geeignet ...
03-18 1.5 K0Gelobt
Baichuan-Audio
Baichuan-Audio ist ein von Baichuan Intelligence (baichuan-inc) entwickeltes Open-Source-Projekt, das auf GitHub gehostet wird und sich auf End-to-End-Sprachinteraktionstechnologie konzentriert. Das Projekt bietet ein komplettes Audio-Verarbeitungs-Framework, das Spracheingabe in diskrete Audio-Token umwandeln kann, und dann durch ein großes Modell, um ein Paar von ...
02-28 1.0 K0Gelobt
PowerAgents: Intelligente KI-Plattform für die zeitgesteuerte Ausführung von Webaufgaben
PowerAgents ist eine Plattform für KI-Intelligenzen, die sich auf Web-Automatisierungsaufgaben konzentriert und es Nutzern ermöglicht, KI-Intelligenzen zu erstellen und einzusetzen, die in der Lage sind, Daten anzuklicken, einzugeben und zu extrahieren. Die Plattform unterstützt die Einstellung von Aufgaben, die automatisch auf stündlicher, täglicher oder wöchentlicher Basis ausgeführt werden, und die Nutzer können die Intelligenzen bei der Arbeit in Echtzeit beobachten. Es gibt keine...
02-28 1.2 K0Gelobt
Schritt-Audio
Step-Audio ist ein Open-Source-Framework für intelligente Sprachinteraktion, das entwickelt wurde, um sofort einsetzbare Sprachverstehens- und -erzeugungsfunktionen für Produktionsumgebungen bereitzustellen. Das Framework unterstützt mehrsprachige Dialoge (z. B. Chinesisch, Englisch, Japanisch), emotionale Sprache (z. B. fröhlich, traurig), regionale Dialekte (z. B. Kantonesisch, Sichuan), einstellbare Sprachgeschwindigkeit...
02-19 1.2 K0Gelobt
Gemini Cursor: ein intelligenter KI-Desktop-Assistent, der auf Gemini aufbaut und sehen, hören und sprechen kann
Gemini Cursor ist ein intelligenter Desktop-Assistent, der auf dem Gemini 2.0 Flash-Modell von Google (experimentell) basiert. Er ermöglicht visuelle, auditive und sprachliche Interaktionen über eine multimodale API und bietet eine Echtzeit-Nutzererfahrung mit geringer Latenzzeit. Das von @13point5 entwickelte Projekt zielt darauf ab,...
02-12 1.1 K0Gelobt
DeepSeek-VL2
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....
02-12 1.4 K0Gelobt
AI Web Operator: Browser-Automatisierung, Open-Source-Implementierung von OpenAI Operator
AI Web Operator ist ein Open-Source-KI-Browser-Operator-Tool, das die Benutzererfahrung im Browser durch die Integration mehrerer KI-Technologien und SDKs vereinfachen soll. Basierend auf Browserbase und dem Vercel AI SDK, unterstützt das Tool eine Vielzahl von Large Language Models (LLM)...
01-31 1.3 K0Gelobt
SpeechGPT 2.0-Preview: ein durchgängiges anthropomorphes Sprachdialog-Makromodell für Echtzeit-Interaktion
SpeechGPT 2.0-preview ist das erste anthropomorphe Echtzeit-Interaktionssystem von OpenMOSS, das auf Millionen von Stunden an Sprachdaten trainiert wurde. SpeechGPT 2.0-Previ...
01-30 1.1 K0Gelobt
OpenAI-Echtzeit-Agenten
OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-APIs von OpenAI genutzt werden können, um multi-intelligente Körpersprachanwendungen zu entwickeln. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt aus OpenAI Swarm), das es Entwicklern ermöglicht, komplexe multi-intelligente Körpersprachsysteme in kurzer Zeit zu erstellen. Das Projekt ...
01-19 1.5 K0Gelobt
Bürgschaft
Bailing (Bailing) ist ein Open-Source-Sprachdialog-Assistent, der entwickelt wurde, um einen natürlichen Dialog mit dem Benutzer durch Sprache zu führen. Das Projekt kombiniert Spracherkennung (ASR), Voice Activity Detection (VAD), Large Language Model (LLM) und Sprachsynthese (TTS) Technologien, um einen Sprachdialogroboter ähnlich dem GPT-4o zu implementieren...
01-19 1.5 K0Gelobt
Weebo: ein Echtzeit-Sprach-Chatbot, der einen Dialog in natürlicher Sprache ermöglicht
Weebo ist ein quelloffener Echtzeit-Sprach-Chatbot, der Whisper Small für die Spracherkennung, Llama 3.2 für die Erzeugung natürlicher Sprache und Kokoro-82M für die Sprachsynthese verwendet. Das Projekt wurde von Amanvir Parhar mit dem Ziel entwickelt, einen nativen...
01-17 1.3 K0Gelobt
OmAgent: ein intelligenter Körperrahmen für den Aufbau multimodaler intelligenter Geräte
OmAgent ist ein multimodales intelligentes Körper-Framework, das von Om AI Lab entwickelt wurde, um leistungsstarke KI-gestützte Funktionen für intelligente Geräte bereitzustellen. Das Projekt ermöglicht es Entwicklern, durch die Integration modernster multimodaler Basismodelle und Smart-Body-Algorithmen effiziente, interaktive Echtzeit-Erlebnisse auf einer Vielzahl von Smart Devices zu schaffen....
01-17 1.3 K0Gelobt

Deutsch