Gemini CLI ist ein von Google entwickeltes Open-Source-Befehlszeilen-Tool, das auf dem Gemini 2.5 Pro-Modell basiert und es Benutzern ermöglicht, direkt im Terminal mit KI-Funktionen zu arbeiten. Es unterstützt Aufgaben wie die Arbeit mit großen Code-Basen, die Erstellung von Anwendungen, die Automatisierung von Arbeitsabläufen und die Verwaltung von Dateien. Nutzer können über ihr persönliches Google-Terminal auf die KI-Funktionalität zugreifen...
GitHub Copilot Chat ist eine von Microsoft entwickelte Erweiterung für Visual Studio Code (VS Code). Sie bietet Entwicklern mit Hilfe von künstlicher Intelligenz Hilfe in Bezug auf Code. Benutzer können Fragen in natürlicher Sprache stellen, um Codevorschläge, Erklärungen und Optimierungslösungen zu erhalten. Das Tool wird von GitHub unterstützt ...
PartCrafter ist ein innovatives Open-Source-Projekt, das sich auf die Erzeugung editierbarer 3D-Teilemodelle aus einem einzigen RGB-Bild konzentriert. Es verwendet eine fortschrittliche strukturierte 3D-Generierungstechnologie, um mehrere semantisch sinnvolle 3D-Teile gleichzeitig aus einem einzigen Bild zu generieren, die für die Spieleentwicklung, das Produktdesign und andere Bereiche geeignet sind. Das Projekt basiert auf Pre-Training...
Quarkdown ist ein modernes Markdown-basiertes Satzwerkzeug, das die Funktionalität von CommonMark und GitHub Flavored Markdown (GFM) erweitert. Es ermöglicht Benutzern die Erstellung dynamischer Inhalte durch die Einführung von Funktionen, Variablen und Standardbibliotheken, um interaktive Präsentationen einfach zu...
BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...
DeepResearchAgent ist ein von SkyworkAI entwickeltes Open-Source-KI-Tool, das sich auf die Automatisierung von Deep Research konzentriert. Es hilft Nutzern, schnell detaillierte Forschungsberichte zu erstellen, indem es Suchmaschinen, Web-Crawling und groß angelegte Sprachmodellierung (LLM) kombiniert. Die Benutzer geben einfach ein Forschungsthema oder eine Frage ein und das Tool sucht automatisch...
Muscle-Mem ist ein Open-Source-Python-Tool, das auf GitHub gehostet und von pig-dot-dev entwickelt wird. Es wurde entwickelt, um Verhaltens-Caching-Funktionen für KI-Agenten bereitzustellen, um die Aufrufe großer Sprachmodelle (LLM) bei sich wiederholenden Aufgaben zu reduzieren, was zu schnelleren Läufen, geringerer Variabilität und Kosteneinsparungen führt....
Simple Subtitling ist ein Open-Source-Tool zur Erzeugung von Audio-Untertiteln, das sich auf die automatische Erzeugung von Untertiteln und die Kennzeichnung von Sprechern für Video- oder Audiodateien konzentriert. Das von Jaesung Huh entwickelte Projekt, das auf GitHub gehostet wird, zielt darauf ab, eine einfache und effiziente Lösung zur Erzeugung von Untertiteln zu bieten. Werkzeuge durch die Audioverarbeitungstechnologie .....
arXiv Summarizer ist ein quelloffenes Python-Skripttool, das auf GitHub gehostet wird. Es wurde entwickelt, um Nutzern den schnellen Zugriff auf und die Erstellung von Zusammenfassungen von akademischen Artikeln der arXiv-Plattform zu ermöglichen. Es nutzt die kostenlose Gemini API für eine effiziente Textzusammenfassung und eignet sich für Forscher, Studenten und akademische...
Sim Studio ist eine Open-Source-Plattform für die Erstellung von KI-Agenten-Workflows, die den Nutzern hilft, über eine leichtgewichtige, intuitive visuelle Schnittstelle schnell umfangreiche Sprachmodell-Workflows (LLM) zu entwerfen, zu testen und einzusetzen. Benutzer können komplexe Multi-Agenten-Anwendungen mit Drag-and-Drop ohne tiefgreifende Programmierung erstellen. Es unterstützt diese ...
Mad Professor (暴躁的教授读论文) ist ein quelloffenes akademisches KI-Tool, das für Forscher und Studenten entwickelt wurde, um das Lesen und Analysieren von akademischen Arbeiten zu vereinfachen. Es integriert PDF-Verarbeitung, KI-Übersetzung, RAG-Suche, KI-Q&A und Sprachinteraktion. Benutzer können PDF-Dokumente importieren...
AIstudioProxyAPI ist ein Open-Source-Projekt, das Node.js und Playwright-Technologie verwendet, um die Gemini-Modell-Dialogfunktionalität der Google AI Studio-Webversion in eine Standard-API-Verbindung zu konvertieren, indem es die OpenAI-API emuliert ...
Step1X-Edit ist ein Open-Source-Framework zur Bildbearbeitung, das vom Stepfun AI-Team entwickelt wurde und auf GitHub gehostet wird. Es kombiniert ein multimodales großes Sprachmodell (Qwen-VL) und einen Diffusionstransformator (DiT), um es Benutzern zu ermöglichen, ein Bild mit einfachen Befehlen in natürlicher Sprache zu bearbeiten, z. B. den Hintergrund zu ändern, ein Objekt zu entfernen oder den Wind zu transformieren ....
Klavis AI ist eine Open-Source-Plattform, die sich auf die Vereinfachung der Nutzung und Integration des Model Context Protocol (MCP) konzentriert, einem offenen Standard, der es KI-Anwendungen ermöglicht, sich dynamisch mit externen Tools und Datenquellen zu verbinden...
RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Echtzeitgespräche mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden das Mikrofon zur Spracheingabe, das System nimmt das Audio über den Browser auf, wandelt es schnell in Text um, generiert eine Antwort aus einem großen Sprachmodell (LLM) und wandelt dann den Text in Sprachausgabe um, das Ganze...
MiMo ist ein von Xiaomi entwickeltes Open-Source-Projekt zur Modellierung großer Sprachen mit Schwerpunkt auf mathematischer Argumentation und Codegenerierung. Das Kernprodukt ist die MiMo-7B-Modellfamilie, die aus einem Basismodell (Base), einem überwachten Feinabstimmungsmodell (SFT), einem aus dem Basismodell trainierten Verstärkungslernmodell (RL-Zero) und einem aus dem Basismodell trainierten SFT-Modell besteht...
Muyan-TTS ist ein Open-Source-Text-to-Speech-Modell (TTS), das für Podcasting-Szenarien entwickelt wurde. Es wurde mit über 100.000 Stunden Podcast-Audiodaten trainiert und unterstützt die Null-Sample-Sprachsynthese, um qualitativ hochwertige natürliche Sprache zu erzeugen. Das Modell basiert auf Llama-3.2-3B, und in Kombination mit dem SoVITS-Decoder bietet es eine hohe...
CAD-MCP ist ein Open-Source-Projekt, das es Benutzern ermöglicht, CAD-Software-Zeichenoperationen durch natürlichsprachliche Befehle zu steuern. Es kombiniert die Verarbeitung natürlicher Sprache mit der CAD-Automatisierungstechnologie, so dass die Benutzer die CAD-Schnittstelle nicht manuell bedienen müssen, sondern nur einfache Textbefehle eingeben müssen, um die Zeichnung zu erstellen und zu ändern. Das Projekt unterstützt eine Vielzahl von ...
GraphGen ist ein Open-Source-Framework, das von OpenScienceLab, einem KI-Labor in Shanghai, entwickelt wurde und auf GitHub gehostet wird. Es konzentriert sich auf die Optimierung der überwachten Feinabstimmung von Large Language Models (LLMs), indem es die Erzeugung synthetischer Daten durch Wissensgraphen anleitet. Es konstruiert feinkörnige Wissensgraphen aus dem Ausgangstext, wobei der erwartete Kalibrierungsfehler...