Seedance 1.0
Seedance 1.0 是由字节跳动 Seed 团队开发的一款 AI 视频生成工具,专注于将文本或图像转化为高质量视频内容。用户只需输入文字描述或上传图片,Seedance 即可生成分辨率高达 1080p 的视频,适用于创意内容创作、.....
Gemma 3n
Mit der Veröffentlichung von Gemma 3 und Gemma 3 QAT, Open-Source-Modellen, die auf einem einzigen Cloud- oder Desktop-Beschleuniger laufen, erweitert Google seinen Fußabdruck für integrative KI. Wenn Gemma 3 den Entwicklern leistungsstarke Cloud- und Desktop-Funktionen bot, so wird diese Version vom 20. Mai 2025...
MoviiGen 1.1
MoviiGen 1.1 ist ein Open-Source-KI-Tool, das von ZuluVision entwickelt wurde und sich auf die Erstellung hochwertiger Videos aus Text konzentriert. Es unterstützt Auflösungen von 720P und 1080P und ist besonders für die professionelle Videoproduktion geeignet, die visuelle Kinoeffekte erfordert. Benutzer können Videos aus einfachen Textbeschreibungen mit natürlichen dynamischen Effekten generieren...
HiDream-I1
HiDream-I1 ist ein Open-Source-Basismodell für die Bilderzeugung mit 17 Milliarden Parametern, mit dem sich schnell Bilder in hoher Qualität erzeugen lassen. Benutzer müssen nur eine Textbeschreibung eingeben, und das Modell kann Bilder in einer Vielzahl von Stilen erzeugen, darunter realistisch, Cartoon und künstlerisch. Das vom HiDream.ai-Team entwickelte und auf GitHub gehostete Projekt wählt...
Bilder 4
Das kürzlich von Google DeepMind vorgestellte Modell Imagen 4, die neueste Iteration seiner Bilderzeugungstechnologie, rückt schnell in den Fokus der Branche. Das Modell hat erhebliche Fortschritte bei der Verbesserung des Reichtums, der Detailgenauigkeit und der Geschwindigkeit der Bilderzeugung gemacht, um die Fantasie des Nutzers auf eine Weise zum Leben zu erwecken wie nie zuvor...
BAGEL
BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...
MiniMax Speech 02
Mit der kontinuierlichen Weiterentwicklung der KI-Technologien ist die personalisierte und sehr natürliche Sprachinteraktion zu einer Schlüsselanforderung für viele intelligente Anwendungen geworden. Bestehende Text-to-Speech (TTS)-Technologien stehen jedoch immer noch vor der Herausforderung, personalisierte Töne in großem Maßstab, eine mehrsprachige Abdeckung und einen äußerst realistischen Emotionsausdruck zu erreichen. Um diese Probleme zu lösen...
Windsurf SWE-1
SWE-1: Eine neue Generation modernster Modelle für das Software-Engineering Vor kurzem wurde die mit Spannung erwartete Modellfamilie SWE-1 veröffentlicht. Diese Modellfamilie wurde entwickelt, um den gesamten Softwareentwicklungsprozess zu optimieren, und geht weit über die traditionelle Aufgabe des Codeschreibens hinaus. Derzeit besteht die SWE-1-Familie aus drei gut positionierten Modellen:...
VideoMind
VideoMind ist ein quelloffenes, multimodales KI-Tool, das sich auf Schlussfolgerungen, Fragen und Antworten sowie die Erstellung von Zusammenfassungen für lange Videos konzentriert. Entwickelt wurde es von Ye Liu von der Polytechnischen Universität Hongkong und einem Team des Show Lab an der Nationalen Universität von Singapur. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgabe in Planung, Positionierung, Überprüfung...
MoshiVis
MoshiVis ist ein Open-Source-Projekt, das von Kyutai Labs entwickelt und auf GitHub gehostet wird. Es basiert auf dem Moshi-Sprache-zu-Text-Modell (7B-Parameter), mit etwa 206 Millionen neuen Anpassungsparametern und dem eingefrorenen PaliGemma2-Visual-Coder (400M-Parameter), der es dem Modell ermöglicht,...
Qwen2.5-Omni
Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde am 26. März 2025 veröffentlicht, und der Code und die Modelldateien werden auf GitH.... gehostet.
StarVector
StarVector ist ein Open-Source-Projekt, das von Entwicklern wie Juan A. Rodriguez ins Leben gerufen wurde, um Bilder und Text in skalierbare Vektorgrafiken (SVG) zu konvertieren. Dieses Tool verwendet ein visuelles Sprachmodell, das Bildinhalte und Textanweisungen versteht, um hochwertigen SVG-Code zu erzeugen. Sein Kern...
LaWGPT
LaWGPT ist ein Open-Source-Projekt, das von der Forschungsgruppe für maschinelles Lernen und Data Mining der Universität Nanjing unterstützt wird und sich dem Aufbau eines großen Sprachmodells auf der Grundlage des chinesischen Rechtswissens widmet. Es erweitert die proprietären Wortlisten im juristischen Bereich auf der Grundlage generischer chinesischer Modelle (z. B. Chinese-LLaMA und ChatGLM) und durch groß angelegte...
Baichuan-Audio
Baichuan-Audio ist ein von Baichuan Intelligence (baichuan-inc) entwickeltes Open-Source-Projekt, das auf GitHub gehostet wird und sich auf End-to-End-Sprachinteraktionstechnologie konzentriert. Das Projekt bietet ein komplettes Audio-Verarbeitungs-Framework, das Spracheingabe in diskrete Audio-Token umwandeln kann, und dann durch ein großes Modell, um ein Paar von ...
Schritt-Audio
Step-Audio ist ein Open-Source-Framework für intelligente Sprachinteraktion, das entwickelt wurde, um sofort einsetzbare Sprachverstehens- und -erzeugungsfunktionen für Produktionsumgebungen bereitzustellen. Das Framework unterstützt mehrsprachige Dialoge (z. B. Chinesisch, Englisch, Japanisch), emotionale Sprache (z. B. fröhlich, traurig), regionale Dialekte (z. B. Kantonesisch, Sichuan), einstellbare Sprachgeschwindigkeit...
DeepSeek-VL2
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....
Hibiki
Hibiki 是由 Kyutai Labs 开发的一款高保真度实时语音翻译模型。与传统的离线翻译不同,Hibiki 能够在用户讲话的同时,实时生成目标语言的自然语音翻译,并提供文本翻译。该模型采用多流架构,能够同时处理输入语...
VITA
VITA ist ein führendes quelloffenes, interaktives, multimodales Projekt zur Modellierung großer Sprachen, das Pionierarbeit bei der Verwirklichung echter, vollständig multimodaler Interaktion leistet. Das Projekt startete VITA-1.0 im August 2024 und leistete damit Pionierarbeit für das erste quelloffene, interaktive, vollständig modale große Sprachmodell. Im Dezember 2024 startete das Projekt ein großes Upgrade...
AnyText
AnyText ist ein revolutionäres mehrsprachiges visuelles Texterzeugungs- und -bearbeitungswerkzeug, das auf der Grundlage des Diffusionsmodells entwickelt wurde. Es erzeugt natürlichen, hochwertigen mehrsprachigen Text in Bildern und unterstützt flexible Textbearbeitungsfunktionen. Es wurde von einem Forscherteam entwickelt und erhielt auf der Konferenz ICLR 2024 die Auszeichnung Spotlight...