HiDream-I1 ist ein Open-Source-Basismodell für die Bilderzeugung mit 17 Milliarden Parametern, mit dem sich schnell Bilder in hoher Qualität erzeugen lassen. Benutzer müssen nur eine Textbeschreibung eingeben, und das Modell kann Bilder in einer Vielzahl von Stilen erzeugen, darunter realistisch, Cartoon und künstlerisch. Das vom HiDream.ai-Team entwickelte Projekt wird auf GitHub unter der MIT-Lizenz gehostet und wird für die persönliche, wissenschaftliche und kommerzielle Nutzung unterstützt. HiDream-I1 hat in mehreren Benchmarks wie HPS v2.1, GenEval und DPG gut abgeschnitten und ist in Bezug auf die Qualität der erzeugten Bilder und die Fähigkeit, Stichworten zu folgen, branchenführend. Benutzer können das Modell über die Hugging Face-Plattform ausprobieren oder die Modellgewichte herunterladen, um es lokal auszuführen. Das Projekt bietet auch eine Gradio-Demo-Schnittstelle, die die interaktive Bilderzeugung erleichtert.
Funktionsliste
- Text to Image: Generieren Sie hochwertige Bilder auf der Grundlage von Textbeschreibungen, die von den Benutzern eingegeben werden.
- Unterstützung mehrerer Stile: Erstellen Sie realistische, Cartoon, Kunst und andere Stile von Bildern.
- Schnelle Generierung: Durch Optimierung der Inferenzschritte können Bilder in nur wenigen Sekunden generiert werden.
- Modellvarianten: Vollversion (HiDream-I1-Full), Entwicklungsversion (HiDream-I1-Dev) und Schnellversion (HiDream-I1-Fast) sind verfügbar.
- Unterstützung der Bildbearbeitung: Basierend auf dem Modell HiDream-E1-Full unterstützt es die Bildbearbeitung durch Textbefehle.
- Open Source und kommerziell: Die MIT-Lizenz erlaubt die freie Nutzung der erzeugten Bilder.
- Interaktive Schnittstelle von Gradio: Bietet eine Online-Demo, in der Benutzer die Bilderzeugung direkt erleben können.
Hilfe verwenden
Einbauverfahren
Um HiDream-I1 zu verwenden, müssen Sie die Modell-Laufzeitumgebung in Ihrer lokalen Umgebung konfigurieren. Im Folgenden finden Sie die detaillierten Installationsschritte:
- Vorbereiten der Umgebung
Es wird empfohlen, Python 3.12 zu verwenden und eine neue virtuelle Umgebung zu erstellen, um Konflikte mit Abhängigkeiten zu vermeiden. Führen Sie den folgenden Befehl aus:conda create -n hdi1 python=3.12 conda activate hdi1
oder eine virtuelle Umgebung verwenden:
python3 -m venv venv
source venv/bin/activate # Linux
.\venv\Scripts\activate # Windows
- Installation von Abhängigkeiten
Installieren Sie die erforderlichen Bibliotheken, insbesondere die Hugging Face Diffusers-Bibliothek. Es wird empfohlen, aus dem Quellcode zu installieren, um Kompatibilität zu gewährleisten:pip install git+https://github.com/huggingface/diffusers.git
Außerdem wird Flash Attention installiert, um die Leistung zu optimieren, und es wird CUDA 12.4 empfohlen:
pip install flash-attn
- Modelle herunterladen
Die HiDream-I1-Modellgewichte sind bei Hugging Face erhältlich. Es werden drei Varianten unterstützt:HiDream-ai/HiDream-I1-Full
: komplettes Modell, geeignet für die Erzeugung von hoher Qualität.HiDream-ai/HiDream-I1-Dev
Die Entwicklungsversion mit weniger Inferenzschritten ist schneller.HiDream-ai/HiDream-I1-Fast
Eine schnelle Version, geeignet für die schnelle Erstellung.
Das Ausführen des Skripts zur Argumentation lädt automatischmeta-llama/Meta-Llama-3.1-8B-Instruct
Modelle. Wenn das Netzwerk instabil ist, laden Sie sie im Voraus von Hugging Face herunter und legen Sie sie im Cache-Verzeichnis ab.
- logische Schlussfolgerung
Führen Sie die Bilderzeugung mit dem folgenden Python-Code aus:import torch from transformers import PreTrainedTokenizerFast, LlamaForCausalLM from diffusers import HiDreamImagePipeline tokenizer_4 = PreTrainedTokenizerFast.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct") text_encoder_4 = LlamaForCausalLM.from_pretrained( "meta-llama/Meta-Llama-3.1-8B-Instruct", output_hidden_states=True, output_attentions=True, torch_dtype=torch.bfloat16 ) pipe = HiDreamImagePipeline.from_pretrained( "HiDream-ai/HiDream-I1-Full", tokenizer_4=tokenizer_4, text_encoder_4=text_encoder_4, torch_dtype=torch.bfloat16 ) pipe = pipe.to('cuda') image = pipe( 'A cat holding a sign that says "HiDream.ai"', height=1024, width=1024, guidance_scale=5.0, num_inference_steps=50, generator=torch.Generator("cuda").manual_seed(0) ).images[0] image.save("output.png")
Parameter Beschreibung:
height
im Gesang antwortenwidth
Auflösung: Legen Sie die Auflösung des erzeugten Bildes fest, empfohlen wird 1024 x 1024.guidance_scale
Kontrolliert den Grad der Befolgung des Stichwortes, Empfehlung 5.0.num_inference_steps
Die Anzahl der Inferenzschritte beträgt 50 für die Vollversion, 28 für die Dev-Version und 16 für die Fast-Version.
- Führen Sie die Gradio-Demo aus
Das Projekt bietet eine Gradio-Schnittstelle, die die interaktive Bilderzeugung erleichtert. Führen Sie den folgenden Befehl aus, um es zu starten:python gradio_demo.py
Nach dem Start rufen Sie die lokale Webschnittstelle auf und geben eine Textbeschreibung ein, um ein Bild zu erzeugen.
Featured Function Bedienung
- Text zu BildGeben Sie auf dem Gradio-Bildschirm einen beschreibenden Text ein, z. B. "Eine Katze, die ein Schild mit der Aufschrift 'HiDream.ai' hochhält". Wählen Sie die Modellvariante aus, passen Sie die Auflösung an und klicken Sie auf Generieren, um das Bild zu erhalten.
- BildbearbeitungHiDream-E1-Full-Modell im Hugging-Face-Raum verwenden (
https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full
) Laden Sie das Bild hoch und geben Sie einen Änderungsbefehl ein, z. B. "Hintergrund in Wald ändern". Das Modell passt das Bild entsprechend dem Befehl an, damit das Zeichen konsistent bleibt. - Auswahl des ModellsDie Vollversion eignet sich für die Erstellung hochwertiger Dokumente, die Dev-Version für Entwicklung und Tests und die Fast-Version für Rapid Prototyping.
caveat
- Hardware-Anforderungen: Erfordert einen NVIDIA-Grafikprozessor (z. B. A100, RTX 3090) mit Unterstützung für die Ampere-Architektur oder höher. 4-Bit quantisierte Version (
hykilpikonna/HiDream-I1-nf4
) kann mit 16 GB Videospeicher betrieben werden. - Lizenzen: Zustimmung erforderlich
meta-llama/Meta-Llama-3.1-8B-Instruct
Community-Lizenz und melden Sie sich bei Hugging Face an:huggingface-cli login
Anwendungsszenario
- Erstellung von Inhalten
Kreative können HiDream-I1 verwenden, um Illustrationen, Werbegrafiken oder Konzeptkunst zu erstellen. Geben Sie z. B. "Future City Night Scene" ein, um ein Bild im Science-Fiction-Stil für ein Romancover oder ein Spieldesign zu erstellen. - Bildung und Forschung
Forscher können das Modell nutzen, um Experimente zur Bilderzeugung durchzuführen, die Auswirkungen verschiedener Stichwortwörter zu testen oder neue Anwendungen auf der Grundlage der MIT-Lizenz zu entwickeln. - kommerzielle Nutzung
Die MIT-Lizenz erlaubt die freie Nutzung der erzeugten Bilder ohne zusätzliche Lizenzierung.
QA
- Welche Hardware wird für den HiDream-I1 benötigt?
Erfordert einen NVIDIA-Grafikprozessor (z. B. RTX 3090, A100) mit Unterstützung für die Ampere-Architektur oder höher. Die quantisierte 4-Bit-Version läuft mit 16 GB Videospeicher. - Wie wählt man eine Modellvariante aus?
Die Vollversion eignet sich für die Erstellung in hoher Qualität, die Dev-Version für die schnelle Entwicklung und die Fast-Version für die schnelle Erstellung, aber mit etwas geringerer Qualität. - Sind die erzeugten Bilder im Handel erhältlich?
Ja. Die MIT-Lizenz erlaubt die Nutzung der erzeugten Bilder für persönliche, wissenschaftliche und kommerzielle Zwecke. - Wie lässt sich der Fehler beim Herunterladen des Modells beheben?
Advance Download von Hugging Facemeta-llama/Meta-Llama-3.1-8B-Instruct
Modell, das im Cache-Verzeichnis abgelegt ist.