HiDream-I1是一个开源的图像生成基础模型,拥有170亿参数,能够快速生成高质量图像。用户只需输入文字描述,模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发,托管在GitHub上,采用MIT许可证,支持个人、科研和商业用途。HiDream-I1在多项基准测试中表现优异,例如HPS v2.1、GenEval和DPG,生成图像质量和提示词遵循能力均达到行业领先水平。用户可以通过Hugging Face平台体验模型,或下载模型权重在本地运行。项目还提供Gradio演示界面,方便交互式生成图像。
功能列表
- 文本转图像:根据用户输入的文字描述生成高质量图像。
- 多风格支持:生成写实、卡通、艺术等多种风格图像。
- 快速生成:通过优化推理步骤,最快可在数秒内生成图像。
- 模型变体:提供完整版(HiDream-I1-Full)、开发版(HiDream-I1-Dev)和快速版(HiDream-I1-Fast)。
- 图像编辑支持:基于HiDream-E1-Full模型,支持通过文字指令修改图像。
- 开源与商用:MIT许可证允许自由使用生成的图像。
- Gradio交互界面:提供在线演示,方便用户直接体验图像生成。
使用帮助
安装流程
要使用HiDream-I1,需在本地环境配置模型运行环境。以下是详细安装步骤:
- 准备环境
建议使用Python 3.12,并创建一个新的虚拟环境以避免依赖冲突。运行以下命令:conda create -n hdi1 python=3.12 conda activate hdi1
或使用虚拟环境:
python3 -m venv venv
source venv/bin/activate # Linux
.\venv\Scripts\activate # Windows
- 安装依赖
安装必要的库,特别是Hugging Face的Diffusers库。推荐从源代码安装以确保兼容性:pip install git+https://github.com/huggingface/diffusers.git
另外,安装Flash Attention以优化性能,推荐使用CUDA 12.4:
pip install flash-attn
- 下载模型
HiDream-I1模型权重可从Hugging Face获取。支持三种变体:HiDream-ai/HiDream-I1-Full
:完整模型,适合高质量生成。HiDream-ai/HiDream-I1-Dev
:开发版,推理步骤较少,速度更快。HiDream-ai/HiDream-I1-Fast
:快速版,适合快速生成。
运行推理脚本会自动下载meta-llama/Meta-Llama-3.1-8B-Instruct
模型。若网络不稳定,可提前从Hugging Face下载并放置到缓存目录。
- 运行推理
使用以下Python代码运行图像生成:import torch from transformers import PreTrainedTokenizerFast, LlamaForCausalLM from diffusers import HiDreamImagePipeline tokenizer_4 = PreTrainedTokenizerFast.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct") text_encoder_4 = LlamaForCausalLM.from_pretrained( "meta-llama/Meta-Llama-3.1-8B-Instruct", output_hidden_states=True, output_attentions=True, torch_dtype=torch.bfloat16 ) pipe = HiDreamImagePipeline.from_pretrained( "HiDream-ai/HiDream-I1-Full", tokenizer_4=tokenizer_4, text_encoder_4=text_encoder_4, torch_dtype=torch.bfloat16 ) pipe = pipe.to('cuda') image = pipe( 'A cat holding a sign that says "HiDream.ai"', height=1024, width=1024, guidance_scale=5.0, num_inference_steps=50, generator=torch.Generator("cuda").manual_seed(0) ).images[0] image.save("output.png")
参数说明:
height
和width
:设置生成图像的分辨率,推荐1024×1024。guidance_scale
:控制提示词遵循程度,建议5.0。num_inference_steps
:推理步骤数,Full版为50,Dev版为28,Fast版为16。
- 运行Gradio演示
项目提供Gradio界面,方便交互式生成图像。运行以下命令启动:python gradio_demo.py
启动后,访问本地Web界面,输入文字描述即可生成图像。
特色功能操作
- 文本转图像:在Gradio界面输入描述性文字,如“一只猫举着写有‘HiDream.ai’的牌子”。选择模型变体并调整分辨率,点击生成即可获得图像。
- 图像编辑:使用HiDream-E1-Full模型,在Hugging Face空间(
https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full
)上传图像并输入修改指令,如“将背景改为森林”。模型会根据指令调整图像,保持人物一致性。 - 模型选择:根据需求选择变体。Full版适合高质量生成,Dev版适合开发测试,Fast版适合快速原型设计。
注意事项
- 硬件要求:需要NVIDIA GPU(如A100、RTX 3090),支持Ampere架构以上。4位量化版本(
hykilpikonna/HiDream-I1-nf4
)可在16GB显存下运行。 - 许可证:需同意
meta-llama/Meta-Llama-3.1-8B-Instruct
的社区许可证,并在Hugging Face上登录:huggingface-cli login
应用场景
- 内容创作
创作者可使用HiDream-I1生成插画、广告图或概念艺术。例如,输入“未来城市夜景”生成科幻风格图像,用于小说封面或游戏设计。 - 教育与研究
研究人员可利用模型进行图像生成实验,测试不同提示词的效果,或基于MIT许可证开发新应用。 - 商业用途
企业可生成产品宣传图或营销素材。MIT许可证允许自由使用生成的图像,无需额外授权。
QA
- HiDream-I1需要什么硬件?
需要NVIDIA GPU(如RTX 3090、A100),支持Ampere架构以上。4位量化版本可在16GB显存下运行。 - 如何选择模型变体?
Full版适合高质量生成,Dev版适合快速开发,Fast版适合快速生成但质量稍低。 - 生成的图像可以商用吗?
可以。MIT许可证允许将生成的图像用于个人、科研和商业用途。 - 如何解决模型下载失败?
提前从Hugging Face下载meta-llama/Meta-Llama-3.1-8B-Instruct
模型,放置到缓存目录。