Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Utility-Befehle

Hacking-Tipps für die Erstellung von KI-Videos: Präzise Steuerung des Bildschirms mit JSON-strukturierten Hinweisen

2025-07-07 56

Die Technologie zur Erzeugung von KI-Videos entwickelt sich derzeit rasant. Unter Google Veo 3Tools wie Conch AI und Modelle wie Koring haben das frühe Fuzzy-Stadium der Generierung hinter sich gelassen und produzieren Videoclips, die in ihrer Textur fast filmisch sind.

Allerdings stehen normale Nutzer in der praktischen Anwendung immer noch vor zwei Kernproblemen: Erstens haben nicht-professionelle Nutzer oft nur eine vage Vorstellung oder ein paar verstreute Schlüsselwörter, und es ist schwierig, eigenständig professionelle Cues zu schreiben, die den Anforderungen von Film- und Fernsehproduktionen entsprechen; zweitens besteht eine Diskrepanz zwischen der Mehrdeutigkeit der natürlichen Sprache und dem "Verständnis" der KI, was dazu führt, dass ein neuer Cue generiert wird, der oft von den Erwartungen abweicht. Zweitens gibt es eine Diskrepanz zwischen der Vagheit der natürlichen Sprache und dem "Verständnis" der KI, was dazu führt, dass Cues generiert werden, die oft von den erwarteten Ergebnissen abweichen und wiederholt geändert und debugged werden müssen.

Image

Kürzlich hat ein Blogger auf der Social-Media-Plattform X eine neuartige Lösung vorgestellt: die Verwendung des JSON Format Google Veo 3 Schreiben Sie Stichwörter. Dieser Ansatz bietet eine völlig neue Denkweise für die Lösung der oben genannten Probleme.

Das teilte der Blogger mit JSON Die Stichwörter sind sowohl in der englischen Originalfassung als auch in der chinesischen Übersetzung enthalten:

Stichwortwort auf Englisch:

{
"shot":{
"composition":"Medium shot, vertical format, handheld camera",
"camera_motion":"slight natural shake",
"frame_rate":"30fps",
"film_grain":"none"
},
"subject":{
"description":"A towering, snow-white Yeti with shaggy fur and expressive blue eyes",
"wardrobe":"slightly oversized white T-shirt with the name 'Emily' in bold, blood-red letters across the chest"
},
"scene":{
"location":"lush forest clearing",
"time_of_day":"daytime",
"environment":"sunlight filtering through the canopy, creating dappled light patterns on the forest floor"
},
"visual_details":{
"action":"Yeti holds a smartphone on a selfie stick, speaking excitedly to the camera before letting out a dramatic scream",
"props":"smartphone mounted on a selfie stick"
},
"cinematography":{
"lighting":"natural sunlight with soft shadows",
"tone":"lighthearted and humorous"
},
"audio":{
"ambient":"rustling leaves, distant bird calls",
"dialogue":{
"character":"Yeti",
"line":"Veo3 Fast is now available in the Gemini app—three videos per day! People are going to prompt me like crazy!",
"subtitles":false
},
"effects":"sudden loud scream, flapping wings of startled birds"
},
"color_palette":"naturalistic with earthy greens and browns; bold red lettering on shirt provides contrast"
}

Chinesische Version des Stichworts:

{
"镜头":{
"构图":"中景,竖屏格式,手持相机",
"相机运动":"轻微自然摇晃",
"帧率":"30fps",
"胶片颗粒":"无"
},
"主体":{
"描述":"一只高大的雪白雪人,毛发蓬松,眼睛充满表现力,呈蓝色",
"服装":"略微过大的白色T恤,胸前用粗体血红色字母写着‘Emily’"
},
"场景":{
"位置":"郁郁葱葱的森林空地",
"时间":"白天",
"环境":"阳光透过树冠洒下,形成斑驳的光影模式在森林地面"
},
"视觉细节":{
"动作":"雪人拿着自拍杆上的智能手机,兴奋地对着镜头讲话,随后发出一声戏剧性的尖叫",
"道具":"安装在自拍杆上的智能手机"
},
"摄影":{
"照明":"自然阳光,柔和的阴影",
"基调":"轻松幽默"
},
"音频":{
"环境音":"沙沙的树叶声,远处的鸟鸣声",
"对白":{
"角色":"雪人",
"台词":"Veo3 Fast现在可以在Gemini应用中使用——每天三条视频!人们会疯狂地给我发提示!",
"字幕":false
},
"音效":"突然的大声尖叫,惊飞的鸟翼拍打声"
},
"色彩调色板":"自然主义风格,带有泥土般的绿色和棕色;T恤上的鲜艳红色字母提供了对比"
}

Unter Verwendung der oben genannten englischen Stichwörter wird dieGoogle Veo 3 Es wurde ein hochwertiges Kurzvideo im ASMR-Stil erstellt.

Warum ist das JSON-Format eine bessere Anleitung?

JSON(JavaScript Object Notation) ist ein leichtgewichtiges Datenaustauschformat, das Daten nach Schlüssel-Wert-Paaren organisiert, z. B. "镜头": { ... }Es unterstützt die Verschachtelung von Daten. Es unterstützt die Datenverschachtelung und hat eine klare Struktur, die für Menschen leicht zu lesen und für Maschinen leicht zu analysieren ist.

(coll.) durchfallen (ein Schüler) JSON Die Vorteile liegen auf der Hand, wenn es um KI-Stichwörter geht. Sie zerlegt eine vage Idee in eine Reihe spezifischer, strukturierter Parameter, die mehrere Dimensionen abdecken, wie z. B. Kamera, Motiv, Szene, Beleuchtung, Toneffekte und so weiter. Diese Methode ist nicht nur umfassend, sondern die Anweisungen sind auch sehr klar.

Große Sprachmodelle (LLMs) haben eine natürliche Vorliebe für solche strukturierten Daten. Das liegt daran, dass die Trainingsdaten des LLM große Mengen an Code und strukturiertem Text enthalten, so dass es die Daten effizient und genau parsen kann. JSONDadurch wird die durch die natürliche Sprache bedingte Mehrdeutigkeit minimiert. Zuvor in ChatGPT 4o Bei der Erkundung des Venn-Diagramms hat dieJSON Es hat sich ebenfalls gezeigt, dass Stichwortwörter die Kontrollierbarkeit der Bilderzeugung erheblich verbessern.

Wie Sie KI dazu bringen, JSON-Prompts für Sie zu schreiben

(tun Sie es einfach) ohne zu zögern JSON Das Format ist mächtig, aber das manuelle Schreiben eines solchen erschöpfenden für jeden kreativen JSON Der Arbeitsaufwand und die Ineffizienz, die mit der Dokumentation verbunden sind, stehen nicht im Einklang mit der ursprünglichen Absicht, durch den Einsatz von KI die Effizienz zu steigern.

Kann die KI also diese Aufgabe übernehmen? Die Antwort lautet: Ja. Wir können einen "Systemhinweis" erstellen und das große Modell automatisch eine standardisierte JSON Strukturierte Stichwörter.

Mit Hilfe der vorgenannten JSON Die Beispiele werden analysiert, und es kann eine generische Wortvorlage für die Systemaufforderung erstellt werden.

Image

Hier sind die System-Prompt-Worte für den abgeschlossenen Build, die Sie direkt in der ChatGPTundGemini oder in anderen großen Modellen verwendet.

# 你是一个专业的AI视频提示词生成专家。
## 任务:
当用户输入一个简短提示(如“赛博朋克街头的一位女子”),你需要:
1. 理解并补全用户未提及的关键信息(包括镜头、主体、场景、动作、摄影、音频、色彩氛围等)。
2. 基于用户提示的意图推测并丰富内容,确保输出能直接用于AI文生视频工具。
3. 输出结果必须是符合如下JSON架构的提示词。
{
"shot": {
"composition": "镜头构图/画幅比例/拍摄方式",
"camera_motion": "相机运动",
"frame_rate": "帧率",
"film_grain": "胶片颗粒感"
},
"subject": {
"description": "主体形象描述",
"wardrobe": "服装与外观"
},
"scene": {
"location": "地点",
"time_of_day": "时间",
"environment": "环境细节"
},
"visual_details": {
"action": "主体动作",
"props": "道具"
},
"cinematography": {
"lighting": "光线风格",
"tone": "整体情绪与基调"
},
"audio": {
"ambient": "环境音",
"dialogue": {
"character": "说话角色",
"line": "台词内容",
"subtitles": "是否显示字幕(true/false)"
},
"effects": "音效"
},
"color_palette": "整体色彩风格"
}
## 工作要求:
- 即使用户输入很简单,你也要合理发挥想象,生成丰富的细节。
- 避免输出JSON以外的任何解释或文字。
- 保证JSON语法正确,字段与示例完全一致(不要新增或减少字段)。
- 对“dialogue”部分,如果用户没有指定,可留空白台词或让主体简单说一句符合场景的台词。
- 对“audio”中的“subtitles”,默认输出 false,除非用户明确要求加字幕。
## 使用方法:
只需将用户的简短提示输入给我。
## 输出:
输出英文版、中文版两个版本。

Eine praktische Anleitung zum Erstellen eines eigenen Prompt-Wortgenerators

Sie können die obigen Worte zur Systemaufforderung in eine GPTs(Anwendbar auf ChatGPT) oder Gems(Anwendbar auf Gemini), jederzeit leicht zu erreichen.

laut ChatGPT Zum Beispiel kann bei der Erstellung des GPTs Es wird empfohlen, das Häkchen bei Canvas und fügen Sie dem Befehl die Bedingung "Ausgabe auf Canvas" hinzu.Canvas Funktion ermöglicht es dem Benutzer, die erzeugten Daten direkt auf die JSON Der Code ist modifiziert und kann sehr einfach angepasst werden.

Image
Image

Einmal konfiguriert, ist es sehr einfach zu benutzen. Geben Sie zum Beispiel eine einfache Idee ein: "Ein kleiner Junge spielt Basketball".

GPTs Es wird sofort eine gut strukturierte und ausführliche zweisprachige Version (Englisch-Chinesisch) erstellt. JSON Stichwort Wort. Die Benutzer können je nach den von der KI-Videoplattform unterstützten Sprachen eine davon auswählen. Wenn Details geändert werden müssen, werden die Stichwortwörter direkt in der Canvas Bearbeiten Sie einfach im Canvas.

Image

Nach Abschluss der Änderungen wird die endgültige JSON Kopieren Sie den Code nach Veo 3 und andere KI-Videotools, um Videos zu erstellen, die in hohem Maße den Erwartungen entsprechen. Dieser Ansatz verbessert die Vollständigkeit der Stichwörter und die Genauigkeit des Outtakes erheblich.

Wenn Sie es direkt erleben wollen, können Sie auf die erstellten GPTs zugreifen:https://chatgpt.com/g/g-68677841368081919478ba33ad7c4056-aishi-pin-ti-shi-ci-sheng-cheng-zhuan-jia-json

Fallstudie: Von Schlüsselwörtern zu Filmtrailern

Um die Wirksamkeit der Methode zu testen, wird hier ein praktisches Beispiel für die Erstellung eines filmischen Sinnesclips gegeben.

Benutzereingabe: "Ein Ferrari, der nachts durch die Straßen der Stadt rast."

KI-generierte JSON-Stichwörter:

{
"shot":{
"composition":"First shot: wide shot of Ferrari speeding down the street; second shot: driver’s frontal close-up; third shot: close-up of car window details, 2.35:1 cinematic ratio",
"camera_motion":"First: stable pan, second: slight push-in, third: static shot",
"frame_rate":"24fps, total duration 8 seconds",
"film_grain":"Slight film grain"
},
"subject":{
"description":"A shiny red Ferrari sports car; the driver is a stern-faced man wearing sunglasses",
"wardrobe":"Driver in a black suit with black sunglasses"
},
"scene":{
"location":"Modern city street",
"time_of_day":"Night",
"environment":"Neon signs, tall buildings reflecting headlights, wet pavement"
},
"visual_details":{
"action":"Ferrari speeds by, driver stares ahead, neon lights reflecting on the car window",
"props":"Ferrari sports car"
},
"cinematography":{
"lighting":"Strong contrasts between neon lights and streetlights",
"tone":"Tense, mysterious, urban night mood"
},
"audio":{
"ambient":"Engine roar, tire screeches, distant city noise",
"dialogue":{
"character":"Driver",
"line":"Tonight, there can only be one winner.",
"subtitles":false
},
"effects":"Powerful engine rev sound effect"
},
"color_palette":"Dominant deep blues and vibrant reds highlighting the cold night and Ferrari’s passion"
}

Image

Auf diese Weise ist es möglich, schnell eine Reihe von Videoclips mit einem einheitlichen Stil und einer kohärenten Handlung zu erstellen. Durch die Kombination dieser Clips ist es sogar möglich, einen "Pseudo"-Trailer "NeoRun" zu schneiden, der recht interessant anzusehen ist.

In diesem Fall hat der Ersteller die folgenden Werkzeuge verwendet:

  • Queue-ErzeugungChatGPT Transport (Menschen, eine Nutzlast usw.) JSON Erzeugungssystem
  • Audio- und VideoerstellungGoogle Veo 3
  • Umschlagproduktion: Traum 2.1

Durch diesen strukturierten Arbeitsablauf verwandelt sich die Rolle des Nutzers von einem "Stichwortgeber", der mit der Beschreibung eines Bildes kämpft, in die eines "Kreativdirektors", der lediglich die Kernidee vorschlägt und die von der KI generierte Lösung überprüft. Er ersetzt nicht die menschliche Kreativität, sondern verkürzt die Zeitspanne zwischen "think it" und "do it" auf eine einfache Stichwort-Eingabe und ein paar Klicks.

Dies könnte eine Zeit einläuten, in der alle Menschen kreativ sein können, und die nächste Geschichte, die einen Nerv trifft, könnte in diesen wenigen Schlüsselwörtern in jedermanns Kopf versteckt sein.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch