Allgemeine Einführung
SkyReels-V2 ist ein von SkyworkAI entwickeltes Open-Source-Modell zur Videogenerierung. Es unterstützt die Generierung von Videos unbegrenzter Länge durch fortschrittliche Diffusion-Forcing-Techniken für Text-zu-Video- (T2V) und Bild-zu-Video- (I2V) Aufgaben. Benutzer können anhand von Textbeschreibungen oder Eingabebildern hochwertige Videoinhalte in Kinoqualität erzeugen. Das Modell hat sich in der Open-Source-Community bewährt und ist in seiner Leistung mit kommerziellen Modellen wie Kling und Runway-Gen4 vergleichbar. Es bietet flexible Inferenzmuster, die für Entwickler, Produzenten und Forscher geeignet sind, und der Code und die Modellgewichte für SkyReels-V2 sind auf GitHub zum einfachen Herunterladen und Einsatz öffentlich verfügbar.
Funktionsliste
- Unbegrenzt lange Videos erzeugenUnterstützung für die Erstellung von Videos beliebiger Länge, geeignet für Kurzfilme bis hin zu abendfüllenden Filmen.
- Text zu Video (T2V)Generierung von Videoinhalten, die mit der Beschreibung über Textaufforderungen übereinstimmen.
- Bild zu Video (I2V)Dynamisches Video auf der Grundlage des Eingangsbildes unter Beibehaltung der Bildeigenschaften generieren.
- multimodale UnterstützungKombination von Large-Scale Language Modelling (MLLM) und Reinforcement Learning zur Verbesserung der Qualität der Videogenerierung.
- Erzeugung von GeschichtenAutomatische Generierung von Video-Storyboards, die der erzählerischen Logik entsprechen.
- KamerasteuerungBietet die Sichtweise eines Regisseurs mit Unterstützung für die Anpassung von Kamerawinkeln und -bewegungen.
- Fächerübergreifende KohärenzMit dem SkyReels-A2-System können Sie die visuelle Konsistenz in Videos mit mehreren Rollen sicherstellen.
- Effizienter Reasoning-RahmenUnterstützt Multi-GPU Reasoning, um die Generierungsgeschwindigkeit und die Ressourcennutzung zu optimieren.
Hilfe verwenden
Einbauverfahren
SkyReels-V2 ist ein auf Python basierendes Open-Source-Projekt, Sie müssen die Umgebung lokal oder auf dem Server konfigurieren. Hier sind die detaillierten Installationsschritte:
- Klon-Lager
Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um den SkyReels-V2-Code zu erhalten:git clone https://github.com/SkyworkAI/SkyReels-V2 cd SkyReels-V2
- Erstellen einer virtuellen Umgebung
Es wird empfohlen, eine virtuelle Umgebung mit Python 3.10.12 zu erstellen, um Konflikte mit Abhängigkeiten zu vermeiden:conda create -n skyreels-v2 python=3.10 conda activate skyreels-v2
- Installation von Abhängigkeiten
Installieren Sie die für das Projekt benötigten Python-Bibliotheken und führen Sie es aus:pip install -r requirements.txt
- Download Modellgewichte
Die Modellgewichte für SkyReels-V2 werden bei Hugging Face gehostet. Laden Sie sie mit dem folgenden Befehl herunter:pip install -U "huggingface_hub[cli]" huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
Vergewissern Sie sich, dass Sie über genügend Festplattenspeicher verfügen (die Modellgrößen können mehrere Dutzend Gigabyte betragen).
- Hardware-Voraussetzung
- MindestausstattungSingle Block RTX 4090 (24 GB VRAM) mit FP8-Unterstützung zur quantitativen Reduzierung der Speicheranforderungen.
- Empfohlene KonfigurationenMehrere GPUs (z.B. 4-8 A100s) zur Unterstützung effizienter paralleler Inferenzen.
- Mindestens 32 GB Systemspeicher und 100 GB Festplattenspeicher.
Verwendung
SkyReels-V2 bietet zwei Hauptfunktionen: Text to Video (T2V) und Image to Video (I2V). Nachfolgend wird der spezifische Betriebsablauf beschrieben:
Text zu Video (T2V)
- Vorbereiten von Stichwörtern
Schreiben Sie Textaufforderungen, die den Inhalt des Videos beschreiben, zum Beispiel:A serene lake surrounded by towering mountains, with swans gliding across the water.
Negative Hinweise können hinzugefügt werden, um unerwünschte Elemente zu vermeiden:
low quality, deformation, bad composition
- Führen Sie das generierte Skript aus
Änderungengenerate_video.py
Parameter, stellen Sie die Auflösung, die Bildrate usw. ein:python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
--model_id
Wählen Sie das Modell (z. B. 540P oder 720P).--num_frames
Legen Sie die Videobildrate fest (Standard 97).--fps
Bildfrequenz (Standardwert 24).--outdir
Speicherpfad für Ausgabevideo.
- Ansicht Ausgabe
Das erzeugte Video wird im MP4-Format gespeichert, z. B.output/serene_lake_42_0.mp4
.
Bild zu Video (I2V)
- Vorbereiten des Eingabebildes
Stellen Sie ein qualitativ hochwertiges Bild zur Verfügung (z. B. PNG oder JPG) und achten Sie darauf, dass die Auflösung dem Modell entspricht (Standard 960x544). - Führen Sie das generierte Skript aus
existierengenerate_video.py
Geben Sie den Bildpfad im Feldpython generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
--image
: Geben Sie den Bildpfad ein.- Die übrigen Parameter entsprechen denen des T2V.
- Optimierungseinstellungen
- ausnutzen
--guidance_scale
(Standardwert 6.0) Passt die Intensität der Textsteuerung an. - ausnutzen
--inference_steps
(Standardwert 30) Steuert die Qualität der Generierung; je mehr Schritte, desto besser die Qualität, aber desto länger dauert es. - .
--offload
Optimierte Speichernutzung für Geräte mit geringem Grafikspeicher.
- ausnutzen
Featured Function Bedienung
- Unbegrenzte Videolänge
SkyReels-V2 verwendet die Diffusion Forcing-Technologie, um die Erstellung sehr langer Videos zu unterstützen. Führen Sie lange Video-Inferenzskripte aus:python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
- Es wird empfohlen, sie in Segmenten von je 97-192 Bildern zu erstellen und sie dann mit Postproduktionswerkzeugen zusammenzufügen.
- Erzeugung von Geschichten
Verwenden Sie die Funktion Story Generation des SkyReels-A2-Systems, um eine Handlungsbeschreibung einzugeben:A hero’s journey through a futuristic city, facing challenges.
Laufen:
python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
Das System erstellt Videos mit Storyboards und ordnet Szenen und Aufnahmen automatisch an.
- Kamerasteuerung
passieren (eine Rechnung oder Inspektion etc.)--camera_angle
legt die Objektivansicht fest (z. B. "frontal" oder "Profil"):python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
- Fächerübergreifende Kohärenz
SkyReels-A2 unterstützt Szenen mit mehreren Charakteren. Bietet mehrere Referenzbilder zum Ausführen:python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
Achten Sie darauf, dass die Zeichen im Video visuell einheitlich sind.
Optimierung und Fehlersuche
- Gedächtnislücke: Freigeben
--quant
Quantifizierung mit FP8, oder--offload
Verlagerung einiger Berechnungen auf die CPU. - Erzeugung von Qualität: Erhöhung
--inference_steps
(z.B. 50) oder stellen Sie--guidance_scale
(z. B. 8,0). - Unterstützung der GemeinschaftGitHub Issues: Prüfen Sie GitHub Issues auf Probleme oder treten Sie dem SkyReels Diskussion in der Gemeinschaft.
Anwendungsszenario
- Erstellung kurzer Videos
Mit der T2V-Funktion können Creators schnell kurze Videoclips aus Text erstellen, die sich für die Produktion von Inhalten für soziale Medien eignen. - Vorproduktion von Filmen
Regisseure können die Funktionen zur Erstellung von Videos und Geschichten in unbegrenzter Länge nutzen, um Filmtrailer oder Konzeptfilme zu erstellen und so die Vorabkosten zu senken. - Virtuelles Schaufenster des elektronischen Handels
Verwenden Sie die I2V-Funktion, um Produktbilder in dynamische Videos zu verwandeln, die zeigen, wie das Produkt in einer virtuellen Szene verwendet wird. - Pädagogische Animation
Lehrkräfte können aus Textbeschreibungen Unterrichtsanimationen erstellen, um komplexe Konzepte zu visualisieren, z. B. den Ablauf eines wissenschaftlichen Experiments. - Spieleentwicklung
Entwickler können Spielszenen oder Charakteranimationen erstellen, die als Material für das Prototyping oder für Übergänge verwendet werden können.
QA
- Welche Auflösungen werden von SkyReels-V2 unterstützt?
Unterstützt werden derzeit 540P (960x544) und 720P (1280x720), wobei die Möglichkeit besteht, die Auflösung in Zukunft zu erhöhen. - Wie viel Videospeicher benötige ich für den Betrieb?
Eine einzelne RTX 4090 (24 GB) kann grundlegende Berechnungen durchführen, und Multi-GPU-Konfigurationen können rohe und gewachsene Videos beschleunigen. - Wie lässt sich die Qualität der erzeugten Videos verbessern?
Erhöhen Sie die Anzahl der Argumentationsschritte (--inference_steps
), optimieren Sie die Aufforderungswörter oder verwenden Sie hochwertige Eingabebilder. - Unterstützt es die Generierung in Echtzeit?
Die derzeitige Offline-Generierung, die Echtzeit-Generierung erfordert eine höhere Hardware-Unterstützung und kann in Zukunft optimiert werden. - Sind Modellgewichte kostenlos?
Ja, SkyReels-V2 ist vollständig quelloffen und die Gewichte können kostenlos von Hugging Face heruntergeladen werden.