AI Personal Learning
und praktische Anleitung
TRAE

SkyReels V2: Ein Open-Source-KI-Tool zur Erstellung von Videos in unbegrenzter Länge

Allgemeine Einführung

SkyReels-V2 ist ein von SkyworkAI entwickeltes Open-Source-Modell zur Videogenerierung. Es unterstützt die Generierung von Videos unbegrenzter Länge durch fortschrittliche Diffusion-Forcing-Techniken für Text-zu-Video- (T2V) und Bild-zu-Video- (I2V) Aufgaben. Benutzer können anhand von Textbeschreibungen oder Eingabebildern hochwertige Videoinhalte in Kinoqualität erzeugen. Das Modell hat sich in der Open-Source-Community bewährt und ist in seiner Leistung mit kommerziellen Modellen wie Kling und Runway-Gen4 vergleichbar. Es bietet flexible Inferenzmuster, die für Entwickler, Produzenten und Forscher geeignet sind, und der Code und die Modellgewichte für SkyReels-V2 sind auf GitHub zum einfachen Herunterladen und Einsatz öffentlich verfügbar.

SkyReels V2:生成无限长度视频的开源AI工具-1


 

Funktionsliste

  • Unbegrenzt lange Videos erzeugenUnterstützung für die Erstellung von Videos beliebiger Länge, geeignet für Kurzfilme bis hin zu abendfüllenden Filmen.
  • Text zu Video (T2V)Generierung von Videoinhalten, die mit der Beschreibung über Textaufforderungen übereinstimmen.
  • Bild zu Video (I2V)Dynamisches Video auf der Grundlage des Eingangsbildes unter Beibehaltung der Bildeigenschaften generieren.
  • multimodale UnterstützungKombination von Large-Scale Language Modelling (MLLM) und Reinforcement Learning zur Verbesserung der Qualität der Videogenerierung.
  • Erzeugung von GeschichtenAutomatische Generierung von Video-Storyboards, die der erzählerischen Logik entsprechen.
  • KamerasteuerungBietet die Sichtweise eines Regisseurs mit Unterstützung für die Anpassung von Kamerawinkeln und -bewegungen.
  • Fächerübergreifende KohärenzMit dem SkyReels-A2-System können Sie die visuelle Konsistenz in Videos mit mehreren Rollen sicherstellen.
  • Effizienter Reasoning-RahmenUnterstützt Multi-GPU Reasoning, um die Generierungsgeschwindigkeit und die Ressourcennutzung zu optimieren.

 

Hilfe verwenden

Einbauverfahren

SkyReels-V2 ist ein auf Python basierendes Open-Source-Projekt, Sie müssen die Umgebung lokal oder auf dem Server konfigurieren. Hier sind die detaillierten Installationsschritte:

  1. Klon-Lager
    Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um den SkyReels-V2-Code zu erhalten:

    git clone https://github.com/SkyworkAI/SkyReels-V2
    cd SkyReels-V2
    
  2. Erstellen einer virtuellen Umgebung
    Es wird empfohlen, eine virtuelle Umgebung mit Python 3.10.12 zu erstellen, um Konflikte mit Abhängigkeiten zu vermeiden:

    conda create -n skyreels-v2 python=3.10
    conda activate skyreels-v2
    
  3. Installation von Abhängigkeiten
    Installieren Sie die für das Projekt benötigten Python-Bibliotheken und führen Sie es aus:

    pip install -r requirements.txt
    
  4. Download Modellgewichte
    Die Modellgewichte für SkyReels-V2 werden bei Hugging Face gehostet. Laden Sie sie mit dem folgenden Befehl herunter:

    pip install -U "huggingface_hub[cli]"
    huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
    

    Vergewissern Sie sich, dass Sie über genügend Festplattenspeicher verfügen (die Modellgrößen können mehrere Dutzend Gigabyte betragen).

  5. Hardware-Voraussetzung
    • MindestausstattungSingle Block RTX 4090 (24 GB VRAM) mit FP8-Unterstützung zur quantitativen Reduzierung der Speicheranforderungen.
    • Empfohlene KonfigurationenMehrere GPUs (z.B. 4-8 A100s) zur Unterstützung effizienter paralleler Inferenzen.
    • Mindestens 32 GB Systemspeicher und 100 GB Festplattenspeicher.

Verwendung

SkyReels-V2 bietet zwei Hauptfunktionen: Text to Video (T2V) und Image to Video (I2V). Nachfolgend wird der spezifische Betriebsablauf beschrieben:

Text zu Video (T2V)

  1. Vorbereiten von Stichwörtern
    Schreiben Sie Textaufforderungen, die den Inhalt des Videos beschreiben, zum Beispiel:

    A serene lake surrounded by towering mountains, with swans gliding across the water.
    

    Negative Hinweise können hinzugefügt werden, um unerwünschte Elemente zu vermeiden:

    low quality, deformation, bad composition
    
  2. Führen Sie das generierte Skript aus
    Änderungen generate_video.py Parameter, stellen Sie die Auflösung, die Bildrate usw. ein:

    python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
    
    • --model_idWählen Sie das Modell (z. B. 540P oder 720P).
    • --num_framesLegen Sie die Videobildrate fest (Standard 97).
    • --fpsBildfrequenz (Standardwert 24).
    • --outdirSpeicherpfad für Ausgabevideo.
  3. Ansicht Ausgabe
    Das erzeugte Video wird im MP4-Format gespeichert, z. B. output/serene_lake_42_0.mp4.

Bild zu Video (I2V)

  1. Vorbereiten des Eingabebildes
    Stellen Sie ein qualitativ hochwertiges Bild zur Verfügung (z. B. PNG oder JPG) und achten Sie darauf, dass die Auflösung dem Modell entspricht (Standard 960x544).
  2. Führen Sie das generierte Skript aus
    existieren generate_video.py Geben Sie den Bildpfad im Feld

    python generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
    
    • --image: Geben Sie den Bildpfad ein.
    • Die übrigen Parameter entsprechen denen des T2V.
  3. Optimierungseinstellungen
    • ausnutzen --guidance_scale(Standardwert 6.0) Passt die Intensität der Textsteuerung an.
    • ausnutzen --inference_steps(Standardwert 30) Steuert die Qualität der Generierung; je mehr Schritte, desto besser die Qualität, aber desto länger dauert es.
    • --offload Optimierte Speichernutzung für Geräte mit geringem Grafikspeicher.

Featured Function Bedienung

  1. Unbegrenzte Videolänge
    SkyReels-V2 verwendet die Diffusion Forcing-Technologie, um die Erstellung sehr langer Videos zu unterstützen. Führen Sie lange Video-Inferenzskripte aus:

    python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
    
    • Es wird empfohlen, sie in Segmenten von je 97-192 Bildern zu erstellen und sie dann mit Postproduktionswerkzeugen zusammenzufügen.
  2. Erzeugung von Geschichten
    Verwenden Sie die Funktion Story Generation des SkyReels-A2-Systems, um eine Handlungsbeschreibung einzugeben:

    A hero’s journey through a futuristic city, facing challenges.
    

    Laufen:

    python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
    

    Das System erstellt Videos mit Storyboards und ordnet Szenen und Aufnahmen automatisch an.

  3. Kamerasteuerung
    passieren (eine Rechnung oder Inspektion etc.) --camera_angle legt die Objektivansicht fest (z. B. "frontal" oder "Profil"):

    python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
    
  4. Fächerübergreifende Kohärenz
    SkyReels-A2 unterstützt Szenen mit mehreren Charakteren. Bietet mehrere Referenzbilder zum Ausführen:

    python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
    

    Achten Sie darauf, dass die Zeichen im Video visuell einheitlich sind.

Optimierung und Fehlersuche

  • Gedächtnislücke: Freigeben --quant Quantifizierung mit FP8, oder --offload Verlagerung einiger Berechnungen auf die CPU.
  • Erzeugung von Qualität: Erhöhung --inference_steps(z.B. 50) oder stellen Sie --guidance_scale(z. B. 8,0).
  • Unterstützung der GemeinschaftGitHub Issues: Prüfen Sie GitHub Issues auf Probleme oder treten Sie dem SkyReels Diskussion in der Gemeinschaft.

 

Anwendungsszenario

  1. Erstellung kurzer Videos
    Mit der T2V-Funktion können Creators schnell kurze Videoclips aus Text erstellen, die sich für die Produktion von Inhalten für soziale Medien eignen.
  2. Vorproduktion von Filmen
    Regisseure können die Funktionen zur Erstellung von Videos und Geschichten in unbegrenzter Länge nutzen, um Filmtrailer oder Konzeptfilme zu erstellen und so die Vorabkosten zu senken.
  3. Virtuelles Schaufenster des elektronischen Handels
    Verwenden Sie die I2V-Funktion, um Produktbilder in dynamische Videos zu verwandeln, die zeigen, wie das Produkt in einer virtuellen Szene verwendet wird.
  4. Pädagogische Animation
    Lehrkräfte können aus Textbeschreibungen Unterrichtsanimationen erstellen, um komplexe Konzepte zu visualisieren, z. B. den Ablauf eines wissenschaftlichen Experiments.
  5. Spieleentwicklung
    Entwickler können Spielszenen oder Charakteranimationen erstellen, die als Material für das Prototyping oder für Übergänge verwendet werden können.

 

QA

  1. Welche Auflösungen werden von SkyReels-V2 unterstützt?
    Unterstützt werden derzeit 540P (960x544) und 720P (1280x720), wobei die Möglichkeit besteht, die Auflösung in Zukunft zu erhöhen.
  2. Wie viel Videospeicher benötige ich für den Betrieb?
    Eine einzelne RTX 4090 (24 GB) kann grundlegende Berechnungen durchführen, und Multi-GPU-Konfigurationen können rohe und gewachsene Videos beschleunigen.
  3. Wie lässt sich die Qualität der erzeugten Videos verbessern?
    Erhöhen Sie die Anzahl der Argumentationsschritte (--inference_steps), optimieren Sie die Aufforderungswörter oder verwenden Sie hochwertige Eingabebilder.
  4. Unterstützt es die Generierung in Echtzeit?
    Die derzeitige Offline-Generierung, die Echtzeit-Generierung erfordert eine höhere Hardware-Unterstützung und kann in Zukunft optimiert werden.
  5. Sind Modellgewichte kostenlos?
    Ja, SkyReels-V2 ist vollständig quelloffen und die Gewichte können kostenlos von Hugging Face heruntergeladen werden.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " SkyReels V2: Ein Open-Source-KI-Tool zur Erstellung von Videos in unbegrenzter Länge
de_DEDeutsch