Google hat kürzlich bekannt gegeben, dass sein Modell zur Videogenerierung, Veo 2, offiziell in die Zwillinge Advanced Service und in seiner experimentellen Plattform Whisk. Das bedeutet, dass Google One AI Premium-Abonnenten jetzt kurze Videoinhalte direkt aus Textanweisungen oder vorhandenen Bildern erstellen können.
Veo 2 wird von Google als fortschrittliche Technologie zur Erzeugung von Videos bezeichnet, die Textbeschreibungen in bis zu 8 Sekunden lange Videos mit einer Auflösung von 720p und einem Seitenverhältnis von 16:9 im MP4-Format umwandelt. Das Modell soll die Gesetze der realistischen Physik und der menschlichen Bewegung besser verstehen und ist in der Lage, Videoclips mit fließenden Bewegungen, realistischen Szenen und reichhaltigen Details zu generieren, die ein breites Spektrum an Themen und Stilen abdecken.
Text-zu-Video-Erstellung in Gemini
In Gemini Advanced kann der Benutzer ein Video erstellen, indem er das Veo 2 Modell aus einem Dropdown-Menü auswählt. Der Prozess ist relativ einfach: der Benutzer gibt eine detaillierte Beschreibung der Szene ein und Gemini versucht, ein Video zu erstellen. Die offizielle Demo zeigt zum Beispiel verschiedene Arten der Generierung:
- Szene eins: Eine weite Kamerafahrt in Zeitlupe schwenkt über eine riesige Gletscherhöhle, durch die zwei Gestalten in weißen Exoskelett-Anzügen gehen, während Helmlampen gefrorene, bonbonartige Objekte in den Eiswänden beleuchten.
- Link zum Beispielvideo: https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Gemini_Generated_Video__37_aDEwjss.mp4
- Zweiter Schauplatz: Eine stilvoll animierte Maus mit übergroßer Brille liest in einem gemütlichen Waldversteck im Licht glühender Pilze Bücher.
- Link zum Beispielvideo: https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Mouse_Reads_Video_Generated.mp4
- Szene 3: Luftaufnahme von grasbewachsenen Klippen, die sich an einen Sandstrand anschließen, mit Wellen, die an das Ufer schlagen, und einer herausragenden Meeressäule, die im Meer steht und in das goldene Licht des Sonnenaufgangs oder Sonnenuntergangs getaucht ist.
- Link zum Beispielvideo: https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Gemini_Generated_Video__13.mp4
- Szene 4: Somatotroper Zeitraffer eines rosa, grauen und weißen Eises, das unter einem klaren blauen Himmel schmilzt.
- Link zum Beispielvideo: https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/KR_Veo2_4.mp4
Google betont, dass der Nutzer umso mehr Kontrolle über das endgültige Video hat, je detaillierter die Beschreibung ist. Diese Funktion eröffnet neue Möglichkeiten, um Konzepte schnell zu visualisieren, kurze visuelle Geschichten zu erzählen oder kreative Kombinationen zu erstellen. Die erstellten Videos können über die Schaltfläche "Teilen" einfach auf Plattformen wie TikTok oder YouTube Shorts hochgeladen werden.
Es ist erwähnenswert, dass Veo 2 derzeit Videos mit einer Länge von maximal 8 Sekunden und einer Auflösung von 720p erzeugt. Dies ist zwar ausreichend, um einige der Anforderungen von Kurzvideo-Plattformen oder für schnelle Proof-of-Concepts zu erfüllen, aber es ist nicht dasselbe wie das, was die Industrie tut (z. B. OpenAI), aber es ist nicht dasselbe wie das, was die Industrie tut. Sora Die derzeitige Verwendung von Veo 2 in Gemini scheint sich mehr auf ein leichtes, sofortiges Authoring-Erlebnis zu konzentrieren als auf den Trend zu längeren Laufzeiten, höheren Auflösungen und größerer Erzählkraft (wie im Modell gezeigt). Außerdem hat die Funktion ein monatliches Generierungslimit, was den kreativen Prozess für Vielnutzer beeinträchtigen kann.
Die Funktion zur Videoerstellung wird weltweit für Gemini Advanced Web- und Mobilnutzer in allen von Gemini unterstützten Sprachen eingeführt.
Whisk Animate: Standbilder in Bewegung bringen
Zusätzlich zu den textgenerierten Videos bringt Google mit Whisk Animate, einem im Dezember letzten Jahres von Google Labs gestarteten experimentellen Projekt, das es den Nutzern ermöglicht, Ideen durch die Kombination von Text- und Bildanweisungen zu erforschen und zu visualisieren, auch die Leistung von Veo 2 in die Whisk-Plattform ein.
Mit Whisk Animate können Google One AI Premium-Abonnenten jetzt Standbilder, die sie erstellt oder hochgeladen haben, in 8-sekündige Bewegungsvideos verwandeln. Dies ist ein praktisches Tool für diejenigen, die ihren Bildern Bewegung hinzufügen möchten. Die Funktion ist derzeit in über 60 Ländern verfügbar.
- Link zum Einführungsvideo von Whisk Animate: https://www.youtube.com/watch?v=2yYDI-p5aGs (der ursprüngliche Link ist ein Thumbnail, der vermutete YouTube-Link ist hier zu sehen)
Die Integration von Videoerstellungsfunktionen in Gemini und Whisk zeigt die Strategie von Google, KI-Authoring-Tools in sein bestehendes Ökosystem und seine Abonnementdienste zu integrieren. Dies senkt die Hürde für Nutzer, auf fortschrittliche KI-Funktionen zuzugreifen und sie zu nutzen, bindet sie aber auch an bestimmte kostenpflichtige Abonnements.
Sicherheitserwägungen und Verantwortung der Industrie
Zusammen mit der Einführung der Videogenerierungsfunktion erwähnte Google auch die Sicherheitsmaßnahmen, die es ergriffen hat. Dazu gehören ein umfassendes "Red Teaming" und eine Bewertung, um die Erstellung von Inhalten zu verhindern, die gegen die Google-Richtlinien verstoßen.
Eine wichtige Initiative ist, dass alle von Veo 2 erzeugten Videos mit einem digitalen SynthID-Wasserzeichen versehen werden. Dieses Wasserzeichen ist so konzipiert, dass es in jedes Einzelbild des Videos eingebettet wird und dazu dient, zu erkennen, dass das Video durch KI erzeugt wurde. Vor dem Hintergrund der zunehmenden Verbreitung von KI-generierten Inhalten, bei denen die Authentizität nur schwer zu erkennen ist, ist die Einführung einer zuverlässigen Wasserzeichentechnologie von entscheidender Bedeutung für die Verbesserung der Transparenz und die Bekämpfung von Desinformation und ist ein wesentlicher Bestandteil einer verantwortungsvollen KI-Entwicklung.
Google räumt auch ein, dass Gemini, wie alle generativen KI-Tools, größtenteils von den Nutzereingaben abhängt und in einigen Fällen unangenehme Inhalte erzeugen kann, und ermutigt die Nutzer, über die Feedback-Schaltfläche Beiträge zur kontinuierlichen Verbesserung zu liefern.