Vector Quantized Generative Adversarial Network (VQGAN) ist ein generatives kontradiktorisches Netzwerk (GAN), das zur Bildsynthese verwendet wird. Das Netzwerk verwendet Vektorquantisierungstechnologie, um qualitativ hochwertige, realistisch aussehende Bilder mit kürzerer Trainingszeit und Komplexität im Vergleich zu anderen GAN-Architekturen zu erstellen.
VQGAN wurde erstmals 2018 von Jia-Hong Huang et al. vorgeschlagen und ist seitdem ein aktives Forschungsgebiet. Es kombiniert zwei hochmoderne Deep-Learning-Techniken, nämlich Generative Adversarial Networks (GANs) und Vektorquantisierung, wodurch es qualitativ hochwertige Bilder und Audiodaten bei kürzeren Trainingszeiten und geringerer Komplexität erzeugen kann.
Um seine Bildsynthesefähigkeiten zu erreichen, besteht die VQGAN-Architektur aus zwei Teilen. Der erste Teil ist ein generatives Netzwerk (G), das darauf trainiert ist, Beispiele aus einer gegebenen Verteilung zu generieren. Der zweite Teil ist ein diskriminatives Netzwerk (D), das darauf trainiert ist, die generierten Beispiele von realen Daten zu unterscheiden.
Der Vektorquantisierungsteil wird verwendet, um die Anzahl der notwendigen Parameter zu reduzieren, die G benötigt, um die Verteilung genau darzustellen. Dies geschieht durch die Kodierung eines hochdimensionalen Raums in einen niedrigdimensionalen Raum mit einem Codebuch aus Codevektoren. Die generierten Samples haben eine geringere Darstellungskraft als das Eingabebild, erfassen aber dennoch alle wichtigen Merkmale bei geringerer Komplexität.
VQGAN wird erfolgreich in Anwendungen wie Bild- und Audiosynthese, Verarbeitung natürlicher Sprache, Bild-zu-Bild-Übersetzung, Downstream-Analyse und vielen anderen Aufgaben eingesetzt. Es erzielt deutlich bessere Ergebnisse als GANs, die ohne Vektorquantisierung trainiert wurden, und seine geringere Komplexität macht es für Echtzeitanwendungen geeignet.
Insgesamt ist das Vector Quantized Generative Adversarial Network (VQGAN) ein leistungsstarkes und effizientes generatives Modell, das in der Lage ist, qualitativ hochwertige, realistisch wirkende Bilder und Audiodaten mit reduzierter Trainingszeit und Komplexität zu produzieren. Es findet Anwendung in vielen Bereichen des Deep Learning und erfreut sich aufgrund seiner beeindruckenden Bildsynthesefähigkeiten zunehmender Beliebtheit.