DALL-E 2 es la última arquitectura de red neuronal creada por Open AI. Se trata de una arquitectura revolucionaria diseñada para crear imágenes a partir de texto. DALL-E 2 se basa en API desarrolladas en 2020 y funciona exclusivamente con procesamiento de lenguaje natural (PLN).
La arquitectura se compone de varios módulos interconectados entre sí. Funciona generando primero una secuencia de tokens a partir del texto de entrada dado y, a continuación, realiza una atención multicabezal sobre la secuencia generada. Utiliza una combinación de los modelos Transformer, Linear Layer y Adaptive Embedding.
DALL-E 2 es capaz de generar imágenes de altísima resolución a partir de descripciones textuales. Es el primer sistema de aprendizaje profundo para la síntesis texto-imagen y puede generar imágenes casi indistinguibles de las reales.
DALL-E 2 también puede generar objetos 3D a partir de texto, como sillas, animales o herramientas. Esta tarea requiere conjuntos de datos complejos con una estructura más compleja, por lo que es difícil que otras arquitecturas generen resultados tan precisos como DALL-E 2.
Utilizar DALL-E 2 es bastante sencillo. Todo lo que se necesita es una descripción textual de la imagen deseada, como "un perro marrón y blanco con un pequeño hocico y una gran nariz negra". La arquitectura tomará esta descripción y generará una imagen que se parezca mucho a lo descrito en el texto.
DALL-E 2 es una potente herramienta que podría revolucionar el mundo de la creación de contenidos creativos. Las aplicaciones potenciales van desde la creación de arte generativo a la creación rápida de interfaces de usuario, pasando por la ayuda a la ingeniería de productos. Podría utilizarse para generar contenidos creativos publicitarios o de marketing, así como para contar historias y experiencias en mundos virtuales.