DALL-E (zkratka pro „Deep-Learning-to-Answer-Long-Questions“) je model zpracování přirozeného jazyka vyvinutý společností OpenAI, aby odpovídal na otázky týkající se obrázku. Systém je trénován na milionech obrázků na internetových datových sadách a používá model jazyka transformátoru k identifikaci, která slova jsou spojena s daným obrázkem. Může vytvořit popisek k obrázku, který popisuje jeho obsah v přirozeném jazyce.
DALL-E byl vydán OpenAI v prosinci 2020. Je to výkonný jazykový model, protože dokáže zvládnout jak fázi porozumění přirozenému jazyku, tak fázi generování úkolu. Využívá kombinaci algoritmů počítačového vidění a technik zpracování přirozeného jazyka ke spojení více zdrojů informací do jediného souvislého popisu.
Pokud například obrázek obsahuje místnost s lidmi a psem, DALL-E může vygenerovat popisek jako: „V místnosti je několik lidí, kteří hladí hnědého psa.“ Tento typ popisu přesahuje základní značkování, které by jednoduše říkalo: „Toto je místnost s lidmi a psem.“
Pomocí DALL-E mohou výzkumníci generovat popisky k podrobnému popisu obrázků, což pomáhá vytvořit přesnější popis než tradiční techniky označování obrázků. Může být také použit k zodpovězení otázek týkajících se obrázku, například jakou barvu má pes na obrázku?
Systém je také schopen generovat kreativnější popisky, jako například „Pes se dívá z okna, sní o ovládnutí světa“ nebo „Lidé v místnosti si vyměňují smysluplné pohledy, když pes odpočívá v rohu.“ To demonstruje schopnost systému popisovat obrázky způsoby, které lidé dokážou ocenit.
DALL-E je vzrušující a výkonná technologie, která má potenciál způsobit revoluci ve zpracování přirozeného jazyka. Je to důležitý nástroj pro rozvoj počítačového vidění a technologií zpracování přirozeného jazyka.