Bei der Bilderkennung mit neuronalen Netzen werden zumeist Faltungs-Netze (CNN, CoNvolutional Networks) eingesetzt. Oft greift man auf erlernte Netze wie VGG16 / VGG19 oder mobilenet zurück und führt damit ein Transfer-Learning durch. Eine Bild-Erkennung gelingt umso weniger, je mehr die Bild-Informationen in einer dritten Dimension liegen. Dreidimensionale bildgebende Verfahren sind bereits seit langem bekannt. So erlaubt beispielsweise die Holografie die Abbildung eines dreidimensionalen Gegenstands. Auch die Generierung von Hologrammen mithilfe neuronaler Netze gelingt bereits. Physikalische Beugungs-Effekte lassen sich mit Hilfe von Faltungs-Operationen in der „Fourier-Optik“ beschreiben.

Der Vortrag beschreibt Analogien von optischen Abbildungen und CNN-Netzen. Ändert man nun die Aufgabenverteilung zwischen Optik und Netz, muss auch die Architektur des anzulernenden Netzes angepasst werden.