Gesehen werden

Im Kopf

Gesehen werden —Neurowissenschaftliche Perspektiven einer Bild-Ästhetik Teil 1

Text und Abbildungen — Hennric Jokeit

Wie verarbeitet unser Gehirn das, was wir sehen? Wie steht es um unser visuelles Gedächtnis und wie manipulierbar ist unsere Wahrnehmung? Eine Einführung in die Grundlagen des Sehens von Hennric Jokeit, Neuropsychologe und Leiter des Instituts für neuropsychologische Diagnostik und Bildgebung am Schweizereischen Epilepsiezentrum – und Fotograf.

«Die Fotografie des Wiener Karlsplatzes in einer schwarz-weiss Nachtaufnahme nach Kontrastumkehr. Die untypische Verteilung von Licht und Schatten und Widersprüche zur Seherfahrung in der Negativdarstellung entschleunigen die Wahrnehmung. In der Epoche des Fin de siècle war der Wiener Neurologe Sigmund Freud einer der zentralen Protagonisten einer gesamteuropäischen Abkehr der Psychiatrie von der biologischen Hirnphysiologie durch ihre radikale Versprachlichung und Literarisierung. Zur selben Zeit verabschiedeten sich viele Künstler vom Naturalismus und psychologisierten ihre Kunst durch eine Wendung nach innen. Die Wiener «Nervenkunst» (Hermann Bahr) ist ein Beispiel für die Wirkung dieses Paradigmenwechsels von der Hirnforschung zur Psychoanalyse in einer Epoche noch enger Wechselwirkungen zwischen Wissenschaft und Kunst.» Karlsplatz, Wien, 2014, o.T. Foto: Hennric Jokeit

1. Sinn sehen

Das Sehen, ob alltäglich, fotografisch oder künstlerisch, ist eine Aufgabe des Gehirns, nicht der Augen. Fällt ein Bild auf die Netzhaut, werden bereits nach einer Zehntelsekunde in der Großhirnrinde Spekulationen über das Gesehene angestellt. Für das Gehirn sind Farbe, Form, Gestalt, Textur, Topographie, Geschwindigkeit, Identität, emotionale Bedeutung und Vertrautheit die wesentlichen Merkmale unserer visuellen Welt. Fortlaufend werden diese in unterschiedlichen Hirnregionen verarbeitet und zu Bedeutungseinheiten verknüpft. Ist die gewonnene Information wichtig, erhält sie unsere Aufmerksamkeit und wird im Gedächtnis verfügbar gehalten.

Außer für die Steuerung der Motorik geht es dem Gehirn nicht um sensorische Präzision, sondern darum, den Sinn hinter einem Fluss von Netzhautbildern zu erschließen. Biologistisch gewendet besteht dieser Sinn im Wert der Bilder für die aktuelle und künftige Handlungsregulation. Was wir sehen hängt davon ab, wie wir bereits Gesehenes interpretiert haben. Sehen ist nicht Abbildung, sondern eine zwar sensorisch kontrollierte, aber interpretierende Vorstellung des vermutlich so Seienden. Häufig genug liegt das Gehirn richtig, wenn es uns zuerst realweltlich wahrscheinliche Interpretationen anbietet. Trifft es aber auf Widersprüche, beginnt es mit mehr oder weniger Fantasie, Alternativen zu erwägen. Diese imaginative Repräsentation der Außenwelt ist hybrid und erratisch. Sie basiert einerseits auf nur wenigen herausgehobenen visuellen Bildmerkmalen und andererseits auf vielfach bewährten Deutungsmustern.

Das bedeutet, dass das Sehen auch immer in seiner ontogenetischen, biographischen und historischen Gebundenheit zu denken ist. Wir sehen anders und anderes als Menschen vor 150 Jahren, als Migranten oder als Kinder und Greise, weil sich mit der kulturellen und individuellen Bedeutung von Objekten auch die Wahrnehmung ihrer visuellen Merkmale wandelt. Wir sehen immer subjektiv.

2. Pfade und Prozesse

In keinem anderen Sinnessystem werden so vielfältige Informationen so schnell verarbeitet wie im visuellen. Raumlage, Form, Gestalt, Farbe, Textur, Geschwindigkeit und Identität von Objekten werden kontinuierlich verfügbar gemacht, um den Körper in jedem Augenblick motorisch präzise zu seiner sichtbaren Umwelt auszurichten. Während Sie diese Zeilen lesen, werden fortlaufend Augen-, Kopf und Körperbewegungen verrechnet, um das Netzhautbild des Textes zu stabilisieren. Bewusst nehmen Sie dabei Bedeutungen und ihre Zusammenhänge wahr, nicht aber notwendigerweise Gestalt und Typographie der bedeutungstragenden Wörter.

Eine ganz andere Klasse von visuellen Reizen bilden angsterfüllte Gesichter, Schlangen, Spinnen und offene Wunden, die z.T. als eigenständige Sujets in der Malerei, Fotografie und im Film bekannt sind. Sie lassen bereits nach 1/25 Sekunden das vegetative Nervensystems mit Stress reagieren; einer Antwort, die einer rationalen Analyse der Bedeutung des Bildes vorangeht. Augenblicklich werden Stresshormone und aktivierende Nervenbotenstoffe (Adrenalin) ausgeschüttet. Durch die Blockade des Nervus vagus (Parasympathikus) nehmen der Blutdruck, der Puls und die Schweißsekretion zu.

Die hohe Geschwindigkeit emotionaler Bewertung bei paralleler, aber deutlich langsamerer kognitiver Analyse erzeugt Ungleichzeitigkeit. So entsteht auf zeitlich frühen Verarbeitungsstufen eine Prädominanz emotionaler Reaktionen, die auch auf kognitive Folgeprozesse abfärben. Erst im weiteren Verlaufe von mehreren Sekunden können diese emotionalen «Vorurteile» neutralisiert oder umgewertet werden.

In ca. zwei Dutzend separierten Kanälen gelangen die Signale von den Ganglienzellen der Netzhaut des Auges zu entwicklungsgeschichtlich alten, tiefliegenden Kerngebieten des Gehirns. Diese, wie z.B. Pulvinar und Corpus geniculatum laterale, bilden dabei wichtige frühe Integrations- und Schaltstellen für die Modulation der Selektivität visueller Verarbeitung. Nichts anderes als diese Modulation meint der populäre Begriff der visuellen Aufmerksamkeit.

Die schnelle emotionale Bewertung fokussiert die visuelle Aufmerksamkeit auf bedeutsame Informationen, die entweder belohnende oder aversive Reaktionen auslösen. Durch Belohnungs- und Vermeidungslernen wird die modulierende Steuerung visueller Aufmerksamkeit dem Kontext angepasst - ob Museum, Arbeit, Party oder Natur.

Das Sehen ist keine Einbahnstrasse die vom Auge via Hirn zur Bedeutung führt, sondern auch umgekehrt operiert. Wir unterscheiden zwei Modi der Wahrnehmung: einen aufsteigenden bottom-up Modus und einen absteigenden top-down Modus. Als bottom-up bezeichnet man genetisch angelegte Verarbeitungspfade bei denen das Licht von Sinneszellen in neuronale Signale umgewandelt wird, die in einer festen Abfolge von Prozessschritten weiterverarbeitet werden.

Entgegengesetzt zum beschriebenen Pfad verläuft der sogenannte top-down Modus visueller Verarbeitung, der für die später im Teil II zu beschreibende wichtige Predictive Coding Theory zentral ist. Beim top-down Modell der Wahrnehmung wird der Wahrnehmungsprozess von Vorwissen gesteuert und basiert auf aktiver Selektion von Information schon auf sehr frühen Verarbeitungsstufen. Dabei spielt die enge Verknüpfung von visuellen Aufmerksamkeits- und Gedächtnisprozessen eine zentrale Rolle.

«Das Sehen ist keine Einbahnstraße die vom Auge via Hirn zur Bedeutung führt, sondern auch umgekehrt operiert.» — Hennric Jokeit

Portrait eines erfolglosen Berliner Künstlers. 2009. – Hennric Jokeit, Tiefdruck-Photogravur nach einer MRT, ca. 43 x 43 cm, Auflage 15, nummeriert und signiert. Druck: Druckatelier Fritze G. Margull, Berlin

3. Visuelle Gedächtnisse

Zweifellos erlauben Seherfahrungen eine vorausschauende Anpassung aktueller und künftiger visueller Wahrnehmungen. Doch ist das Gedächtnis kein statisches Bildarchiv, sondern eine Gemengelage dynamischer Prozesse der Einspeicherung, der Modifikation und des Vergessens, die so einer kontextuell gültigen Interpretation des Gesehenen zuarbeiten. Um Gedächtnisinhalte und -prozesse zu kategorisieren, bedient sich die Neuropsychologie verschiedener Systematiken: deklarativ vs. prozedural, explizit vs. implizit, sprachlich vs. bildhaft, episodisch vs. semantisch und Kurzzeit- vs. Langzeitgedächtnis, um die wichtigsten zu nennen.

Nicht alle Gedächtnisinhalte sind dem Bewusstsein direkt zugänglich und kommunizierbar. Neben individuell erworbenen Gedächtnisinhalten haben Menschen auch ein ererbtes Artgedächtnis, das reflexartige, evolutionär bedeutsame Reaktionen auf Reize wie Spinnen, Schlangen und angsterfüllte Gesichter speichert. In der Kunstgeschichte gibt es zahlreiche Beispiele, die mit unseren genetisch fixierten Angstreaktionen spielen. Dazu gehören Rubens und Caravaggios Gemälde «Haupt der Medusa». Umringt von Schlangen zeigen sie das von Schrecken und Entsetzen gezeichnete Gesicht der enthaupteten Medusa. Starke Emotionen im Angesicht von Artgenossen lösen beim Betrachter unwillkürlich spiegelnde neuronale Prozesse aus, die zu einer affektiven Ansteckung führen.

So beschreibt das bildhafte Gedächtnis ein komplexes Verarbeitungssystem, das auf die visuelle Modalität beschränkt, aber nicht von sprachlichen Prozessen isoliert ist. Was zeitliche und inhaltliche Aspekte angeht, erweist es sich ähnlich heterogen, wie das sprachgebundene Gedächtnis. Es ist aber stammesgeschichtlich wesentlich älter als Sprache und diente von Anbeginn der überlebenssichernden räumlichen Orientierung und der Identifikation von Nahrung, Räubern und Beute. Das bildhafte Gedächtnis unterliegt auch nicht den kapazitiven Einschränkungen des seriell arbeitenden sprachgebundenen Gedächtnisses.

Entlang der Zeitachse von Gedächtnisprozessen wird zunächst ein sensorischer Speicher angenommen, der in einem Zeitfenster von bis zu einer halben Sekunde eine Weiterverarbeitung bereits verdichteter Informationen des Netzhautbildes erlaubt. Davon zu unterscheiden ist das visuelle Arbeitsgedächtnis (working memory), dass im Sekundenbereich Informationen über Objekte und ihre Position im Raum für die Verarbeitung bereitstellt. Die Wahrscheinlichkeit einer Übertragung dieser Informationen in das Langzeitgedächtnis hängt wesentlich von der Dauer und Intensität der Verarbeitung im Arbeitsgedächtnis ab.

Sind sie wichtig, werden einmalige autobiographische Eindrücke in das episodische Langzeitgedächtnis eingeschrieben. Das Bild der Twin Towers in New York vom 11. September 2001 ist ein, vielen von uns eingeschriebenes, episodisches Erinnerungsbild. Davon klar zu unterscheiden ist das semantische Gedächtnis, in dem wir nahezu unauslöschlich die Bedeutung visueller Objekte speichern, wie auch einen Verweis auf das zugehörige Wort. Dazu gehört für viele die emblematische Freiheitsstatue, von der wir nicht mehr wissen, ob wir sie das erste Mal im Film, in einer Zeitschrift oder in einem Schulbuch gesehen haben. Anders als im episodischen Gedächtnis spielt das Wann und Wo der ersten Begegnung für unser enzyklopädisches Wissen keine Rolle.

«Eine vorurteilsgeleitete Wahrnehmung ist hoch effizient, aber auch zugleich fehleranfällig sowie manipulierbar und vermutlich gleichzeitig die Grundlage für Glücksmomente des Kunsterlebens.» — Hennric Jokeit

Beim Abruf aus dem Langzeitgedächtnis werden Erinnern und Wiedererkennen unterschieden. Die Erinnerbarkeit besteht im potentiellen Vermögen, sich vor dem geistigen Auge ein Bild vorzustellen und dieses auch beschreiben zu können. Wiedererkennbarkeit bedeutet dagegen, dass wir lediglich aus einer Auswahl von Bildern das übereinstimmende identifizieren, ohne uns jedoch ein vollständiges inneres Bild machen zu können. Dabei beeinflusst die inhaltliche und formale Komplexität des visuellen Inhalts nicht die Zuverlässigkeit des Wiedererkennens.

Die psychologische Gedächtnisforschung hat Umstände und Bedingungen identifizieren können, die dazu beitragen, dass ein Bild oder ein visuelles Ereignis in das individuelle Gedächtnis eingeschrieben wird. Das sind:

die Dauer und die Intensität mit dem im visuellen Arbeitsgedächtnis mit den Bildinhalten operiert wird.
die wiederholte Beschäftigung des Arbeitsgedächtnisses mit denselben Bildinformationen.
die emotionale Bedeutung und Intensität. Emotionen stärken die Gedächtnisbildung, ihr Fehlen erschwert diese.
die unmittelbare persönliche Relevanz, die auch durch die Intensität von Emotionen mit vermittelt wird.
Neuigkeit (novelty) ist im Gegensatz zur langweilenden Wiederholung der ultimative Türöffner für eine Aktivierung von Prozessen, die zur erfolgreichen Einspeicherung in das Gedächtnis führen.

Ein inhaltlich und formal überraschendes Bild, das öfter betrachtet wird, ohne langweilig zu werden, und dessen Inhalt zum Gegenstand wiederholter inhaltlicher und emotionaler Auseinandersetzung bei hoher persönlicher Bedeutung wird, kann nicht mehr vergessen werden. Der Flaschenhals für das dauerhafte Erinnern wenig spektakulärer Ereignisse ist also das Arbeitsgedächtnis, das durch seine Aktivität die Gedächtnisbildung anregt. Die pure Wiederholung ohne mentale Auseinandersetzung führt dagegen zu keiner verlässlichen Gedächtnisbildung.

Das visuelle Gedächtnis prägt nach dem top-down Modell wesentlich den Wahrnehmungsprozess, der durch Erfahrung (z.B. Licht kommt in der Natur von oben), visuell semantisches Wissen (z.B. die charakteristische Form von Kirchen) ergänzt um mögliche episodische Ereignisse (z.B. der erste Besuch des Kölner Doms) geprägt wird. Nach der Predictive Coding Theory (siehe dazu Teil II) werden wesentlich nur Abweichungen von Erwartungen (prediction error) verarbeitet. Einzig diese Differenz zwischen dem Gegebenen und dem Erwarteten ist entscheidend für die Verhaltensanpassung. Sie kann zudem mit deutlich weniger neuronalen Ressourcen errechnet werden als ein vollständiges Abbild der visuellen Außenwelt.

4. Zwischenresümee

Vor vierzig Jahren, 1981, wurden David Hubel und Torsten Wiesel für ihre bahnbrechenden Experimente zum visuellen System mit dem Nobelpreis für Medizin geehrt. Seit Ende der 60er Jahren hatten sie die neurophysiologischen Grundlagen des Sehens in Gehirnen untersucht. Ein wichtiger Beitrag aktueller Forschung ist die Beschreibung sogenannter top-down Prozesse, die für das Sehen Erwartungen und die Abweichungen von Seherwartungen ins Zentrum stellen. Den theoretischen und mathematischen Rahmen dafür liefert die Theorie einer prädiktiven Kodierung (Predictive Coding Theory, PCT). Ihre Anwendung in interpretierend «sehender» Künstlicher Intelligenz ist ein Beleg ihrer Stärke.

Phänomene der unwillkürlichen Komplettierung, z.B. eines Gesichts trotz Maske, der Blindheit durch eine fokussierte Aufmerksamkeit (z.B. das berühmte youtube-Video eines «unsichtbaren» Gorillas während eines Basketballspiels) sind durch passive bottom-up Modelle der Verarbeitung visueller Reize nicht zu erklären gewesen. Eine vorurteilsgeleitete Wahrnehmung ist hoch effizient, aber auch zugleich fehleranfällig sowie manipulierbar und vermutlich gleichzeitig die Grundlage für Glücksmomente des Kunsterlebens. Diese müssen etwas mit der Spannung zwischen dem Erwartbaren und der Überraschung zu tun haben.

Doch dazu mehr in Teil II.

Hennric Jokeit

Prof. Dr. Hennric Jokeit (geb. 1963 in Stralsund) ist ein deutscher Neuropsychologe und Fotograf, der in Zürich lebt und arbeitet. Jokeit ist Titularprofessor für Neuropsychologie an der Universität Zürich und leitet das Institut für Neuropsychologische Diagnostik und Bildgebung an der Schweizerischen Epilepsie-Klinik. Seit 2000 ist er auch fotografisch tätig. Seine Fotografie setzt sich kritisch mit gesellschaftlichen Prozessen sowie mit den Grundlagen von Wahrnehmung und Fotografie auseinander. Von ihm sind bisher drei Fotobände erschienen. Seine Arbeiten werden international in Galerien, auf Messen und Festivals ausgestellt.

Mehr ReVue
passieren lassen?

Der ReVue Newsletter erscheint einmal im Monat. Immer dann, wenn ein neuer Artikel online geht. Hier en passant abonnieren.

Sie möchten unsere Arbeit
mit einer Spende unterstützen?
Hier en passant spenden!

Fotografie ist allgegenwärtig, wird aber in den journalistischen Medien noch wenig hinterfragt oder erklärt. Wer an Journalismus denkt, denkt an Texte. Das digitale Magazin ReVue verfolgt einen anderen Ansatz: Es nähert sich den Themen vom Bild her. In unseren Beiträgen untersuchen wir die Rolle und Funktion von Bildern im Verhältnis zum Text, zur Wahrheit, zum politischen oder historischen Kontext. Wie nehmen wir Bilder wahr? Welche Geschichte steckt dahinter?
Unsere Beiträge erscheinen auf Deutsch, wir übersetzen aber auch fremdsprachige Texte und erleichtern so den Wissenstransfer zu einer deutschsprachigen Leserschaft.
ReVue ist unabhängig. Die Redaktion arbeitet ehrenamtlich. ReVue ist ein Projekt der gemeinnützigen DEJAVU Gesellschaft für Fotografie und Wahrnehmung e.V. in Berlin.