Sehflächenforschung. Eine Einführung

Schmitz, Ulrich (2010)

Dokument als PDF

1. Bilder, Sprache, Wissenschaft

„Bildlinguistik“ - dieser griffige Ausdruck drückt einen Widerspruch in sich aus. Sprache und Bild sind zwei medial, semiotisch, methodisch und technisch verschiedene Ausdrucksformen. Wer spricht, zeigt nicht; wer schreibt, malt nicht. Jedes Kind kennt den Unterschied und weiß ihn gut einzusetzen. Von einer ,Sprache des Bildes‘ kann nur in einem metaphorischen Sinne die Rede sein.1 Mit sprachlichen Mitteln kann man einen Sachverhalt ,darstellen‘, etwas ,vor Augen führen‘, sich einen Traum ,ausmalen‘ und so fort. Damit erzeugt man aber nicht materielle Bilder (z.B. Filme, Fotos oder Gemälde), sondern ruft nur gedachte, ,imaginierte‘ Bilder hervor. Sicher kann man die ,Einbildungskraft‘ sowohl mit Bildern als auch mit Sprache unterstützen. Aber es sind eben doch zwei verschiedene Wege.
Linguistik ist die Wissenschaft von menschlicher Sprache, nicht aber von Bildern. Für Bilder ist Bildwissenschaft zuständig, nicht Sprachwissenschaft. Nun ist Bildwissenschaft2 (jenseits von Kunstgeschichte) wegen verschiedener Umstände heute bei weitem noch nicht so ausgereift wie Sprachwissenschaft. Das ist aber kein Grund für linguistischen Imperialismus. Wer in fremden Wassern fischt, unterstellt leicht, es ginge dort genauso zu wie in den eigenen, und verfehlt schnell das Andersartige. (Als arbeiteten Bilder also mit einer Syntax, so etwas Ähnlichem wie Wörtern, Sätzen usw.) Erst eine klare Arbeitsteilung zwischen beiden Disziplinen ermöglicht ihre sinnvolle Zusammenarbeit. Und natürlich liegen gerade die reizvollsten Fragen in den interdisziplinären Zwischenwelten. Erst die Unterscheidung von Biologie und Chemie macht professionelle Biochemie auf hohem, also differenziertem Niveau möglich. Genau so verhält es sich mit Sprach- und Bildwissenschaft. Erst wer weiß, dass alle Sprachen der Welt mit der doppelten Gliederung in - sehr viele - kleinste bedeutungstragende und - sehr wenige - kleinste bedeutungsunterscheidende Einheiten (Morpheme und Phoneme) arbeiten, erkennt, dass Bilder eine ganz andere Architektur aufweisen. (Weshalb man nicht etwa eine fremde Sprache mit eigenen Vokabeln und eigener Grammatik erlernen muss, um Bilder fremder Kulturen zu verstehen.)
Das freche Wort „Bildlinguistik“ schreit allerdings ein Desiderat, einen wissenschaftlichen Wunsch heraus, eben den Wunsch nämlich nach interdisziplinärer Untersuchung des Zusammenspiels von Sprache und Bild. Überall sehen wir Bilder von Sprache begleitet und Sprache von Bildern unterstützt: in Museen, auf Plakatwänden, auf fast allen Arten bedruckten Papiers, Metalls, Stoffs und anderer Materialien. Die vielfältigen Botschaften des alltäglichen Lebens schlagen der aus gutem Grunde um Ordnung und Spezialisierung bemühten wissenschaftli-hen Arbeitsteilung ein Schnippchen. (Wie sich die vielfältigen Prozesse in der Natur ja auch nicht um die gerade aktuelle oder für nützlich gehaltene Ordnung der Naturwissenschaften scheren.)
Nun sind alle Wissenschaften an ihre Erkenntnisse nur um den Preis jeweils spezialisierender Einschränkungen gekommen. Die Linguistik bietet heute nur deshalb ein methodisch so differenziertes und inhaltlich so erkenntnisreiches Bild, weil sie auf eine lange Geschichte mehr oder weniger bewusster Spezialiisierungen zurückblickt. Es gibt ja fast nichts Menschliches, das nicht in irgendeiner Weise mehr oder weniger eng mit sprachlicher Kommunikation zusammenhinge (z.B. auch sämtliche Wissenschaften selbst). Man kann aber nicht alles zugleich untersuchen. Beschränkte man sich in den Anfängen auf anwendungsorientierte, vor allem didaktische und übersetzerische Aspekte des grammatischen Baus einiger weniger Sprachen, auf Sprachgeschichte und die Philologie ganzer Texte - stets in schriftlicher Form -, so erweiterten sich nach und nach zunächst Wunsch und dann Wirklichkeit der sprachwissenschaftlichen Forschung von schriftlichen Ganztexten auf zuerst grammatische Regeln und dann auch tatsächliche Erscheinungsweisen erst schriftlicher, dann auch mündlicher Kommunikation in zahlreichen Lebenssituationen und unterschiedlichen Kulturen der Welt. Zuerst wurde Sprache isoliert ,an sich selbst‘, dann in ihren jeweils höchst unterschiedlichen funktionalen und pragmatischen Vorkommensbedingungen erforscht.
Doch stets - und verständlicherweise - ging es fast nur um Sprache. Weitgehend vernachlässigt wurde in diesem nach und nach sich entwickelnden Programm bisher ein wichtiger Gesichtspunkt, der Kommunikation heute noch mehr prägt als je zuvor in der menschlichen Geschichte, nämlich das multimodale Zusammenspiel materiell verschiedener Zeichenträger. Mündliche Kommunikation war immer schon begleitet von Gestik und Mimik, schriftliche Kommunikation immer schon in irgendeiner Weise visuell gestaltet (Handschrift, Kalligraphie, Typographie, Layout); und beide traten immer schon in weiteren visuellen, akustischen, haptischen und olfaktorischen Kontexten auf, welche die Situation und nicht selten auch den Sinn der Botschaft mit beeinflussten (z.B. Bilder auf einem Flugblatt, Geräuschkulisse bei der Arbeit, körperliche Berührung bei einer Liebeserklärung, Weihrauch beim Gebet). Einiges davon ist in semiotischen, ethnologischen und sehr selten auch linguistischen Zusammenhängen auch beschrieben und untersucht worden, doch kaum umfassend, systematisch und intensiv.
Dabei ist multimodale Kommunikation, also Verständigung über parallele Kanäle und mit mehreren Sinnen, eigentlich der Standardfall. Durch Buchdruck und Philologisierung der Geisteswissenschaften ist das nur ein wenig in Vergessenheit geraten. Heute jedoch sieht die Welt anders aus. Die Lebenswelten werden immer vielfältiger, differenzierter, intensiver, geschwinder, glokaler, komplexer. Deshalb müssen entsprechende Kommunikationsmöglichkeiten gefunden werden - zum Beispiel solche, die die je spezifischen Leistungen der verschiedenen Kommunikationskanäle und -modi synergetisch miteinander verflechten. Und eben das ist geschehen und geschieht weiterhin. Vor allem durch den Ausbau technischer Kommunikationsmittel im 20. Jahrhundert (Farbdruck, Film, Rundfunk, Fernsehen, Handy usw.) wurde es technisch immer leichter und billiger, Wort & Bild & Text & Ton in bi- und multimodalen Botschaften miteinander zu verbinden. Insbesondere in den vergangenen drei Jahrzehnten seit der durchgreifenden Digitalisierung technisierter Kommunikation per Computer können sowohl große Institutionen als auch Millionen, wenn nicht schon Milliarden privater Individuen mehr oder minder komplexe multimodale Botschaften nicht nur aufnehmen und verstehen, sondern auch selbst erzeugen und senden.
Im Folgenden geht es nur um den häufigsten und einflussreichsten Typ solcher Botschaften, nämlich die Verbindung von Sprache und Bild. Der größte Teil öffentlicher visueller Kommunikation verläuft heute nicht über monomodale Texte (wie im 19. Jahrhundert und wie wir das bis fast in die unmittelbare Gegenwart noch aus den Bildungsinstitutionen Schule und Hochschule gewohnt sind), sondern über Verknüpfungen von Bildern mit Sprache. Allein der Einfachheit halber vernachlässige ich gesprochene Worte und bewegte Bilder (z.B. in Film und Fernsehen)3 und konzentriere mich hier auf die leichter zu beschreibende Verbindung von schriftlichen Texten und unbewegten (stehenden) Bildern. Sie erscheinen auf Sehflächen aller Art: Zeitungen, Zeitschriften, Buchseiten, Geldscheinen, Flyern, Ansichtskarten, Plakaten, Wegweisern, Schaufenstern, Bildschirmen, Webseiten, T-Shirts, Warenverpackungen und so weiter und so fort. Sehflächen sind Flächen, auf denen Texte und Bilder in geplantem Layout gemeinsame Bedeutungseinheiten bilden.
Mit Ausnahme hypermedialer Webseiten im Internet ist das alles nicht neu. Landkarten, Infografiken, Bilderrätsel, Texte in Kirchenfenstern, Wappen, Kunstwerken, Bilderbüchern und andere Text-Bild-Gestalten gibt es seit Jahrhunderten oder Jahrtausenden. Doch heute beherrschen sie unseren kommunikativen Alltag. Sehflächen sind unauffälliger Standard jedenfalls in der öffentlichen visuellen Kommunikation. Reine Bilder ohne Texte und pure Texte ohne Bilder verlangen zeitintensivere Rezeption; deshalb gelten sie entweder als altmodisch (Vorderseite von Heiligenbildchen, Kursbuch) oder sind seltener Luxus für besondere Räume oder Gelegenheiten (Kunstmuseen, Romanlektüre). In der umtriebigen, oft turbulenten, hektischen, entweder auf Geschwätzigkeit und/oder auf Effizienz angelegten Alltagswelt haben sich Text-Bild-Kombinationen als vorzüglich geeignete Mittel zur Darbietung (erst ansatzweise auch zum Austausch) von Informationen erwiesen. Sie ziehen Aufmerksamkeit auf sich, ermöglichen größte Informationsmengen auf kleinstem Raum, erlauben vielfältige Präsentations-, Strukturierungs-, Orientierungs- und Rezeptionsweisen und unterstützen den schnellen Blick. Organisierte Text-Bild-Gestalten entdecken und nutzen semiotische Ressourcen, die in früheren, lebensweltlich und kommunikativ weniger komplexen4 Jahrhunderten keine oder nur eine geringe Rolle spielten. Entsprechend haben sich auch Dichter von Stéphane Mallarmé bis Jochen Gerz, vor allem jedoch fast alle namhaften Maler des 20. Jahrhunderts intensiv mit dem Zusammenspiel von Text und Bild auseinandergesetzt.
Kaum aber die Wissenschaft. Zwar werden bildgebende Verfahren immer häufiger in vielerlei wissenschaftlichen Zusammenhängen eingesetzt, doch als wissenschaftlicher Gegenstand werden Bilder bei weitem noch nicht so ernst genommen, wie es ihrer gesellschaftlichen Bedeutung entspricht. Noch ärger sieht es mit der Erforschung von Text-Bild-Beziehungen aus.5 Sehflächenforschung steht noch am Anfang. Nicht zufällig stammt der Ausdruck „Sehfläche“ aus der Literaturwissenschaft.6 Zunächst bezieht er sich allein darauf, dass schon rein schriftliche Texte auf den ersten Blick in ihrer visuellen Präsentation samt Seitenlayout und Schriftbild als Gestalt erfasst werden. Tatsächlich sind wir heute von Sehflächen aller Art umgeben, in denen Schrift und Bild durch ein beide Seiten verbindendes Design formal und inhaltlich untrennbar ineinander spielen. Weil Sehflächen in ihrem multimodalen Zusammenspiel sich als besonders effiziente Instrumente schneller und komplexer Information eignen, erobern sie immer mehr Bereiche moderner Kommunikation. Täglich werden zahllose neue und auch neuartige Sehflächen entwickelt.



 
2.     Nutella
Betrachten wir ein einfaches Beispiel (Abb. 1).



Abb. 1: Deckel eines Nutella-Döschens (2008)

So sieht der abziehbare Aluminium-Deckel einer Kleinportion Nugat-Aufstrichs aus, wie sie beispielsweise zum Frühstück im Hotel gereicht wird. Wir lesen ihn nicht linear wie Texte von oben rechts nach unten links, sondern nehmen das Ganze holistisch wahr, wie wir es von Bildern gewohnt sind. Der übliche Blick begnügt sich mit dem ersten Eindruck, konzentriert auf die größten und auch farblich auffälligsten Gestalten in der Mitte: eine braune Masse offenbar mit einem Messer auf eine Scheibe Brot gestrichen, überschrieben mit dem schwarz-rot gehaltenen Markennamen „nutella“. Stünde nur „nutella“ dort ohne Abbildung, fehlte die sinnlich-konkrete Assoziation (oder der Leser müsste sie eigens aus seinem Weltwissen erst abrufen). Würde nur die bestrichene Brotscheibe gezeigt, wäre nicht eindeutig klar, was sich in dem Döschen befindet. So aber referieren Wort und Bild - allein dadurch, dass sie als optisch größte Gestalten unmittelbar beieinander stehen - wechselseitig aufeinander und erzeugen gemeinsam den beabsichtigten Sinn: ,In diesem Döschen steckt Nutella, das - wie du weißt - so aussieht und das du auf dein Brot streichen kannst.“ Der gemeinte Bildsprechakt verbindet also eine assertive Mitteilung („dies ist“) mit einem kommissiven Versprechen („hier drin befindet sich“) und einer direktiven Aufforderung („öffne und schmecke“).7 Das Wort „nutella“ allein käme allenfalls assertiv daher, das Bild allein bliebe unklar. Die Verbindung von Text und Bild schmiegt sich unmittelbarer in die tätige Lebenswelt des Frühstückers ein.
Wer vor dem Öffnen etwas länger hinschaut, nimmt unterhalb dieser zentralen Hauptbotschaft und eingebaut in sie eine zweitrangige Text-Bild-Kombination wahr. Gemäß der von Texten gewohnten Leserichtung steht sie nicht links, sondern rechts davon an der Peripherie (Abb. 2).


 

Abb. 2: Nuss & Milch (Ausschnitt aus Abb. 1)

Dass Glas, Blüte und Nüsse nicht gleichrangige Bestandteile einer in sich einheitlichen Abbildung (etwa nach Art eines Stilllebens) sind, sondern als ikonisch erklärende Zusatzbildchen dekorativ daneben montiert wurden, wird aus den unterschiedlichen Größenverhältnissen klar: Gemessen am Brot ist das Glas eher zu klein und sind die Nüsse eher zu groß. Als eigenständige Botschaft wiederum wäre diese Nebenkomposition aus Glas, Blüte, Nüssen und Textschild unver-ständlich, denn Nüsse haben nichts mit entrahmter Milch zu tun. Weil sie aber unmittelbar neben der Brotscheibe steht, wird sie als ergänzender Teil des Gesamtbildes wahrgenommen; und weil der blaue Text wie ein Schild vor dem Glas und rechts unter dem wichtigsten Wort steht, wird auch er als ergänzender Teil sowohl des Hauptbildes (Nugat-Brot mit Messer) als auch des Haupttextes („nutella“) verstanden. Hauptbild und Nebenbild, eine Ebene darüber aber auch die oben besprochene gesamte Hauptbotschaft („Dies ist Nutella…“) und die hier besprochene zweitrangige Nebenkomposition (Milchglas, Textschild, Nüsse), verhalten sich (nach Art von Sprache) jeweils wie Referenz und Prädikation; als Text gelesen etwa: ,Die gezeigte Nutella enthält das Beste aus entrahmter Milch und außerdem Haselnüsse.‘ Ohne das weiß-blaue Textschild könnte man das nicht verstehen. Das Glas könnte ja auch Wasser enthalten und brauchte mit dem Inhalt der Nugat-Creme ebenso wenig zu tun zu haben wie die dekorativ beige-legte Blüte (keine Haselnussblüte). Dass Nutella hingegen wohl Nüsse enthält, braucht nicht eigens gesagt zu werden: Deren Abbildung, unterstützt durch die nicht ganz ferne Präposition „mit“ und das Nomen „Nuss“ viel weiter links unten, ruft vorhandenes Weltwissen auf.
Wie in der Hauptbotschaft stehen also auch in dieser kunstvoll eingebetteten Nebenbotschaft Text und Bild nicht unabhängig nebeneinander, sondern können beide nur in ihrem wechselseitigen Bezug verstanden werden. Dieser Bezug zwischen Bild und Text wie auch die gesamte teils hierarchische, teils lineare Verflechtung sämtlicher Bestandteile der Komposition wird durch ihre gezielte Platzierung organisiert. Das ist das Merkmal von Sehflächen. Sehflächen enthalten nicht einfach sowohl Texte als auch Bilder, sondern organisieren deren semiotische Interaktion (Inhalt) durch gezieltes Design (Ausdruck). Dabei nehmen Bilder einige Eigenschaften von Texten an (hier zum Beispiel die optisch durch das pfeilähnliche Messer unterstütze Leserichtung von links nach rechts) und Texte einige Eigenschaften von Bildern (hier etwa eine Bevorzugung ästhetischer Präsentation durch Farbe und Typographie auf Kosten grammatisch vollständiger Ausformulierung).
Auf einer dritten Ebene schließlich, die als weniger wichtig dargeboten wird und intensive Lektüre erfordert, werden noch weitere Informationen dargeboten (Abb. 1). Dominierte auf der ersten Wahrnehmungsebene für den schnellen Blick die visuelle Erscheinung (Brotbild mit farbigen Buchstaben in charakteristischer Typographie) und brachten sich auf der zweiten schon charakteristische Eigenschaften von Sprache stärker zur Geltung (Leserichtung von links nach rechts, grammatisch strukturierte Folge von sechs Wörtern), so besteht die dritte Ebene (alle bisher noch nicht besprochenen Bestandteile) hauptsächlich aus Buchstaben, die als Texte oder Textstücke gelesen werden. Teilweise entdecken wir modulare Fragmente, die auf grammatische Strukturierung möglichst verzichten: „18,5 g / Nuss Nugat Creme / Ferrero Frankfurt/M.“. Sogar die Regeln der Wortbildung (Komposition durch Zusammenschreibung oder mindestens Bindestrich) werden demonstrativ missachtet zugunsten vertikaler oder horizontaler Aneinanderrei-hung einzelner Zeichen. Teilweise gibt es aber auch Ansätze zu dann per Interpunktion wieder abgebrochener Bildung von Satzfragmenten („Mindestens haltbar bis: siehe Bodenprägung“) oder gar ganzer Sätze („100 g nutella enthalten durchschnittlich“: Energiewert…“). Zentral geht es jedoch um einfache Tabellen („Kohlen-/hydrate..54 g / Fett..30 g“) und Listen („Zutaten: Zucker, pflanzliches Öl […]“). Tabellen reduzieren die aus Sprache gewohnten verhältnismäßig komplizierten Bildungs- und Anordnungsregeln (die hierarchische Strukturen in linearer Folge zu präsentieren gestatten) auf flächig gestaltete Aufzählungen von mindestens je zwei regelmäßig aufeinander bezogenen gleichartigen Komponenten, während die rein lineare Abfolge von Listen eine noch einfachere Ordnung aufweist. Tabellen und Listen arrangieren zwar sprachliche Elemente zu einer Gesamtbedeutung, die mehr ist als die Menge ihrer Teile, kommen jedoch (wie Bilder) ohne grammatische Strukturen aus. Meistens sind Tabellen und Listen knapper, präziser und prosaischer als Texte. „mit dem Besten aus entrahmter Milch“ ist zwar äußerst ungenau, klingt aber ansprechender als eine Liste aus Fachtermini und Zahlen. So gesehen mutet diese dritte, stark textbasierte Informationsebene unseres kleinen Aludeckelchens völlig anders, nämlich trocken und sachlich, an als vor allem die appetitanregende und stark bildbasierte erste, aber auch die zweite Wahrnehmungsebene. Sie ist aber juristisch notwendig, für ernährungsbewusste Nutzer von Interesse und wird in ihrer Nebensächlichkeit durch den visuellen Kontext angenehm bis unschädlich integriert.
Links außen auf dem kleinen Abziehzipfel (Abb. 1) schließlich entdecken wir noch eine ebenfalls juristisch erforderliche kleine Text-Bild-Kombination, die sämtliche Eigenschaften von Sehflächen in rudimentärer Form wiederholt. Text und Bild sind wechselseitig aufeinander angewiesen; das eine funktioniert nicht ohne das andere. Die konventionalisierte visuelle Anordnung bezieht beide aufeinander. Der Text beschreibt nicht das Bild, und das Bild illustriert nicht den Text. Das Bild nimmt gewisse Eigenschaften von Texten an (hier durch strikte Konventionalisierung innerhalb einer Regelgemeinschaft) und der Text umgekehrt solche von Bildern (hier die visuelle Gestaltung und der Verzicht auf Syntax). Und schließlich herrscht eine seltsame Spannung zwischen Text und Bild, von der die gesamte Sehfläche schließlich auch lebt. Wir sehen ja keinen „Punkt“, wie es im Text heißt, sondern einen Kreis, der à la Yin und Yang aus einem hell- und einem dunkelgrünen Pfeil geformt wird. Farbe und Form in Ver-bindung mit nichtdeskriptivem Text an genau dieser Stelle (Warenverpackung) rufen Weltwissen auf, wie es in rein bildlicher Form nicht möglich wäre und in rein schriftlicher Form ein Vielfaches ein Platz und Lektürezeit in Anspruch nähme.




3.     Text und Bild als semiotische Partner: Gemeinsamkeiten und Unterschiede8

Wie ist es überhaupt möglich, dass Text und Bild in dieser Weise zusammenspielen, wo sie doch so verschieden sind? Bilder und Texte verfolgen ja derart unterschiedliche Zwecke und bedienen sich derart unterschiedlicher Mittel, dass man sie nicht einmal ineinander übersetzen kann (wie zum Beispiel einen Suaheli-Text ins Chinesische oder umgekehrt). Man kann auch nicht ohne weiteres ein sprachloses Bild auf ein anderes folgen lassen wie einen zweiten Satz (oder eine Antwort) auf einen ersten (oder auf eine Frage). Wohl kann man Bilder mit Worten beschreiben, und man kann Texte mit Bildern illustrieren; aber das ist etwas ganz anderes als das elegante semiotische Zusammenspiel, das wir auf dem Nu-tella-Deckel beobachtet haben. Offenbar sind Text und Bild auf eine näher zu untersuchende Weise semiotische Partner, die sowohl verwandte Merkmale als auch charakteristische Unterschiede teilen. Betrachten wir zunächst die Ähnlich-keiten. Wir finden sie in (1) Herkunft, (2) Aussehen und (3) Funktion.
(1) Bild und Schrift gehen aus ähnlichen Ursprüngen hervor. Im Laufe der Geschichte haben Menschen gelernt, Sinn zu kommunizieren, indem sie materiellen Gegebenheiten wiedererkennbare Formen aufprägen. Die nächstliegenden und folglich ältesten Verfahren bedienen sich physiologischer Eigenschaften des menschlichen Körpers: Mimik, Gestik, gesprochene Sprache. Sie erfordern den geringsten Aufwand, sind aber an die jeweilige Situation gebunden und flüchtig. Für beständigere Zeichen muss man weitere materielle Grundlagen heranziehen. Am einfachsten und effizientesten ist es, wenn man Farbe nach mehr oder weniger konventionellen Mustern in der Fläche verteilt, um Sinn auszudrücken. So entstand in allen Kulturen ein breites Spektrum an visuellen Zeichen, von höchst individuellen und vieldeutig verstehbaren Ausdrucksformen (z.B. frühen Kinderzeichnungen) bis zu höchst konventionalisierten, eindeutig festgelegten Bedeutungsträgern (z.B. Piktogrammen). Und überall dort, wo die Vorteile grammatisch organisierter Sprache mit denen visueller Kommunikation verbunden werden sollten und konnten, entstand Schrift.
(2) Texte und Bilder füllen Flächen. Schon wegen der gemeinsamen gestal-terischen Grundlage, nämlich Sichtbarkeit in der Fläche, können sie ohne weiteres neben- oder ineinander stehen, auch ineinander übergehen. Schrift erzeugt immer ein Schriftbild in der Fläche, und manchmal, z.B. bei Kalligraphie oder Graffiti, entsteht allein daraus schon ein wirkliches Bild. Von Anfang an war Schreiben auch Kunstform, die eigene Ausdrucksmittel jenseits des logisch-linearen Schriftverlaufs erlaubte. Doch im Laufe der Geschichte wurde die monotone Eindimensionalität herkömmlich geschriebener Sprache auch bei profanen Texten zu einer immer komplexeren „Semiotik der Textgestalt“ entfaltet; und je mehr geschrieben wurde, desto mehr erfand man lektüresteuernde Paratexte, visuelle Hilfen und Untertexte jenseits des linearen Schriftverlaufs, so etwa Layout, Typographie, Groß-/Kleinschreibung, Paginierung, Kopfzeilen, Spalten, Rubriken, Marginalien, Fußnoten, Inhaltsverzeichnisse, Register, Glossare usw.9 Umgekehrt können Bilder als Schrift dienen, je unterschiedlich etwa in Hieroglyphen, Bilderrätseln, Fingerabdrücken (als Unterschriftsersatz) und interkulturell verständlichen Verhaltensanweisungen in Bilderfolgen.
(3) Wie alle Zeichen schöpfen Bilder und Texte auch geistig aus einer gemeinsamen Quelle symbolischer Kommunikation. Mit Texten und mit Bildern drückt man etwas aus, teilt man etwas mit. Wie Sprache „die sich ewig wiederholende Arbeit des Geistes, den articulirten Laut zum Ausdruck des Gedanken fähig zu machen“ (Humboldt 1963: 418) ist, so werden in Bildern Formen und Farben durch artikulierte Gestaltung ausdrucksfähig gemacht. Deshalb kennzeichnet Humboldts (ebd. 383) Charakterisierung der Sprache als einer „Erzeugung menschlicher Geisteskraft in immer neuer und oft gesteigerter Gestaltung“ auch Bilder, wiewohl die Gestaltungsmittel andere sind. Weil Sprache und Bild gleichermaßen in unserer Vorstellungskraft wurzeln, können wir sie geistig auf-einander beziehen. Schon Kinder können Bilder mit Worten erläutern und Worte mit Bildern illustrieren; und den Umgang mit Schrift lernen sie über Bilderbücher und bildreiche Fibeln. In der Sprache selbst gibt es im übertragenen Sinne ,Bilder‘, und materielle Bilder können wir mit sprachlichen Mitteln - man sagt ja: ,beschreiben‘.
Damit kommen wir zu den Unterschieden zwischen Texten und Bildern. Sie betreffen (1) Art, Mittel und Zweck der Repräsentation sowie (2) die Wahrnehmungsweise.
(1) Prototypische Texte (zum Beispiel dieser Aufsatz) entfalten mit Worten Gedanken. Dabei folgen sie einer konventionell geregelten Grammatik. Sie ermöglicht es, hierarchische Strukturen in eine lineare Reihenfolge zu bringen, indem sie das Gerüst dafür organisiert, wie Teile (z.B. Wörter) und Ganze (z.B. Sätze) aufeinander bezogen werden. Zu dessen ingeniösen Merkmalen (in allen Sprachen der Welt) gehört zum Beispiel die Ökonomie der doppelten Gliederung (in kleinste bedeutungstragende und kleinste bedeutungsunterscheidende Bestandteile). Texte eignen sich deshalb gut für symbolische Zeichen, deren Form keinerlei Ähnlichkeit mit dem Inhalt hat.
Prototypische Bilder hingegen (zum Beispiel die Abbildung des Nutella-Brotes) greifen nicht in dieser Weise auf eine mehr oder weniger verbindlich geregelte Sprache zurück. Es gibt keinen systematischen Unterschied zwischen be-deutungsdifferenzierenden und bedeutungstragenden Elementen. Auch deshalb ist die Technik der Beziehung von Teilen und Ganzen viel weniger strikt vorgeformt. Wohl bilden sich - wie das ja auch bei sprachlichen Werken vorkommt - gewisse Konventionen, Gewohnheiten, Stile heraus. Sie gelten aber nicht verbindlich und dienen vor allem nicht - wie bei der Sprache - der Ökonomie der schnellen Formulierung, die aus sinnlosem Material sinnvolle Aussagen macht. In Bildern wird überhaupt nicht formuliert, sondern gestaltet und vorgeführt. Texte sind eher fürs Mitteilen und Denken gut, Bilder eher fürs Zeigen und Schauen. Bilder operieren deshalb eher ikonisch: Sie bilden etwas ab oder stellen etwas vor.
(2) Je deutlicher diese Eigenschaften ausgeprägt sind, desto stärker unterscheidet sich auch die Art und Weise, wie Bildliches und Schriftliches wahrgenommen werden. Bilder werden vom Ganzen zu den Teilen hin erblickt. Typischerweise erfasst man mit einem Blick zunächst einen optischen Eindruck des Ganzen als Gestalt. Dieses erste Bild, das man sich von dem Bild macht, steuert die folgende Reihenfolge und Deutung der Teile, deren Wahrnehmung das Ganze teilweise aber auch modifizieren kann. Weitere Blicke (wie auch bei unserer Nutella-Lektüre) wandern in der Fläche herum, fokussieren Einzelheiten und ordnen sie ein (top down). Die Art und Komposition des Bildes kann diese top-down-Bewegung anleiten. So erhascht man von Gemälden oft erst einen gleichmäßigen Eindruck der gesamten Fläche, während viele Plakate den Blick von vornherein zu einem bestimmten Punkt hin lenken. Bei Landkarten interessiert meist weniger die Gesamtgestalt und vielmehr ein bestimmter Teilbereich, doch auch dieser Ausschnitt wirkt als ganze Gestalt. Bilder werden typischerweise holistisch und simultan wahrgenommen.
Demgegenüber werden geschriebene Texte sukzessiv von Teilen ausgehend zu einem Ganzen hin erlesen. Im reinsten Fall hält der Leser den unvermeidlichen visuellen Gesamteindruck von Layout und Typographie für unbedeutend gegenüber dem sprachlichen Inhalt; und das geistige Auge tastet sich in geordneter Reihenfolge, nämlich linear, von Zeichen zu Zeichen, um aus dem Einzelnen nach und nach einen ganzen Sinn zu erschließen (bottom up). Die Art dieser bot-tom-up-Bewegung hängt von der Textsorte ab (sofern nicht auch bildlich-visuelle Elemente die Textgestaltung mitbestimmen). Romane werden anders benutzt als Gebrauchsanweisungen und Telefonbücher. Doch immer will Schrift, in wie kleinen Portionen auch immer, linear entziffert werden.
Dagegen spielt Linearität wohl in Bildfolgen (etwa bei Comics) eine Rolle, kaum aber innerhalb eines Bildes. Normalerweise werden Bilder angeschaut, Texte aber gelesen. (Der charakteristische Unterschied tritt am deutlichsten hervor, wenn Erwachsene kleinen Kindern Bilderbücher vorlesen.) Wer Bilder ,liest‘ (also gründlich entziffert und ihre Bauweise analysiert), tritt ihnen in einer abgeleiteten Weise gegenüber: Der intellektuelle Blick ist nicht der unbefangene erste, sondern einer, der durch die Schule der Schrift gegangen ist. Wer umgekehrt Texte auf ihre visuellen Qualitäten hin anschaut, richtet seine Aufmerksamkeit auf eine ihrer sekundären Eigenschaften und ist nicht oder noch nicht bei dem, wozu Texte üblicherweise dienen sollen.
Kurz: Es gibt keine radikale, unüberschreitbare Trennlinie zwischen Text und Bild, aber doch charakteristische Unterschiede vor allem dort, wo Texte ohne Bilder und Bilder ohne Texte auskommen.




4.     Text-Bild-Partnerschaft: Semiotische Synergien

Aus dem feinen Geflecht von Gemeinsamkeiten und Unterschieden zwischen Bild und Text nun beziehen Sehflächen ihre besondere semiotische Kraft und Eigenart. In gezieltem Design verknüpfen sie beide Ausdrucksweisen zu einer eigenen symbolischen Form, welche die jeweils spezifische Leistung von Text und Bild ergänzt und übersteigt. In Text-Bild-Gefügen herrscht immer schon eine Spannung, Distanz, Differenz zwischen Sprache (hier insbesondere Schrift) und Bild. Sie potenzieren die Spannung, die im Prozess sowohl der sprachlichen als auch der bildlichen Semiose10 je unterschiedlich ohnehin schon steckt.
Stünde etwa auf dem Nutella-Döschen (Abb. 1 und 2) „mit dem Besten aus entrahmter Milch“ lediglich als blanker Text da, so verstünde man ihn als nüch-ternes Rhema zum ebenfalls in sprachlicher Form dargebotenen Thema „nutella“. Ein nackter, bildloser Satz wie „Nutella (in dieser Packung) enthält das Beste aus entrahmter Milch“ wirkte allerdings merkwürdig, weil er als diskursiv-argumentierende sachliche Mitteilung aufgefasst würde und die nicht beantwortete Frage nahe legte, was dieses Beste denn wohl sei. In der in Abb. 2 tatsächlich gewählten etikett- oder stempelförmig ästhetischen Blau-Weiß-Gestaltung hingegen wirkt der Text als Teil des Bildes, wirft keine Fragen auf und lässt keine offen. Im Gegenteil lässt der Wortlaut den Inhalt des Glases als Milch deuten (was sonst keineswegs selbstverständlich wäre) und verknüpft die Vorstellung des „Besten“ sachlich zwar falsch, psychologisch aber beruhigend irgendwie mit dem, was gleich daneben im Bild auch gezeigt wird, nämlich der Blüte, der geschlossenen und der halb geöffneten Haselnuss: Anschauung statt Argumentation, Zeigen statt Denken.
Bild und Text wirken nicht je für sich allein, sondern stecken in ihren Botschaften einander an zu einer simultan und auf einmal wahrgenommenen holistischen Gesamtbotschaft. Niemand (außer uns hier bei der analytischen Detail-Lektüre) zerlegt sie in ihre Bestandteile. Die einzelnen Bestandteile für sich selbst wären sogar (wie oft bei Bildern11) sinnlose Fragmente aus einem Sinn-bruch. Auf der Textseite existiert kein sinnvoller Satz, nur ein frei flottierendes und in sich grotesk widersprüchliches Satzglied (das wirklich Beste steckt ja im Rahm); auf der Bildseite haben Nutella-Brot, tatsächlich durchsichtiges Wasserglas und die Blüte herzlich wenig miteinander zu tun; und Blüte und Nüsse schließlich sind nicht, wie der Text suggeriert, in Milch enthalten. Im ästhetisch komponierten Text-Bild-Gefüge hingegen wirken vielfältige metaphorische Übertragungen zwischen Bild und Text als wechselseitige Sinnspender und -empfänger.12 Wie in diesem Beispiel funktionieren Text-Bild-Beziehungen immer als metaphorische Transaktion zwischen sprachlichen und visuellen Kontextbereichen.13 Der Sinn geht, wie stets bei Metaphern, gerade aus dem Zusammenschluss zweier Elemente hervor, die ,eigentlich‘ nicht zusammenpassen.
Kurz: Schon wer Text und Bild lediglich nebeneinander stellt, erzeugt mehr oder weniger unterschwellige semantische Wechselbeziehungen zwischen beiden, weil beide Seiten als in irgendeiner Weise zusammengehörig verstanden werden. Wer Text und Bild jedoch über geplantes Design auf einer Sehfläche zu einer integralen Gesamtbotschaft vereint, addiert nicht einfach ihre jeweils besonderen semiotischen Leistungen, sondern potenziert sie durch wechselseitige Verbindung. Auf Sehflächen sind Texte nicht einfach Texte und Bilder nicht einfach Bilder. Unter dem Einfluss des jeweils anderen Modus verändern sie vielmehr ihre Form und Funktion und gehen als wechselseitig aufeinander bezogene Teile in ein bedeutungsvolleres Ganzes ein.
Dass Texte und Bilder einige Gemeinsamkeiten (in Herkunft, Aussehen und Funktion) teilen, ermöglicht grundsätzlich ihr Zusammenspiel. Dass sie je für sich dennoch von sehr unterschiedlichen Darstellungsarten, -mitteln und -zwecken geprägt sind und entsprechend unterschiedlich wahrgenommen werden, macht jedes Zusammenspiel riskant und damit spannend. In modernen Sehflächen werden die vielfach noch ungeahnten synergetischen Potentiale der Verbindung von Text & Bild praktisch erkundet und alltäglich realisiert. Wie kann man diese Potentiale wissenschaftlich erschließen?




5.     Konzepte und Begriffe der Sehflächenforschung

Im Folgenden unterbreite ich einige Vorschläge zur näheren Untersuchung von Sehflächen. Da die Sehflächenforschung noch am Anfang steht, kann es sich nur um vorläufige Anregungen handeln. Ich gehe von sprachwissenschaftlichen Konzepten aus, weil die Sprachwissenschaft ein erheblich differenzierteres begriffliches und methodisches Inventar entwickelt hat als die noch junge Bildwissenschaft. Gerade weil Sehflächen Eigenschaften von Texten und Bildern auf oft neuartige Weise miteinander verknüpfen, passen linguistische Begriffe und Methoden häufig aber gerade nicht, sondern müssen modifiziert, verworfen oder stark weiterentwickelt werden. Entsprechende Vorschläge von Seiten der Bildwissenschaft her sind sehr wünschenswert. Aber auch sie werden die besonderen Bedingungen bildlicher Elemente auf Sehflächen besonders berücksichtigen müssen. Denn nicht nur Texte, sondern auch Bilder weisen sich in bi- und multimodalen Kontexten andere Merkmale auf und verhalten sich anders als im (traditionell untersuchten) reinen Sprach- bzw. Bildghetto. Insbesondere wirken Bilder und Texte auf Sehflächen nicht je allein, sondern stets gemeinsam, oft in fragiler Balance. Dabei können Bilder auch klassische Eigenschaften von Texte an-nehmen und umgekehrt.
Sprache (auch in geschriebener Form) bezieht ihre kommunikative Effizienz aus der doppelten Gliederung in bedeutungsunterscheidende Phoneme und bedeutungstragende Morpheme (z.B. „Milch“ aus /m/ + /i/ + /l/ + /ç/, schriftlich repräsentiert durch Grapheme). Dergleichen gibt es bei Bildern nicht. Die Beziehung zwischen Teilen und Ganzen in Bildern folgt nicht einer mehr oder weniger abstrakt vorgegebenen Grammatik, sondern der individuell wahrgenommenen oder erzeugten Struktur der jeweils abgebildeten, inszenierten oder konstruierten Realität. Die prominenten Bildelemente in unserem Nutella-Beispiel (Abb. 1) werden nicht über grammatische oder sonstige Regeln als eine gemeinsame Bedeutungseinheit wahrgenommen, sondern weil sie unmittelbar nebeneinander stehen und - zwar nicht durch einen Rahmen, aber - durch eine semiotisch leere weiße Kontrastfläche vom Rest abgehoben werden. Nur durch Weltwissen wird klar, dass mehrere Gegenstände aus der Realität abgebildet werden und das Bild aus entsprechend vielen, unterschiedlich eng verbundenen Teilen besteht. Im Nutella-Bild sind das (unter dem Einfluss der umgebenden Schrift von links nach rechts angeordnet) Messer, Brot mit Schoko-Aufstrich, Milchglas und drei natur-belassene Produkte (Blüte und Nüsse), außerdem je nach Zuordnung das Textschild. Je nach Körnigkeit kann man das Gesamtbild ad libitum also in linke und rechte Hälfte unterteilen, die linke in zwei (Messer und bestrichenes Brot) oder drei (Messer, Brotaufstrich, Brot), die rechte in zwei große (Glas und Vordergrund) oder ad libitum mehrere oder gar viele kleinere Elemente gliedern. Anders als bei Sprache hört eine sinnvolle Maßstabsvergrößerung dort auf, wo die gezeigten nicht mehr mit realen (oder gemeinten) Elementen in Verbindung gebracht werden können.
Dieser fundamentale architektonische Unterschied zwischen Bild und Text bleibt unüberbückbar. Wenn beide Modi gemeinsam auftreten, wirken diese Merkmale dennoch wechselseitig aufeinander ein. Texte auf Sehflächen neigen dazu, größere grammatisch-hierarchisch gebaute Bögen (z.B. komplexe Wortbildungen, längere Satzglieder oder ganze Sätze) zu vermeiden zugunsten jeweils kleinerer, in sich wenig strukturierter Einheiten, die modular neben- oder hintereinander gestellt werden können. (In unserem Beispiel beachte man auf den drei genannten Ebenen etwa die flexions- und bindestrichlose Inhaltsbezeichnung „Nuss Nugat Creme“, die syntaxarme Inhaltsliste bzw. den elliptischen Satzbruch „Mindestens haltbar bis: siehe Bodenprägung“.) Bilder auf Sehflächen hingegen fügen sich oft in diese modulare Gesamtstruktur ein und stellen Realität so dar, als weise sie keine sehr komplexe innere Struktur ihrer Bestandteile auf. Ohne Textbegleitung wären auf Sehflächen in sich jeweils sehr viel komplexere Bilder zu erwarten (auf unserem Nutella-Döschen etwa eine Bildgeschichte oder ein idyllisches Familienfrühstück).
Vorläufer für derartige Strukturvereinfachung von Text und Bild bei Integra-tion beider Modi finden wir in den meist vergleichsweise einfach strukturierten Text- und Bildbestandteilen von Emblemen. Deren sinnbildliche bzw. allegorische Bedeutung entfällt auf massenmedialen Sehflächen in der Regel zwar zu-gunsten mehr oder weniger profaner Formulierung bzw. realistisch, dekorativ und/oder mnemotechnisch gemeinter Visualisierung. Doch die einander zugeordneten drei Emblem-Teile Bild (Pictura), Überschrift (Inscriptio; in unserem Beispiel „nutella“) und Unterschrift (Subscriptio, in unserem Beispiel das blau-weiße Schriftschild „…Milch“) entlasten einander von komplexerer interner Struktur.
In Zeichengebilden jedweder Art werden Teile auf zweierlei Weise zu Ganzheiten gefügt: Formale Verknüpfungsmittel (Kohäsion) unterstützen semantisch-kognitiven Sinnzusammenhang (Kohärenz). Kohäsion wird in Texten wesentlich über Rekurrenz (sprachliche Wiederaufnahme), Proformen (z.B. Pronomina) und grammatische Mittel erreicht, mangels Linearität und Grammatik in Bildern hingegen durch Farbe, visuelle Formen und Anordnung der Details in der Fläche. Auf Sehflächen geht es vor allem darum, semantische Beziehungen zwi-schen Bild und Text mit formalen Mitteln zu unterstützen. Auch hier wirken entsprechend variierte Verfahren klassischer Bild- und klassischer Textkohäsion zusammen. Das zentrale Instrument zur kohäsiven Verknüpfung von Text- und Bildelementen ist deren Platzierung in der Fläche: Layout. Wie bei Bildern und anders als bei Texten steht das Wichtigste oft in der Mitte und finden sich zusammengehörige Elemente meist unmittelbar nebeneinander. Auch das zweitwichtigste Instrument stammt aus dem Kohäsions-Arsenal von Bildern, nicht von Texten: Design, also zielgerichtete Gestaltung von Farbe und Erscheinungsform. In Sehflächen geht Design vor Grammatik. (Während bei reinen Texten Design keine Rolle spielt.) Erst in dritter Linie, aber immerhin, greift Kohäsion zwischen Text und Bild auf herkömmliche sprachliche Verfahren zurück, passt sie aber den visuellen Bedingungen an. Innersprachliche Rekurrenz kommt auf Sehflächen selten vor, umso häufiger dafür aber intermodale Wiederaufnahmen: „nutella“ oben im Text wird im Bild gezeigt und erst über diesen Zwischenschritt mit „Nuss Nugat Creme“ unten identifiziert. „Milch“ im Text scheint die dahinter sichtbare Flüssigkeit im Glas zu sein. Das funktioniert auch über größere Entfer-nungen: Das Wort „Nuss“ unten links rekurriert auf das Bild der Nüsse etwas höher rechts. So können Textelemente in die flächig angeordnete Architektur (nicht: linear sich entwickelnde Grammatik) des Gesamtbildes integriert werden und zur kohärenten Sinnbildung beitragen. Proformen (wie z.B. Pronomina als Stellvertreter für Nomen) kommen in Bildern nicht vor, weil es gar keine visuellen Entsprechungen für Wortarten gibt; auch alle anderen grammatischen Mittel entfallen.
Die Linguistik unterscheidet Textsorten, zum Beispiel Märchen, Kochrezepte, Hörfunknachrichten.14 Textsorten sind „konventionell geltende Muster für komplexe sprachliche Handlungen und lassen sich als jeweils typische Verbin-dungen von kontextuellen (situativen), kommunikativ-funktionalen und strukturellen (grammatischen und thematischen) Merkmalen beschreiben“ (Brinker 2001: 135). In ähnlicher Weise ließen sich Bildsorten unterscheiden, zum Beispiel Stillleben, Röntgenbilder, Hochzeitsfotos, Wappen, Witze ohne Worte, Fo-totapeten und so fort. Schwieriger aber (weil vielfältiger) wären Text-Bild-Sorten auf Sehflächen einzuteilen: von Briefmarken, Firmenlogos, Werbeflyern und Leuchtreklamen über Schaltpläne, Landkarten, T-Shirts und Pizza-Verpackungen bis zu Bilderbüchern, Bildbänden, Plakaten und Verkehrsanzeigetafeln. Nach welchen Kategorien soll man die unüberschaubare Menge allein schon rein statischer Sehflächen ordnen, von beweglichen Displays und hypermedialen Webseiten zu schweigen? Größe, äußere Erscheinungsmerkmale, Thema, Zweck, Verwendungssituation, Gewichtung, Kohäsion oder Kohärenz zwischen Text und Bild? Art und Intensität der Text-Bild-Verknüpfung? Oder kann man sie in einer n-dimensionalen Matrix mit mehreren solcher Merkmale einordnen? Wie grob- oder feinkörnig sollen die Differenzierungen sein? Wünschenswert wäre eine korpusgestützte systematische und empirische Erforschung der täglich wachsenden Menge von Text-Bild-Sorten auf Sehflächen. Sie gäbe auch Antworten auf einige andere der in diesem Abschnitt gestellten Fragen.
Vorläufig mag man sich mit einer ersten Definition in Anlehnung an Brinker begnügen: Text-Bild-Sorten sind konventionell geltende Muster für komplexe semiotische Handlungen und lassen sich als jeweils typische Verbindungen von kontextuellen, kommunikativ-funktionalen und strukturellen (grammatischen und visuellen) Merkmalen beschreiben. Unser Nutella-Deckel etwa kann als ein Exemplar der Text-Bild-Sorte Nahrungsmittelverpackung gelten. Nach bestimmten (teils juristisch kodifizierten, teils marketingbedingten, teils auf Gebrauchseffizienz angelegten und teils der Knappheit des Platzes geschuldeten) Konventionen verknüpfen solche Botschaften auf Nahrungsmittelverpackungen auf von Fall zu Fall näher beschreibbare Weise (s. o. Abschnitt 2) vorwiegend elliptische schriftliche Textelemente mit vorwiegend ikonischen Bildelementen in einem ästhe-tisch geplanten Design (incl. Form, Farbe & Layout). Dabei stehen der typographisch stets gleich gestaltete Markenname in Verbindung mit einer idealisierenden Abbildung der Ware (oder ihrer Verwendungssituation) im Vordergrund. Weitere, stärker textorientierte Elemente geben zusätzliche Informationen, die nur bei intensiverer Lektüre wahrgenommen werden, und zwar auch dann in der Regel selektiv. Die typischen Kontexte sind Auswahl oder Kauf der Ware bzw. ihr aktueller Gebrauch. Die kommunikativen Funktionen verbinden Werbung und Information in der skizzierten Weise. Herausragende grammatische und visuelle Merkmale sind mit elliptischer Modularität bzw. idealisierender Ikonizität sowie der rezeptionsseitig zweistufigen Figur-Grund-Anordnung benannt.15
In ähnlicher Weise sollten charakteristische Exemplare zunächst möglichst unterschiedlicher Text-Bild-Sorten beschrieben werden, bevor auf dieser Grundlage einerseits eine allgemeine Typologie und andererseits feinkörnigere Analysen und differenziertere Untergliederungen gewonnen werden können.
Auch Konzepte aus der linguistischen Pragmatik können bildwissenschaftlich fruchtbar gemacht werden. So wie Sprechakte (in schriftlicher Form Textakte) als kleinste Einheiten sprachlichen Handelns gelten, können auch Bildakte als kleinste Einheiten visueller Kommunikation identifiziert und klassifiziert werden.16 Da Sprech- und Bildakte die gleichen illokutionären Rollen (assertiv, direktiv, kommissiv, expressiv, deklarativ) lediglich mit unterschiedlichen Kommunikationsmodi realisieren, können sie auf Sehflächen auch ohne Weiteres zusammenspielen. Grob an einem Beispiel skizziert: „nutella“ als Wort und als Bild lassen assertiv wissen, diese Packung enthalte eben diese Ware. Zugleich verweisen sie, ebenfalls assertiv, wechselseitig aufeinander: ,Was man hier sieht, ist Nutella.‘ Nun können parallele Text- und Bildakte auch indirekte und sogar unterschiedliche illokutionäre Rollen tragen. In unserem Beispiel mag die inszenierte Abbildung als kommissives Versprechen gelten: ,So lecker wird dein Brot mit diesem Aufstrich aussehen‘. Dafür gibt es im Text keine Entsprechung. In komplizierteren Fällen (wie in Magrittes Pfeifen-Bild oder in anspruchsvoller Werbung) kann auf diese Weise ein komplexes Gespinst mehrdeutiger und gegensätzlicher illokutionärer Rollen aufgebaut werden, das die besonderen Eigenschaften von Text und Bild synergetisch verknüpft.
Natürlich kann man auch Grice’s Kooperationsprinzip auf Sehflächen-Kommunikation anwenden und entsprechend umformulieren. Grice (1993: 248) zufolge erwarten alle Kommunikationspartner gegenseitig und von sich selbst die Beachtung dieses Prinzips: „Mache deinen Gesprächsbeitrag jeweils so, wie es von dem akzeptierten Zweck oder der akzeptierten Richtung des Gesprächs, an dem du teilnimmst, gerade verlangt wird.“ (ebd. 248) Daraus ergeben sich vier Konversationsmaximen (ebd. 249 f.). Auf Sehflächen angewendet geht es darum,  (1) sie so informativ wie für die jeweiligen Zwecke nötig zu machen und nicht informativer (Quantitätsmaxime), (2) nichts zu präsentieren, was man für falsch hält oder wofür angemessene Gründe fehlen (Qualitätsmaxime), (3) relevant zu sein (Relationsmaxime) und (4) klar zu sein, d.h. Dunkelheit und Mehrdeutigkeit des Ausdrucks sowie Weitschweifigkeit zu vermeiden und alles der Reihe nach anzuordnen (Modalitätsmaxime). Der letzte Aspekt (alles der Reihe nach) gilt für Sehflächen natürlich nur in der entsprechend modifizierten Fassung „alles sachgerecht und ergonomisch“.
Unser Nutella-Deckel erfüllt diese Maximen weitgehend mit Ausnahme der in Abb. 2 gezeigten Teile. Denn bei genauer Betrachtung sind sie, wie erläutert, teils unklar, teils irreführend. Nun gilt es aber zu bedenken, dass Grice (ebd. 252) seine Maximen erklärtermaßen als „Rationalist“ formuliert hat. Tatsächlich kann man schon bezweifeln, dass jede Rede, jedes Gespräch, wie er meint, „eine Spielart zweckhaften, ja rationalen Verhaltens“ (ebd. 251) sei.17 Bei Kommunikation mit Bildern - und folglich auch bei Sehflächen - muss man das keineswegs immer unterstellen, und das tun auch die Kommunikationspartner selbst nur in bestimmten Fällen (z.B. bei Stadtplänen). In vielen Text-Bild-Sorten (z.B. bei T-Shirt-Aufdrucken) spielen nicht rational begründbare (z.B. ästhetische) Aspekte eine entscheidende Rolle. In unserem Beispiel verstößt etwa die gelbe Blüte gegen alle vier Maximen, hat aber dekorativen und vielleicht aufmerksamkeitssteuernden oder verschleiernden Wert.




6.     Sehen Sie selbst!
So weit der einführende Versuch, bewährte Konzepte und Begriffe aus Sprachwissenschaft und -philosophie für die Erforschung von Sehflächen auszuschlachten. Das kann erstens an anderen Beispielen konkret angewendet (Aufgaben a - m), zweitens systematisch ausgebaut (Aufgaben n - s) und drittens kreativ erweitert (Aufgaben t - z) werden.

a) Wähle eine andere Sehfläche (z.B. die Titelseite einer Tageszeitung von heute, eine bildreiche Bedienungsanleitung, das große Werbeplakat auf der anderen Straßenseite). Beobachte genau, in welcher Weise du diese Sehfläche wahrnimmst: In welcher Reihenfolge? Auszugsweise oder vollständig? In welcher Weise lässt du dich dabei vom Layout der Fläche leiten? Wie fügen sich bei der Lektüre Bild- und Textelemente zusammen?
b) Trifft im gewählten Beispiel die These zu, dass einige Bildelemente auch charakteristische Eigenschaften von Texten annehmen und umgekehrt? Beschreibe konkret.
c) Formuliere die Aussage möglichst vieler bildlicher Elemente des gewählten Beispiels in schriftlicher Sprache. Wie weit gelingt das? Was verändert sich an der jeweiligen Einzelaussage? Wie verändert sich die gesamte Sehfläche, wenn möglichst viele visuelle Elemente durch Texte ersetzt wurden?
d) Versuche das Gleiche umgekehrt: Ersetze möglichst viel Textelemente durch Visualisierungen. In welchen Fällen gelingt das nicht und warum nicht?

e) Erhalte alle bildlichen und alle schriftlichen Elemente, lösche bzw. neutralisiere aber alle gestalterischen Elemente (Farbe, Design, Typographie…). Was ändert sich und mit welchen Folgen?
f) Verändere das Layout: Ordne die verschiedenen Bestandteile der Sehfläche anders an. Was ändert sich und mit welchen Folgen?
g) Peirce unterscheidet u.a. zwischen symbolischen Zeichen (deren Gestalt keinerlei Ähnlichkeit mit dem Inhalt hat) und ikonischen Zeichen (deren Erscheinungsbild strukturelle Ähnlichkeiten mit dem Gemeinten hat). Betrachte dein gewähltes Beispiel. Bestehen die schriftlichen Elemente ausschließlich aus symbolischen und die bildlichen Elemente ausschließlich aus ikonischen Zeichen? In welchen Fällen nicht und warum nicht?
h) Kann man in allen Fällen Text und Bild eindeutig unterscheiden, oder gibt es irgendwo fließende Übergänge?
i) Auf welche Weise werden in dem gewählten Beispiel die Beziehungen zwischen Teilen und Ganzen organisiert? Wie in den schriftlichen Teilen, wie in den Bildern, wie bei den Text-Bild-Beziehungen?
j) „Design vor Grammatik“ - inwieweit trifft diese These auf das Beispiel zu?
k) Welche Textakte, welche Bildakte, welche Textbildakte kommen vor?
l) Wo und in welcher Weise genau wird gegen Grice`s Maximen verstoßen? Warum?
m) Stelle dir (oder anderen Personen) selbst weitere Aufgaben zur Analyse des gewählten Beispiels oder auch anderer Beispiele.

n) Stelle eine kleine Sammlung möglichst unterschiedlicher Sehflächen zusammen. Mindestens 20 Exemplare sollten es sein. Ordne sie (so wie man Briefmarken ordnet). Welche Kriterien erscheinen dir sinnvoll? Warum? Welche alternativen Anordnungen kämen in Frage?
o) Entwirf auf dieser Grundlage eine Systematik von Text-Bild-Sorten und differenziere sich mithilfe weiterer Beispiele im Laufe der Zeit immer feiner.
p) Beschreibe einige dieser Text-Bild-Sorten möglichst genau, etwa nach Muster der ,Nahrungsmittelverpackung‘ oben in Abschnitt 5.
q) Webseiten im Internet mit ihren Hyperlinks erweitern Sehflächen um eine zu-sätzliche Dimension. Versuche, diese möglichst genau zu beschreiben. Welche Folgen ergeben sich für Text-Bild-Beziehungen?
r) Beschreibe eine ausgewählte Webseite (z.B. die aktuelle <www.spiegel.de>) mit den erarbeiteten Kategorien möglichst genau.
s) Mit welchen Kohärenz- und Kohäsionsmitteln wird der Zusammenhang zwischen zwei durch anklickbare Hyperlinks verbundene Bildschirmseiten gestaltet? Welche Rolle spielen dabei Bilder, Texte und Text-Bild-Gestalten?

 

t) In der Linguistik nennt man charakteristische Sprachformen bestimmter Sprechergruppen innerhalb einer Einzelsprache ,Varietäten‘. Beispiele dafür sind etwa Dialekte, Soziolekte, Fachsprachen, Jugendsprachen. Gibt es Vergleichbares auch bei Text-Bild-Gestalten auf Sehflächen?
u) Versuche, andere sprachwissenschaftliche Termini, Konzepte und Theorien auf Sehflächen anzuwenden. In welchen Fällen könnte das gelingen? Mit welchen Modifikationen? In welchen Fällen gelingt es nicht? Warum nicht?
v) Probiere das konkret am Nutella-Beispiel.
w) Stimmen die Ergebnisse aus Aufgabe u) auch bei anderen Beispielen?
x) Gibt es so etwas wie Perspektive, Vorder- und Hintergrund, Farbgestaltung, Kontraste, Linienführung auch in Texten?
y) Welche Theorien, Konzepte und Begriffe für visuelle Kommunikation und aus Bildwissenschaft können für Sehflächen genutzt werden? Wie müssen sie jeweils modifiziert werden?
z) Denke dir unsere Lebenswelt vollständig ohne Sehflächen. Was würde fehlen? Was davon kann man durch reine Texte, was durch pure Bilder ersetzen?




1) Die wegweisende Monographie von Stöckl 2004 stellt sich diesem Problem.
2) Vgl. z.B. Belting 2001, Kress/van Leeuwen 1996, Sachs-Hombach, 2003, Sachs-Hombach (Hg.) 2005, <www.bildwissenschaft.org>.
3) Dazu Holly 2004.
4) Zur Bestimmung, Messung und Rolle von Komplexität s. Mainzer 2008.
5) Vgl. dazu den Forschungsbericht von Schmitz 2005.
6) Gross 1994:66.
7) Bezeichnung der Sprechakte nach Searle 1982; s. u. Abschnitt 5.
8) Zu näheren Einzelheiten vgl. Schmitz 2003.
9) Vgl. Raible 1991.
10) Semiose ist der Prozess, durch den das Zeichen auf seinen Interpreten einen kognitiven Effekt ausübt (Peirce CP 5.472, 5.484).
11) Vgl. Wehrli 2002.
12) Die von Weinrich (z.B. 1983:319) eingeführte Terminologie von „Bildspender“ und „Bildempfänger“ bezieht sich auf innersprachliche Metaphorik und meint mit „Bild“ eine sprachlich hervorgerufene geistige Vorstellung: „je weiter Bildspender („Bild“) und Bildempfänger („Sache“) voneinander entfernt sind, um so kühner ist die Metapher“.
13) Richards’ (1983:35) Bemerkung, die Metapher sei „eine Transaktion zwischen Kon-texten“, wird hier also aus dem dort gemeinten rein sprachlichen Feld auf Beziehungen zwischen Text und Bild übertragen.
14) Detailliert vgl. Brinker u.a. (Hg.) 2000: 507-761.
15) Zur semiotischen Vielfalt von Lebensmittelverpackungen vgl. Hardt-Mautner 1992, auch Mautner 2008.
16) Vgl. Schmitz 2007.
17) Zur Diskussion von Rationalität bei Grice vgl. Rolf 1994: 156-162.



Literatur

Belting, Hans (2001): Bild-Anthropologie. Entwürfe für eine Bildwissenschaft. München: Fink

Brinker, Klaus (2001): Linguistische Textanalyse. Eine Einführung in Grundbegriffe und Methoden [1985]. 5. Aufl. Berlin: Erich Schmidt

Brinker, Klaus/ Antos, Gerd/ Heinemann, Wolfgang/ Sager, Sven F. (Hg. 2000): Text- und Gesprächslinguistik. 1. Halbband: Textlinguistik (= HSK 16.1). Berlin, New York: de Gruyter

Grice, H. Paul (1993): Logik und Konversation [engl. 1975]. In: Meggle, Georg (Hrsg.): Handlung, Kommunikation, Bedeutung [1979]. 2. Aufl. Frankfurt/M.: Suhrkamp, S. 243-265


Gross, Sabine (1994): LeseZeichen. Kognition, Medium und Materialität im Leseprozeß. Darmstadt: Wissenschaftliche Buchgesellschaft

Hardt-Mautner, Gerlinde (1992): The Silent Salesman oder: Die Verpackung als Werbeträger. Eine linguistisch-semiotische Annäherung. In: Fachsprache 14.3-4, S. 98 - 110

Holly, Werner (2004): Sprechsprache und bewegte Bilder: Audiovisualität. In: Mittei-lungen des Deutschen Germanistenverbandes 51, H. 2, S. 122-134

von Humboldt, Wilhelm (1963): Ueber die Verschiedenheit des menschlichen Sprachbaues und ihren Einfluss auf die geistige Entwicklung des Menschengeschlechts [1830-1835]. In: ders.: Werke in fünf Bänden (Hg. Andres Flitner/ Klaus Giel), Bd. III: Schriften zur Sprachphilosophie. Darmstadt: Wissenschaftliche Buchgesell-schaft, S. 368-756

Kress, Gunther/ van Leeuwen, Theo (1996): reading images. The Grammar of Visual Design. London: Routledge
Mainzer, Rolf (2008): Komplexität. Paderborn: Wilhelm Fink (UTB)

Mautner, Gerlinde (2008): Language and communication design in the marketplace. In: Wodak, Ruth/Koller,

Veronika (eds): Communication in the Public Sphere. Handbook of Applied Linguistics, vol. 4. Berlin, New York: Mouton de Gruyter, S. 131-154

Peirce, Charles Sanders (1931-1958): Collected Papers. 8 vols. Cambridge, Mass: Harvard University Press [zitiert als CP <Band.Paragraph>]

Raible, Wolfgang (1991): Die Semiotik der Textgestalt. Erscheinungsformen und Folgen eines kulturellen Evolutionsprozesses. Heidelberg: Carl Winter

Richards, Ivor Armstrong (1983): Die Metapher [amerik.1936]. In: Haverkamp, Anselm (Hg.): Theorie der Metapher. Darmstadt: Wissenschaftliche Buchgesellschaft, S. 31-52

Rolf, Eckard (1994): Sagen und Meinen. Paul Grices Theorie der Konversations-Implikaturen. Opladen: Westdeutscher Verlag.

Sachs-Hombach, Klaus (2003): Das Bild als kommunikatives Medium. Elemente einer allgemeinen Bildwissenschaft. Köln: von Halem

Sachs-Hombach, Klaus (Hg. 2005): Bildwissenschaft. Disziplinen, Themen, Methoden. Frankfurt/M.: Suhrkamp

Schmitz, Ulrich (2003): Lesebilder im Internet. Neue Koalitionen und Metamorphosen zwischen Text und Bild. In: Zeitschrift für Germanistik, Neue Folge XIII, H. 3/2003, S. 605-628

Schmitz, Ulrich (2005): Blind für Bilder. Warum sogar Sprachwissenschaftler auch Bilder betrachten müssen. In: Osnabrücker Beiträge zur Sprachtheorie, H. 69, S. 187-227

Schmitz, Ulrich (2007): Bildakte? How to do things with pictures. In: Zeitschrift für germanistische Linguistik 35, S. 286-300

Searle, John R. (1982): Zur Taxonomie illokutionärer Akte [amerik. 1975]. In: ders.: Ausdruck und Bedeutung. Frankfurt/M.: Suhrkamp, S. 17-50

Stöckl, Hartmut (2004): Die Sprache im Bild - Das Bild in der Sprache. Zur Verknüpfung von Sprache und Bild im massenmedialen Text. Konzepte ∙ Theorien ∙ Analysemethoden. New York, Berlin: de Gruyter

Wehrli, Ursus (2002): Kunst aufräumen. Zürich: Kein & Aber

Weinrich, Harald (1983): Semantik der kühnen Metapher [1963]. In: Haverkamp, Anselm (Hg.): Theorie der Metapher. Darmstadt: Wissenschaftliche Buchgesellschaft, S. 316-339

Zurück