Computerlinguistik und Sprachtechnologie. Eine Einführung (Ulrich Schmitz)

Carstensen, Kai-Uwe; Ebert, Christian; Endriss, Cornelia; Jekat, Susanne; Klabunde, Rolf; Langer, Hagen (Hg.)

Heidelberg, Berlin: Spektrum Akademischer Verlag 2001 (geb., 581 S., € 39,95)

tl_files/bilder/lernsoftware/computerlinguistik.jpg

1. Leistung und Konzept

Endlich einmal ein Buch, von dem man fast vorbehaltlos schwärmen kann - fast.

Es gibt nur recht wenige deutschsprachige Monographien zur Computerlinguistik und fast gar keine mit Einführungscharakter. Letztere sind entweder veraltet oder widmen sich nur einem Teilgebiet und/oder propagieren eine bestimmte Denkrichtung. Daß eine Einzelperson die aktuelle Computerlinguistik in ihrer gesamten Vielfalt vorstellen sollte, ist heute kaum mehr möglich oder zumindest nicht sinnvoll. Für die Neuerscheinung aus dem Herbst 2001 wurde ein fast extrem entgegengesetzter Weg gewählt. Hat es je eine durchgehende Einführung in ein Wissenschaftsgebiet gegeben, die von über drei Dutzend Autoren verfaßt wurde? Das läßt Heterogenität befürchten, Zusammenhanglosigkeit, Inkonsistenzen, Wiederholungen, Qualitätsunterschiede, Stilbrüche. Nichts davon kann man dem Werk nachsagen (wenn man von Marginalien absieht). Herausgekommen ist vielmehr eine sachlich und didaktisch überzeugend aufgebaute, stimmige, zuverlässige und durchgehend gut lesbare Einführung in nahezu alle wichtigen Facetten des Faches auf einheitlich hohem und (bis etwa 2000) aktuellem Niveau.

Allein schon diese Leistung, daß nämlich die sechs Herausgeber mit ihrem vielköpfigen Autorenteam ein in jeder Hinsicht klares und in sich stimmiges Konzept konsequent und erfolgreich verwirklicht haben, ist kaum genügend zu bewundern. Die 41 meist jungen Autoren (darunter 7 Frauen) arbeiten an 28 verschiedenen (meist universitären) Institutionen in 23 Orten (18 darunter in Deutschland). Allein 8 Autoren kommen aus dem Institut für Maschinelle Sprachverarbeitung an der Universität Stuttgart, weitere 10 aus der Privatwirtschaft. Es ist nur angemessen, daß die Verfassernamen nicht im Inhaltsverzeichnis, sondern nur im Text der einzelnen Abschnitte genannt werden. Denn es handelt sich nicht um einen Sammelband mit verschiedenen Einzelbeiträgen, sondern, um es noch einmal zu betonen, um eine durchgängige und in sich geschlossene Darstellung.

Das heißt nicht, daß man nicht auch an verschiedenen Stellen einsteigen und selektiv lesen könnte. Wer aber vorne anfängt und die gesamten 540 Textseiten durcharbeitet, hat einen äußerst intensiven und anspruchsvollen Lehrgang absolviert, dessen Inhalt mehr als die meisten Teile des Grundstudiums vieler computerlinguistischer Studiengänge abdeckt (mit Ausnahme von Programmierkursen und örtlichen Spezialgebieten). Auf dieser Strecke werden nach und nach an die elfhundert Fachtermini (pro Seite also durchschnittlich zwei) eingeführt. Äußerlich und innerlich ist das umfangreiche Material vorzüglich und jederzeit nachvollziehbar gegliedert. Alle Kapitel und Unterkapitel, oft auch kleinere Gedankengänge, beginnen elementar und orientierend, um auf dieser Grundlage zunächst langsam und dann in steigendem Tempo immer schwierigere Details zu entfalten: jeweils vom Einfachen, das an allgemeine Grundbildung anschließt, zum Spezielleren und Differenzierteren. So kann etwa der Anfänger stets neu einsteigen und seinen eigenen Kenntnissen, Fähigkeiten und Zielen entsprechend selbst entscheiden, wie sehr er das jeweilige Themengebiet jetzt schon vertiefen will (auch wenn eine solche Leseanweisung nicht gegeben wird). Wem der Stoff immer wieder einmal notgedrungen trocken erscheinen mag, der findet meist schon nach kurzer Strecke Erholung und Anschauung in verschiedenartigsten Beispielen. Bei den allermeisten Themen werden auch Fortgeschrittene (z.B. repetierende Examenskandidaten oder Überblick suchende Kenner) mit hinreichend genauen Einzelheiten und weiterführenden Hinweisen bedient, wie man sie von einem derart umfassend angelegten Einführungsbuch kaum differenzierter erwarten kann.

Die einzelnen Kapitel und Abschnitte sind einerseits so aufgebaut, daß sich bei linearer Lektüre ein sachlich begründeter und folgerichtiger Durchgang durch alle Gebiete der Computerlinguistik ergibt, andererseits so überzeugend gegliedert und genügend stark untereinander vernetzt, daß auch hin- und herspringende oder selektive Leser sich gut orientieren können. Inhaltsverzeichnis, Querverweise im Text und ein sorgfältiges Stichwortregister helfen dabei. Jeder Abschnitt endet mit einer kurzen Zusammenfassung und meist vorzüglich ausgewählten weiterführenden Literaturhinweisen. Das gesamte Literaturverzeichnis führt rund 500 Titel größtenteils (aber nicht nur) aus den 1990er Jahren an.

2. Inhalt und Vorgehen

Computerlinguistik wird eingangs ebenso neutral wie treffend bestimmt als „das Fachgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprache beschäftigt“ (S. 1). Implizit und zu recht wird damit sowohl ein weites inter- und transdisziplinäres Spektrum als auch eine einheitliche Perspektive eröffnet. Dementsprechend werden die zahlreichen Nachbar- und Überschneidungsgebiete (von Mengenlehre über Phonologie bis zur Korpuslinguistik) nicht als Sammelsurium heterogener Disziplinen, sondern stets nur und ausdrücklich in Bezug auf das computerlinguistische Anliegen, nämlich der maschinellen Modellierung und Verarbeitung menschlicher Sprache dargestellt. Dabei entsteht ein immer weiteres Panorama computerlinguistischer Denk- und Arbeitsweisen.

In einer Einleitung werden Geschichte, Aufgaben und Arbeitsbereiche der Computerlinguistik kurz umrissen. Kapitel 2 behandelt formale Grundlagen (Mengenlehre und Logik, Automatentheorie und Formale Sprachen, Graphentheorie und Merkmalsstrukturen sowie Wahrscheinlichkeitstheorie und Hidden-Markov-Modelle). Das mit Abstand längste Kapitel 3 (S. 135-360) erörtert unter der Überschrift „Methoden“ die sprachlichen Beschreibungs-Ebenen im Hinblick auf ihre computerlinguistische Relevanz (Phonologie, Morphologie, Syntax und Parsing, Semantik, Diskurs und Pragmatik, Textgenerierung). Kapitel 4 stellt computerlinguistische Ressourcen vor (WWW, Textkorpora, Baumbanken, lexikalisch-semantische Wortnetze, Lexika für multimodale Systeme, Sprachdatenbanken). Kapitel 5 widmet sich Anwendungen (Korrekturprogramme, Lexikographie, Volltextsuche und Text Mining, Textklassifikation, Informationsextraktion, Textzusammenfassung, Sprachsynthese, Spracherkennung, natürlichsprachliche Retrieval-Schnittstellen, Dialogsysteme, Sprachlehr- und -lernsysteme, elektronische Kommunikationshilfen, natürlichsprachliche Generierungs- und Auskunftssysteme sowie maschinelle Übersetzung. Das abschließende sechste Kapitel gewährt einen kurzen Einblick in die Evaluation sprachverarbeitender Systeme.

Zur Verdeutlichung des Vorgehens, das große Teile des Buches kennzeichnet, sei exemplarisch eine kurze Passage etwas näher vorgestellt. Das Unterkapitel 3.4.2 zur Montague-Semantik ordnet im ersten Satz diese Theorie als die (angeblich) einflußreichste Theorie zur Satzsemantik in den Darstellungsgang des gesamten Kapitels ein und fährt dann fort: „Eine herausragende Eigenschaft der Montague-Semantik ist ihre systematische Herangehensweise bei der Bedeutungszuordnung sprachlicher Ausdrücke.“ (S. 254) Implizit beugt diese Formulierung der weit verbreiteten Furcht vor dem vermeintlich hohen Schwierigkeitsgrad dieses Ansatzes vor; zugleich baut sie beim Leser eine interessierte Erwartung auf, die seine weitere Lesehaltung perspektiviert. Im Rest des Unterkapitels wird diese Erwartung auch erfüllt. Der folgende dritte Satz lautet: „Die Montague-Semantik zeigt auf, wie Syntax und Semantik mithilfe der Methoden der mathematischen Logik systematisch verbunden werden können.“ (S. 255) Damit wird Montagues Leistung in allgemeiner Weise einfach und klar umrissen; und alle zur Erklärung herangezogenen Gebiete wurden vorher im Buch bereits eingeführt. Der nächste Satz führt Montague als Person ein und nennt seine drei wichtigste Aufsätze. Schließlich wird seine einfache Grundüberzeugung, daß nämlich kein wesentlicher Unterschied zwischen natürlichen und formalen Sprachen bestehe, als einleuchtender Grund dafür genannt, warum eine modelltheoretische Interpretation natürlicher Sprachen dann nahe liegt. In fünf Sätzen erhält der Leser so eine ebenso einfache wie informationsreiche, klar strukturierte, plausible und deshalb einprägsame Grundvorstellung. Wenn er es dabei bewenden ließe, verfügte er immerhin bereits über ein erstes zuverlässiges Grundwissen. Der kohärent fortschreitende Aufbau weckt freilich Neugier auf mehr, die auf den folgenden dreizehn Seiten in gleichartig zunehmender Differenzierung und Konkretisierung zugleich befriedigt wie kontinuierlich erweitert wird. So verschafft die Arbeit des Lesens fortwährend verdiente Freude am Erfolg des Verstehens. Bei allen neu zuwachsenden Detail-Informationen bleiben große thematische Argumentationsbögen auch über dieses Unterkapitel hinaus präsent, so etwa bis S. 273, wo gegen die Satzebene der Montague-Semantik die Textebene der dort neu einzuführenden Diskursrepräsentationstheorie gestellt wird.

 

3. Kritik und Marginalien

Im angestrebten Rahmen ist so gut wie kein Wort zu viel geschrieben und nur wenige zu wenig.

Über einige Kleinigkeiten kann man streiten; andere lassen sich verbessern. Hier und da könnte man vielleicht etwas anders gewichten oder formulieren. Modernere text- und dialogbasierte Richtungen sind gegenüber den traditionellen morphologischen, syntaktischen und semantischen unterbelichtet. Mindestens möchte man sich Abschnitt 3.5 zur Pragmatik etwas umfangreicher wünschen. Manchmal ließen sich vielleicht auch kurze Seitenblicke auf benachbarte Randgebiete werfen (z.B. Web- bzw. Interface-Design). Kap. 4 („Ressourcen“) ist mit seinen knapp 50 Seiten arg kurz geraten; korpuslinguistische Aspekte (Abschnitt 4.2 mit gut 7 Seiten) werden im ganzen Band zu wenig berücksichtigt. In Kap. 5 („Anwendungen“, 112 S.) werden Volltextsuche und Text Mining (Abschnitt 5.3.) auf 17 Seiten überproportional sorgfältig behandelt, Maschinelle Übersetzung (Abschnitt 5.14) hingegen auf gut 7 Seiten nicht nur quantitativ, sondern auch inhaltlich stiefmütterlich. Das Thema „Evaluation sprachverarbeitender Systeme“ mag zukünftig wichtig genug sein, um ihm ein eigenes von nur sechs Kapiteln zu widmen; die durchaus lesenswerten 18 Seiten in diesem Band rechtfertigen diese Entscheidung aber nicht nur aus Gründen ästhetischer Ausgewogenheit noch nicht.

Die eine oder andere (gerade im deutschsprachigen Bereich nennenswerte und einflußreiche) Publikation wird ohne nachvollziehbaren Grund überhaupt nicht erwähnt. Nicht nur Haussers „Grundlagen der Computerlinguistik“ (engl. 1999, dt. 2000) und das - wenngleich ältere - Handbuch „Computerlinguistik“ (Bátori/Lenders/Putschke Hg. 1989) kommen nicht vor, auch keine andere Veröffentlichung dieser Autoren - um nur Beispiele zu nennen - wird für würdig befunden. Auch die Literaturhinweise zur Korpuslinguistik und zur maschinellen Übersetzung sind ausgesprochen dürftig. Das überrascht umso mehr, als die Autorengruppe im großen und ganzen keineswegs einer bestimmten Schule verpflichtet ist. (Freilich spielt das Verbmobil-Projekt in dem Band eine etwas größere Rolle, als das aus dem Register hervorgeht.)

Am Ende des ersten Kapitels hätten sich problemlos knappe Hinweise für Studierende unterbringen lassen können: Berufsfelder, Studiengänge, Internet-Adressen. Es wäre auch Platz da für einen Hinweis auf den Band „Linguistische Berufe“ der Gesellschaft für Angewandte Linguistik (2000) sowie die beiden deutschsprachigen Zeitschriften zur Computerlinguistik und Linguistischen Datenverarbeitung.

Daß Übungsaufgaben fehlen, gereicht dem Band nicht zum Nachteil: es ist eine Einführung, kein Lehrbuch. Ein Autorenregister wäre hilfreich gewesen, ist aber nicht unverzichtbar.

Satz, Typographie (einschließlich sparsam verteiltem, hilfreichem Fettdruck für wichtige Wörter), Layout und Rechtschreibung sind so gut wie perfekt. Hätte man allerdings die (von der neuen Rechtschreibung zugelassenen) alten Kommaregeln befolgt, so hätte das zu noch leserfreundlicheren und in sich einheitlicheren Ergebnissen geführt.

Der gesamte Band informiert auf hohem und zuverlässigem Niveau. In zurückhaltender, der herrschenden Lehre entsprechender und stets überzeugender Weise wird auch immer wieder Stellung bezogen (z.B. zum Verhältnis von Semantik und Pragmatik S. 305). Doch eine kritisch wertende Einbettung der Computerlinguistik in die gesamte wissenschaftliche Landschaft unterbleibt leider ebenso wie eine diskutierende Würdigung ihrer gesellschaftspolitischen Relevanz. So dürfte - um nur einen Anknüpfungspunkt zu nennen - Joseph Weizenbaum nicht gerade amüsiert sehen, daß als einzige seiner Veröffentlichungen ausgerechnet der frühe Eliza-Aufsatz von 1966 erwähnt wird.

Angesichts der imponierenden Gesamtleistung des Buches sind solche kritischen Anmerkungen und Desiderata zum Teil eher Kleinlichkeiten, die in einer Neuauflage leicht berücksichtigt werden können. Nur ein großer Wunsch bleibt offen: Der Band enthält zwar allerlei gute Tabellen und einfache Grafiken, doch leider, leider überhaupt keine Bilder (Fotos, Illustrationen, Infografiken u.ä.), wie wir sie z.B. schon in George A. Millers „Wörter. Streifzüge durch die Psycholinguistik“ (dt. 1993) aus dem gleichen Verlag finden. Das hätte dem fachlich hohen Anspruch des Buches keinerlei Abbruch getan, aber seine didaktischen Qualitäten noch ganz erheblich unterstützt und verbessert. Allerdings hätten dann der ohnehin schon große Umfang und der vergleichsweise günstige Preis kaum gehalten werden können.

Alles in allem: eine lange überfälliges, äußerst empfehlenswertes und in dieser Art konkurrenzloses Werk, das der deutschsprachigen Computerlinguistik auf Jahre hinaus mächtig Auftrieb geben wird; zugleich ein Vorbild für kooperatives Schreiben in einem großen Team.

Rezensiert von Ulrich Schmitz. Jahr: 2002

Zurück