Korpusgestützte Textanalyse. Manfred Stede
Читать онлайн книгу.die konkrete Annotationsaufgabenstellung ein, nennen geeignete Werkzeuge, und geben weitere Hinweise auf der Homepage.
Aufwändige Annotationen entfalten ihre Wirkung freilich erst, wenn man nach ihnen auch recherchieren kann. Für die Syntax bedeutet dies vor allem die Suche in Datenbanken, die speziell auf Baumstrukturen zugeschnitten sind. Ebenso gibt es aber auch Korpora, die auf der Text-Ebene annotiert sind, beispielsweise für die Koreferenz zwischen Nominalphrasen (siehe Kap. 4). Auch dafür benötigt man dann spezielle Abfrage- und Auswertungswerkzeuge, um aus den Daten Erkenntnisse zu ziehen. (In manchen Fällen gestattet bereits das Annotationswerkzeug auch die Recherche, oft ist das aber nicht der Fall.)
Von besonderem Interesse ist es nun, wenn dieselben Primärdaten mit einer Reihe von ganz unterschiedlichen Annotationen versehen sind, aus deren Kombination sich dann – sei es durch manuelle Recherche oder durch statistische Auswertung – neue Erkenntnisse gewinnen lassen. Dies entspricht dem oben (S. 14) wiedergegebenen Zitat von Brandt u. Rosengren (1992), wonach Ebenen zueinander in Beziehung gesetzt werden, indem man sie an authentischem Material prüft. Möchte man dies an einigermaßen umfangreichem Textmaterial tun, so ist eine Automatisierung mittels einer Datenbank unerlässlich.
Damit dieses Szenario der MehrebenenannotationMehrebenen-Annotation (engl. multi-level annotation) funktioniert, muss eine gewisse Systematik eingehalten werden, damit diese Ebenen einerseits separat recherchiert und ggf. auch verändert werden können. Um andererseits Korrelationen zwischen einzelnen Annotationsebenen aufdecken zu können, müssen alle Annotationen technisch mit den Primärdaten in derselben Weise verbunden sein. Dies wird durch eine sogenannte standoff-AnnotationStandoff-Annotation erreicht, bei der sowohl der Primärtext als auch jede Analyse-Ebene jeweils in einer einzelnen Datei gespeichert und die Verbindungen zwischen den Ebenen durch „Zeiger“ realisiert werden. Eine technische Grundlage dafür ist XMLXML (‚eXtensible Markup Language‘) als standardisiertes Austauschformat für Daten zwischen verschiedenen Software-Systemen. Der große Vorteil ist, dass man für die verschiedenen Analyse-Ebenen jeweils spezielle Werkzeuge benutzen kann, die auf die zugrunde liegenden Strukturen zugeschnitten sind und damit ein möglichst effektives Arbeiten erlauben.
Abbildung 1.1:
Architektur der Daten-Annotation mit ANNIS
Annotiert man nun jeweils denselben Text mit verschiedenen Werkzeugen auf verschiedenen inhaltlichen Ebenen, müssen anschließend alle resultierenden Annotationen wieder zusammengefügt werden. Dies geschieht in einer linguistischen Datenbank, die dann die Recherche erlaubt. Abb. 1.1 illustriert diese Konzeption: Die Annotationswerkzeuge auf der linken Seite (die dort genannten werden im Verlauf des Buches kurz angesprochen werden) erzeugen jeweils eigene XML-Dateien, die dann in einem geeigneten Austauschformat (wie zum Beispiel PAULA, Dipper (2005)) zusammengeführt und in die Datenbank (wie zum Beispiel ANNIS; siehe unten) eingespeist werden. Zusätzlich können weitere Werkzeuge für die statistische Auswertung der Daten benutzt werden; dieses Thema werden wir in diesem Buch aber nicht weiter besprechen.
Eine Alternative besteht darin, ein universelleres Annotationswerkzeug zu benutzen, mit dem sich unterschiedliche Typen von Information annotieren lassen; in diesem Fall entfällt die Zusammenführung der verschiedenen Annotationsformate. Es sollte aber stets abgewogen werden, ob dieser Vorteil nicht dadurch gemindert wird, dass das Werkzeug für einige der Annotationsschritte möglicherweise nur bedingt geeignet ist oder eine umständliche Handhabung mit sich bringt.
ANNIS
Weil die Datenbank in der Lage sein muss, für dieselben Primärtexte ganz unterschiedliche Annotationsschemata recherchierbar bereitzustellen und die Suchergebnisse angemessen zu visualisieren, sind Standard-Textdatenbanken für unseren Zweck nicht verwendbar. Die für dieses spezielle Szenario konzipierte linguistische Datenbank ANNIS entstand in einer ersten Version in den frühen 00er Jahren an der Universität Potsdam4 (Dipper u.a., 2004) und wurde später an der Humboldt Universität zu Berlin ausgiebig weiterentwickelt (Krause u. Zeldes, 2016). Es handelt sich um eine open-source software, die in der aktuellen Version ANNIS3 von der Webseite ‚corpus-tools.org‘ bezogen werden kann.5
Abbildung 1.2:
Bildschirmabzug von ANNIS3 (Ausschnitt)
ANNIS zeigt die verschiedenen Annotationsebenen zu einem Text jeweils in einer Form, die dem Annotationstyp entspricht. In dem Bildschirmabzug in Abbildung 1.2 (der nur einen Ausschnitt der Benutzeroberfläche zeigt) sind für denselben Textausschnitt die morphosyntaktischen Informationen, Syntax-Bäume, sowie die Koreferenz-Markierungen (vgl. Kap. 4) angezeigt. Weitere Annotationsebenen können nach Wunsch aufgeklappt werden.
Die Suchfunktion von ANNIS gestattet die Formulierung von Anfragen, die mehrere Annotationsebenen miteinander verbinden. Angenommen, zu den gespeicherten Texten liegen Annotationen zur Syntax, zum Informationsstatus der Diskursgegenstände und zur rhetorischen Struktur vor, so ist es beispielsweise möglich, alle Textstellen zu finden, in denen
1 eine Präpositionalphrase am Satzanfang steht,
2 der in der dort eingebetteten NP denotierte Diskursgegenstand brand-new ist, und
3 die PP als Satellit der Kohärenzrelation Concession verwendet wird.
Ein entsprechender Satz könnte lauten: Trotz einer Verwarnung durch die Schiedsrichterin ging Leonie weiter mit großem Elan in die Zweikämpfe. Wie die Suchsprache AQL (‚ANNIS Query Language‘) benutzt wird, ist in den Hilfeseiten beschrieben, die in ANNIS integriert sind. Einführende Hinweise für den Start finden sich auch auf der Homepage zu diesem Buch (unter www.narr-studienbuecher.de), wo auch die URL einer öffentlich nutzbaren ANNIS-Installation angegeben ist, mit der das Potsdamer Kommentarkorpus bearbeitet werden kann.
1.3 Das Potsdamer Kommentarkorpus
In der Entstehungszeit von ANNIS wurde auch das ‚Potsdamer Kommentarkorpus‘ (PCC) als exemplarisches Korpus für die Mehrebenen-Annotation entwickelt (Stede, 2004). Es besteht aus 174 Texten aus der Märkischen Allgemeinen Zeitung (MAZ), die ursprünglich auf den Ebenen Satzsyntax, nomnale Koreferenz und Rhetorische Struktur annotiert wurden. In der aktuellen Version PCC 2.01 (Stede u. Neumann, 2014) sind Konnektoren und ihre Argumente hinzugekommen. Die der Annotation zugrunde liegenden Richtlinien sind in dem online frei zugänglichen Band (Stede, 2016a) zusammengefasst. Alle Texte stammen von den Kommentarseiten der MAZ aus den frühen 00er Jahren und sind etwa 12–14 Sätze lang. Das PCC ist in ANNIS3 online verfügbar und kann für Korpusabfragen zu den meisten der in Teil II des Buches diskutierten Annotationsebenen verwendet werden. Eine ausführlichere Darstellung der Hintergründe des Korpus und der zugrunde liegenden Design-Entscheidungen beim PCC findet sich in (Stede, 2016b).
1.4 Übersicht über das Buch
Der Teil I ‚Einführung und Grundbegriffe‘ wird im folgenden Kapitel mit einer Diskussion der Schlüsselbegriffe Kohäsion und Kohärenz fortgesetzt, die üblicherweise als die zentralen Merkmale der Textualität verstanden werden. Anschließend stellen wir Konzeptionen zu den miteinander verwandten Begriffen Textfunktion, Textsorte und Texttyp vor und betonen hier auch die wichtige Rolle von Korpora für den Erkenntnisgewinn (Kap. 3).
Teil II des Buches widmet sich den verschiedenen Ebenen der Textanalyse. Zunächst