German Circle: Riesige Textmengen

Wie Computerlinguisten arbeiten

Redaktion: Stiftung Universität Hildesheim

PRESSEMITTEILUNG

Hildesheim/gc. Computerlinguisten entwickeln Werkzeuge, um journalistische Texte auszuwerten. Statt Einzellektüre durchforsten sie mehrere hunderttausend Artikel seit 1990 zu Krieg und Frieden. Gemeinsam mit Politologen erfassen sie, wie in internationalen Krisen kollektive Identitäten dargestellt werden. Mit den computerlinguistischen Verfahren kann man erkennen, ob ein Artikel zum Thema „Krisen, Krieg, militärische Interventionen“ gehört oder nicht. Denn auch in Fußballberichten wird geschossen, verteidigt, eine Linie gehalten.

Die Forscher der Universitäten Stuttgart, Hildesheim und Potsdam analysieren das Umfeld, nicht einzelne Worte. Dafür nehmen sie sich Zeitungsarchive vor, von FAZ bis New York Times. Der digitale Wind weht quer durch alle textbasierten Geisteswissenschaften, von Literatur bis Soziologie. Wie gehen Forscher mit den Unmengen an Daten um? Wissenschaftler der Universitäten Stuttgart, Hildesheim und Potsdam nehmen sich nun Zeitungsarchive vor. Dabei untersuchen Politikwissenschaftler, welche kollektiven Identitäten – etwa europäische, nationale, religiöse – im Zusammenhang mit internationalen Krisen genannt werden.

Die Computerlinguisten der Hildesheimer Universität sind am Anfang der Kette. „Wir bringen Ordnung in journalistische Textarchive“, sagt Professor Ulrich Heid. Statt einer Einzellektüre gehen sie eine große Datensammlung durch und suchen nach Mustern. Politikwissenschaftler analysieren Texte bisher meist manuell – aufwändig und punktuell – oder mit bestehenden Werkzeugen, mit denen sie aber nur einige Tausend Artikel bearbeiten oder nach Wortformen suchen können. Eine tiefergehende sprachbezogene Analyse ist nicht möglich. Unterstützt durch computerlinguistische Verfahren sollen die Fachwissenschaftler nun große Mengen eigenständig bearbeiten können. So können sie zum Beispiel sehr schnell entscheiden, ob ein Artikel zum Thema „Krisen, Krieg, militärische Interventionen“ gehört oder nicht.

Aber wie findet man „Identität“ in riesigen Textmengen? „Wir analysieren das Umfeld, nicht einzelne Worte, wir suchen nach Mustern, etwa Formulierungen wie ‚x zeigte sich erfreut‘. Dann rechnen wir zurück, wer spricht, worüber spricht er, wertend oder nicht wertend“, sagt Ulrich Heid. Kollektive Identitäten können ganz unterschiedlich ausgedrückt werden, in journalistischen Texten sind oft Andeutungen und Metaphern enthalten. Typisch sind etwa Ausdrücke wie „Washington kann in dieser Frage nicht über seinen Schatten springen“. „Wir suchen auch versteckte Informationen in Texten. Man muss hinter die Formulierung schauen und tiefer in den Text einsteigen.“ Heid nennt ein weiteres Beispiel: Wenn die Bundeskanzlerin von „wir“ spricht oder ein Politiker „Wir haben gewonnen“ sagt, so kann dahinter viel stecken: „Wir“ kann die Partei, Europa, das Land oder eine niedersächsische Provinz meinen. Daher betrachten die Linguisten so etwas Spezifisches wie „wir“ im Kontext.

Zunächst sammeln die Forscher, welche Zeitungen über Kriege und humanitäre Interventionen seit 1990 geschrieben haben. Sie greifen auf etwa 800.000 Zeitungsartikel europäischer Länder – Österreich, Deutschland, Irland, Frankreich, Großbritannien – und der USA zurück (Januar 1990 bis Dezember 2012), darunter die Frankfurter Allgemeine Zeitung, Süddeutsche Zeitung, Le Monde, The Guardian und die New York Times, unter Lizenz von kommerziellen Zeitungsarchiven. Dabei unterscheiden die Forscher zwischen Kommentaren, Meldungen, Leitartikeln und weiteren Textarten, markieren ähnliche Artikel und Dubletten von Nachrichtenagenturen und finden Wege, Fußballberichte mit „Kriegsterminologie“ auszusortieren.

„Wir haben es mit digitalen Daten in unterschiedlichen Formaten und Datenstrukturen zu tun. Datenmaterial aus verschiedenen Quellen einheitlich aufzubereiten ist komplex“, sagt Fritz Kliche, wissenschaftlicher Mitarbeiter am Institut für Informationswissenschaft und Sprachtechnologie der Uni Hildesheim. Dabei haben die Forscher Erfahrung in der Zeitungsanalyse: So hat Ulrich Heids frühere Arbeitsgruppe in Zusammenarbeit mit dem Max-Planck-Institut für internationales Strafrecht etwa eine halbe Millionen Artikel zum Thema Familientragödien analysiert – auf der Suche nach Tatmustern.

Fachwissenschaftler können die Texte – je nach Forschungsfrage – nach Wörtern und Wortsequenzen durchsuchen oder nach einer großen Anzahl von inhaltlich ähnlichen oder sprachlich unterschiedlichen „Sprechweisen“. Die Stuttgarter Politikwissenschaftlerin Professorin Cathleen Kantner, die das Verbundprojekt leitet, hat eine Vielzahl von Sprechweisen identifiziert, die auf einen Bezug auf Europa als Wertegemeinschaft hindeuten. Besonders ist dabei, dass für alle Belege der Publikationszeitpunkt und andere Metadaten bekannt sind: Rückblickend kann man darstellen, was eine Ankündigung auslöst – etwa die Energiewende nach dem Unglück in Fukushima – oder wie sich die Einstellungen zum „arabischen Frühling“ verändert haben. Die Medienaufmerksamkeit für ein Thema kann somit weitgehend automatisch errechnet und in einer Grafik als Kurve über Tage, Wochen oder Monate dargestellt werden. Darauf können dann Detailuntersuchungen aufsetzen.

Das Bundesforschungsministerium fördert das dreijährige Projekt „eIdentity“ bis 2015 mit insgesamt 853.000 Euro. Das Verbundprojekt wird von der Universität Stuttgart koordiniert. Derzeit können die computerlinguistischen Verfahren auf Texte in deutscher, englischer und französischer Sprache angewandt werden.

Konferenz „Sprachtechnologie und Computerlinguistik"

Vom 8. bis 10. Oktober 2014 richtete die Universität Hildesheim die 12. Tagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL, der wissenschaftliche Fachverband für maschinelle Sprachverarbeitung) und der Österreichischen Gesellschaft für Artificial Intelligence (ÖGAI, Künstliche Intelligenz) aus. An der KONVENS-Konferenz war auch eine Arbeitsgruppe der Deutschen Gesellschaft für Sprachwissenschaft (DGfS) beteiligt. Etwa 100 Fachleute aus europäischen Ländern tauschten sich auf hohem Niveau zu computerlinguistischer Grundlagenforschung aus. Konferenzsprachen waren Englisch und Deutsch.

Aussender:

Stiftung Universität Hildesheim

Pressestelle

Isa Lange

Marienburger Platz 22

31141 Hildesheim

Tel.: 05121-883 90 100

presse@uni-hildesheim.de

www.uni-hildesheim.de

____________________________________________

Suchen

Freitag, 10. Oktober 2014

Riesige Textmengen