Beschreibung
Im Bereich der medienwissenschaftlichen Inhaltsanalyse stellt die Themenanalyse einen wichtigen Bestandteil dar. Für die Analyse großer digitaler Textbestände hinsichtlich thematischer Strukturen ist es deshalb wichtig, das Potenzial automatisierter computergestützter Methoden zu untersuchen. Dabei müssen die methodischen und analytischen Anforderungen der Inhaltsanalyse beachtet werden und es muss abgebildet werden, welche auch für die Themenanalyse gelten. In dieser Arbeit werden die Möglichkeiten der Automatisierung der Themenanalyse und deren Anwendungsperspektiven untersucht. Dabei wird auf theoretische und methodische Grundlagen der Inhaltsanalyse und auf linguistische Theorien zu Themenstrukturen zurückgegriffen, um Anforderungen an eine automatische Analyse abzuleiten. Den wesentlichen Beitrag stellt die Untersuchung der Potenziale und Werkzeuge aus den Bereichen des Data- und Text-Minings dar, die für die inhaltsanalytische Arbeit in Textdatenbanken hilfreich und gewinnbringend eingesetzt werden können.
Autorenportrait
Andreas Niekler, Dr. Ing., geb. 1979, ist seit 2009 wissenschaftlicher Mitarbeiter am Institut für Informatik der Universität Leipzig in der Abteilung Automatische Sprachverarbeitung. Er entwickelt computergestützte Verfahren für sozialwissenschaftliche Inhaltsanalysen, u. a. für das Forschungsprojekt "Postdemokratie und Neoliberalismus" und für die interaktive Analyseplattform Leipzig Corpus Miner (LCM). Der Schwerpunkt liegt dabei auf Verfahren des maschinellen Lernens und der Datenverwaltung. Zuvor lehrte er im Bereich Medien an der Hochschule für Technik, Wirtschaft und Kultur Leipzig (HTWK) sowie der Leipzig School of Media (LSoM) mit dem Schwerpunkt medienneutrale Datenhaltung.
Inhalt
1. Einleitung 15
1.1 Ausgangslage 19
1.2 Problemstellung und Ziele 21
1.3 Aufbau der Arbeit 22
2. Technische und theoretische Grundlagen für die automatische Inhaltsanalyse von Themenstrukturen 24
2.1 Inhaltsanalyse 25
2.1.1 Methodik und Eigenschaften 26
2.1.1.1 Qualitative und quantitative Inhaltsanalysen 27
2.1.1.2 Deskription und Inferenz 28
2.1.1.3 Deduktiv und Induktiv 29
2.1.2 Planung, Struktur und Ablauf 30
2.1.2.1 Wichtige Begriffe der Inhaltsanalyse 30
2.1.2.2 Methodik der Kategorienbildung bei Inhaltsanalysen 33
2.1.3 Themenanalysen 36
2.1.3.1 Synthese linguistischer Themenanalysen 42
2.1.3.2 Das Thema im zeitlichen Verlauf 45
2.1.3.3 Nachrichtenfaktoren 46
2.1.3.4 Ökonomische Probleme der Inhaltsanalyse 50
2.2 Computergestützte Analyse digitaler Textquellen 51
2.2.1 Verarbeitung und Repräsentation 52
2.2.1.1 Quellen, Zeichensätze und Sprachen 52
2.2.1.2 Vorbereitung der Texte 54
2.2.1.3 Speicherung verarbeiteter Texte und Metadaten 57
2.2.2 Maschinelles Lernen (Machine-Learning) und Text-Mining 60
2.2.2.1 Statistik und maschinelles Lernen mit Text 61
2.2.2.2 Überwachtes und unüberwachtes Lernen 62
2.2.2.3 Information Retrieval und explorative Suche 63
2.3 Zusammenfassung 66
2.4 Konkretisierung der Forschungsfragen 69
3. Algorith men und Meth oden für die automatische Themenanalyse 73
3.1 Topic Detection and Tracking 74
3.1.1 Clustermethode 77
3.1.2 Anwendung 78
3.2 Topic-Modelle 87
3.2.1 Latent Dirchlet Allocation 88
3.2.2 Erweiterungen und alternative Modelle 93
3.2.3 Berechnung und Inferenz 98
3.2.3.1 Wie viele Themen hat ein Korpus? –
Exkurs zu Dirichlet-Verteilung und -Sampling und deren Bedeutung für die latenten Variablen im LDA-Modell 102
3.2.4 Anwendung 107
3.3 Signifikante Kookkurrenzen 117
3.4 Häufigkeiten, Messgrößen und Zeitreihen in Themen 125
3.4.1 Themenhäufigkeit 125
3.4.2 Worthäufigkeit 128
3.5 Zusammenfassung 131
4. Exemplarische Analyse 132
4.1 Vorbereitung und Verarbeitung 134
4.2 Bestimmung relevanter Themen 136
4.2.1 Explorative Analyse mit Textdateien 139
4.2.2 Explorative Analyse mit grafischen Oberflächen 151
4.2.3 Evaluation der explorativen Themenselektion 156
4.2.3.1 Validität der Themenverkettung 156
4.2.3.2 Reliabilität in unterschiedlichen Korpora 157
4.3 Themenhäufigkeiten 160
4.3.1 Häufigkeiten ohne Beachtung der Zeitstempel 161
4.3.2 Häufigkeiten mit Beachtung der Zeitstempel und Evaluation 162
4.3.2.1 Reliabilität 164
4.3.2.2 Validität 167
4.3.3 Zwischenfazit 180
4.4 Wort- und Akteurshäufigkeiten in Themen 181
4.4.1 Themenabhängige Häufigkeiten von Wörtern 183
4.4.2 Themenabhängige Häufigkeiten von Eigennamen 188
4.4.3 Abgrenzung zu Worthäufigkeitsanalysen 191
4.4.4 Zwischenfazit 193
4.5 Analyse des Aussagegehalts in Themen durch Kookkurrenzanalysen 194
4.5.1 Analyse von Schlüsselbegriffen 194
4.5.2 Analyse der Auswirkungen von Schlüsselereignissen 201
4.5.3 Zwischenfazit 204
4.6 Zusammenfassung und weitere Analysemöglichkeiten 206
5. Diskussion der Forschungsfragen zu automatisierten The menanalyse n 211
5.1 Grundsätzliche Fragen 211
5.1.1 Anschlussfähigkeit an die Methodik der Inhaltsanalyse 212
5.1.2 Automatisierung der Inhalts- bzw. Themenanalyse 215
5.2 Erweiterte Fragen 217
5.2.1 Qualitative und quantitative Aspekte 217
5.2.2 Deduktive und induktive Charakteristiken 218
5.2.3 Validität und Reliabilität 219
5.2.4 Weiterverarbeitung, Analyse und Anwendung von Ergebnissen 221
5.2.4.1 Diachrone Themenanalyse 221
5.2.4.2 Häufigkeitsverläufe und Zyklen von Themen 222
5.2.4.3 Nachrichtenfaktoren 223
5.2.4.4 Vergleichbarkeit unterschiedlicher Quellen 224
5.2.5 Datenhaltung und Datenverarbeitung 224
5.3 Fazit und Ausblick 227
6. Anhang 230
7. Literaturverzeichnis 247