Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Veranstaltung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Sitzung
Sek_MethEmp: Sektionsveranstaltung - Big Data und maschinelles Lernen in der Soziologie
Zeit:
Montag, 23.08.2021:
14:30 - 16:30

Chair der Sitzung: Markus Hadler, Univ. Graz
Chair der Sitzung: Heinz Leitgöb, Universität Eichstätt-Ingolstadt
Ort: digital
Den Link zur digitalen Sitzung finden Sie nach Anmeldung zum Kongress bei Eventbrite.

Sektion Methoden der empirischen Sozialforschung (DGS), Sektion Soziologische Methoden und Forschungsdesigns (ÖGS)


Zeige Hilfe zu 'Vergrößern oder verkleinern Sie den Text der Zusammenfassung' an
Präsentationen
ID: 560 / Sek_MethEmp: 1
Sektionsveranstaltung - Big Data und maschinelles Lernen in der Soziologie

Web-Probing und automatisierte Textanalyse als neue Werkzeuge in der Soziologie

Camille Landesvatter, Paul C. Bauer

Mannheimer Zentrum für Europäische Sozialforschung (MZES), Deutschland

Nicht wenige Soziologen sind sich einig, dass die Sozialwissenschaften durch automatisierte Textanalyse revolutioniert werden (Evans & Aceves 2016, Lazer & Radford 2017). Ein Bereich, in dem automatisierte Textanalyse vergleichsweise wenig angewandt wurde, sind Probing-Fragen in Umfragen. Letztere werden verwendet um z.B. den Gedankenprozess beim Beantworten einer Frage zu erforschen oder der Interpretation bestimmter Frage-Bausteine (z.B. Wortlaut) auf den Grund zu gehen (Bauer et al. 2017). Trotz der methodischen Fortschritte werden Probing-Daten heute oft noch manuell, per Hand ausgewertet.

Unsere Studie gibt einen Überblick über aktuelle text-analytische Methoden, die auf solche Probing Daten angewendet werden können und evaluiert deren Nutzen auf Basis von Daten aus einer repräsentativen Befragung unter US-Amerikanern (N=1500). Die Dateneingabe erfolgt im selbst-administrierten Modus entweder durch das Eintragen der Antwort in ein offenes Textfeld oder durch eine Audioaufnahme (mobile oder desktop). Die Audiodateien werden mittels automatisierter Spracherkennung transkribiert (3-4GB aus ca. 40h Audiomaterial) und zusammen mit den Text-Antworten analysiert. Wir vergleichen eine Reihe von aktuellen text-analytischen Ansätzen (u.a., structural topic models, latent dirichlet allocation, dictionary methods) auf deren Nutzen für die Analyse sowohl von schriftlichen als auch Audio-Probing-Daten. Vorläufige Ergebnisse aus einer Pilotstudie (N=320) bestätigen unsere Vermutung, dass vor allem unsupervised, mixed-membership models erfolgreich für die Klassifizierung solcher Antworten verwendet werden können. Gleichzeitig müssen Unterschiede zwischen schriftlichen und Audio-Probing-Antworten (z.B. Länge, Struktur usw.) bei der Anwendung text-analytischer Methoden berücksichtigt werden.



ID: 345 / Sek_MethEmp: 2
Sektionsveranstaltung - Big Data und maschinelles Lernen in der Soziologie

Antworten auf offene Fragen semi-automatisch kategorisieren – Chancen und Herausforderungen am Beispiel einer offenen Frage im GESIS Panel

Anna-Carolina Haensch1, Patricia Steins2, Priscilla Chyrva2, Bernd Weiß2

1LMU München; 2GESIS Leibniz Institut für die Sozialwissenschaften

In unserem Beitrag zeigen wir auf, wie Supervised Learning verwendet werden kann, um eine große Anzahl von Antworten auf offene Fragen in Surveys zu kategorisieren. Wir tun dies anhand einer Frage zur Teilnahmemotivation im GESIS Panel. Das GESIS-Panel ist ein deutsches probabilitätsbasiertes Mixed-Mode-Access-Panel mit rund 5.400 Panelist*innen. Im Laufe der Zeit wurden rund 25.000 Antworten auf die offene Frage zu den Gründen der Teilnahme am GESIS Panel gesammelt. Eine Stichprobe von 2.500 Antworten wurde durch zwei Kodiererinnen kodiert; Supervised Machine Learning wurde im Anschluss verwendet, um die restlichen Antworten zu klassifizieren. Das Kodierschema, das zur Kategorisierung der Teilnahmegründe verwendet wird, basiert auf ähnlichen Kodierschemata in der Literatur (Brueggen 2011).

Die Antworten im GESIS Panel eignen sich besonders gut für eine automatisierte Klassifizierung, da sie größtenteils eindimensional sind. Die Evaluation des Test-Sets weist auch insgesamt auf eine sehr gute Performanz hin. Verschiedene kleinere Problematiken wie der Umgang mit vergleichsweisen kleinen Kategorien oder eine nötige Rechtschreibkorrektur werden im Beitrag diskutiert. Wir werden ebenfalls Unterschiede zwischen der Performanz der semi-automatischen Klassifikation basierend auf der Bag-of-Words Annahme und der Klassifikation mit der Nutzung von Word Embeddings aufzeigen. Skizzen für die weitere Verwendung der kategorisierten Antwortgründe können wir in Hinblick auf Analysen des Zusammenhangs von Teilnahmemotivation und Panel Dropout sowie Satisficing als auch anderen Datenqualitätsindikatoren wie Item Nonresponse geben.



ID: 312 / Sek_MethEmp: 3
Sektionsveranstaltung - Big Data und maschinelles Lernen in der Soziologie

Explorative Untersuchung von Determinanten von Response Styles in Paneldaten: ein Fuzzy Forest Modell

Thomas Krause

University of Stuttgart, Institute for Social Sciences, SOWI 4

Unter Response Styles werden in der Regel Antwortverzerrungsmuster verstanden, welche keinen systematischen Zusammenhang mit dem Frageinhalt haben und zum systematischen Messfehler beitragen. Der Umgang und die Vermeidung von Response Styles ist folglich ein Desiderat für die quantitativ-empirische Sozialforschung. Damit eine Vermeidung möglich ist oder Anleitungen zum Umgang gegeben werden können, müssen die dahinter stehenden Ursachen sowohl konzeptionell als auch bzgl. ihres quantitativen Umfangs bekannt sein. Bisherige Analysen zu möglichen Ursachen für Response Style sind oft nicht eindeutig in einen größeren theoretischen Rahmen eingebettet und verlassen sich bei der Analyse auf klassische, intrinsisch lineare, additive Analysemodelle. Die untersuchten Determinanten beschränken sich oft auf Korrelate, welche eng mit dem Satisficing-Konzept verbunden sind, ohne mögliche Interaktivität zu berücksichtigen.

In diesem Beitrag soll gezeigt werden, dass Maschine Learning Verfahren die Ursachen-Suche substanziell bereichern können. Anhand der Daten des GESIS-Panels soll gezeigt werden, dass Entscheidungsbaum basierte Verfahren wie Random Forests, welche nicht-lineare, nicht-additive und nicht-monotone Zusammenhänge identifizieren können, dafür besonders geeignet sind. Ein wesentlicher Nachteil von Random Forest Modellen in Paneldatensettings ist allerdings, dass sie bei hochkorrelierten Kovariaten verzerrte Variable Importance Maße generiert. Eine vielversprechende Alternative sind sogenannte Fuzzy Forest Modelle, welche als spezifisch angepasste Erweiterung von Random Forest Modellen verstanden werden können. Der Fuzzy-Forests-Algorithmus ist hilfreich für das Screening einer großen Anzahl von Kovariaten, welche hoch korreliert sind, und ermöglicht es, nur die wichtigsten Größen zu finden, welche zur Vorhersage beitragen.

Die Bedeutsamkeit, Stärke, Zusammenhangsform und Interaktivität von prädiktiven Kovariaten wird anhand Variable Importance Maßen, der Vorhersageperformanz und Accumulated Local Effects Plots illustriert.

Keywords: Response Styles; Straightlining; Machine Learning; Fuzzy Forest; Panel Data



ID: 357 / Sek_MethEmp: 4
Sektionsveranstaltung - Big Data und maschinelles Lernen in der Soziologie

Auswertung von Smartphone-Daten für die Sozialforschung

Sonja Malich1, Sebastian Bähr1, Georg-Christoph Haas1,2, Florian Keusch2, Frauke Kreuter3,4, Mark Trappmann1,5

1Institut für Arbeitsmarkt- und Berufsforschung, Deutschland; 2Universität Mannheim, Deutschland; 3University of Maryland, USA; 4Ludwig-Maximilians-Universität München, Deutschland; 5Otto-Friedrich-Universität Bamberg, Deutschland

Im Vergleich zu Daten aus klassischen sozialwissenschaftlichen Erhebungsmethoden weisen Smartphone-Daten viele Charakteristiken von Big Data auf. Smartphone-Daten umfassen eine Vielzahl an Datenformaten (z.B. Geopositionen, Bewegungsmuster, Kommunikationsverläufe, Appnutzung), die in hoher Messfrequenz gesammelt werden. Darüber hinaus wird durch die passive Messung der Aufwand für Studienteilnehmende gering gehalten und mögliche Verzerrungen durch ungenaue Angaben oder Erinnerungslücken, wie sie aus Selbstberichten in Befragungen bekannt sind, werden reduziert. Smartphone-Daten bergen dadurch reichhaltige Informationen über soziale Verhaltensweisen im Verlauf eines Tages auf einer sehr feingliedrigen Ebene. Ziel dieses Beitrags ist es, anhand von mehreren Beispielen aufzuzeigen, für welche sozialwissenschaftlichen Fragestellungen sich diese Daten eignen und wie diese die Grenzen klassischer Umfragemethoden überwinden können. Dazu nutzen wir Daten aus der IAB-SMART Studie, in der über einen Zeitraum von sechs Monaten mit Hilfe einer Smartphone-App Befragungs- und Sensordaten von 650 Mitgliedern einer repräsentativen Panelstudie in Deutschland erhoben wurden. Erweitert wird das Analysepotenzial zudem durch das spezielle Studiendesign, durch welches die Smartphone-Daten mit Daten des Panels Arbeitsmarkt und Soziale Sicherung des IAB sowie individuellen administrativen Daten über exakte Arbeitsmarktinformationen wie Arbeitsmarktverhalten oder Löhne verknüpft werden können. Wir zeigen anhand dieser Daten, wie durch die neuartige Messung (bspw. von Schrittzählung, Fortbewegungsgeschwindigkeit, Standort, Smartphonenutzung) Tagesverläufe nachvollzogen, Alltagsstrukturen identifiziert und Verhaltensweisen verschiedener sozialer Gruppen verglichen werden können.



ID: 405 / Sek_MethEmp: 5
Sektionsveranstaltung - Big Data und maschinelles Lernen in der Soziologie

Theory- and Data-Driven Methods to Investigate and Address Establishment Survey Nonresponse with Administrative Data

Benjamin Küfner1, Joeseph W. Sakshaug1,2,3, Stefan Zins1

1Institut für Arbeitsmarkt und Berufsforschung, Deutschland; 2Universität Mannheim; 3Ludwig-Maximilians-Universität München

In recent years, participation rates have been declining for the IAB Job Vacancy Survey (JVS), one of the largest establishment surveys in Germany (N=110,000), which mainly aims to quantify the size of the unfilled labor demand. The declining response rates pose a risk for increasing non-response bias. In establishment surveys, non-response analyses and non-response correction are usually limited to use only a few auxiliary variables and apply simple models. We overcome these limitations by using the Establishment History Panel (BHP), a rich administrative data set on the population of all employing establishments in Germany covering a variety of employer and employee profile characteristics. This enables us not only to test more theory-driven hypotheses, but also to assess nonresponse bias over time. In the final step of our analysis, we use estimated response propensities from regression and machine-learning models to construct establishment-level weights to evaluate model performance with respect to bias reduction. For the evaluation, we present aggregate bias measures for the long-run trend, individual estimates of bias and important survey proxy measures. The results from these analyses give insights to what extent we can measure and potentially reduce non-response bias using a rich administrative data set and theory-based as well as data-driven machine learning methods. Summarizing, our paper will shed light on whether these additional tools and data are worthwhile for reducing nonresponse bias and furthermore provide a blueprint for other establishment surveys on how they might use big data methods to improve their nonresponse adjustment procedures.



ID: 319 / Sek_MethEmp: 6
Sektionsveranstaltung - Big Data und maschinelles Lernen in der Soziologie

A Total Error Framework for Digital Traces of Human Behavior on Online Platforms

Bernd Weiß1, Indira Sen1, Fabian Flöck1, Katrin Weller1, Claudia Wagner1,2

1GESIS - Leibniz Institute for the Social Sciences, Deutschland; 2RWTH Aachen

For decades, the empirical social sciences have relied on surveying individuals utilizing samples, mostly taken from well-defined populations, as one of their primary data sources. An accompanying development has been the continual improvement of methods and statistical tools, which, for instance, led to the Total Survey Error framework (TSE). Recently, however, surveys have come to face various challenges, such as declining participation rates. A potential complement lies in the growth of data captured as digital traces of users’ behavior online (e.g., social media and web platforms). Yet, studying human behavior with digital trace data (DTD) comes with several methodological challenges such as self-selection bias, platform affordances, data recording, sharing practices, heterogeneity, and DTD not produced in a scientifically designed process. In our contribution, we introduce the “Total Error Framework for Digital Traces of Human Behavior on Online Platforms” (TED-On). Our error framework serves three primary purposes. First, it provides translation from a known framework, the TSE, to new applications in the Big Data domain and establishes a similar vocabulary while retaining the distinction between measurement and representation errors. Second, it describes novel errors that arise mainly through the nature of DTD and the application of novel processing and analysis methods -- such as Machine Learning -- applied to them. Third, it supports researchers in systematically reflecting on and concisely documenting the errors and biases present in DTD approaches. In addition to introducing the TED-On conceptually, we will present case studies demonstrating our framework’s applicability, mainly from the Social Sensing domain.



 
Impressum · Kontaktadresse:
Datenschutzerklärung · Veranstaltung: DGS ÖGS Soziologiekongress 2021
Conference Software - ConfTool Pro 2.6.143
© 2001–2022 by Dr. H. Weinreich, Hamburg, Germany