Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Sitzung
F11–S19: Digitale Messinstrumente
Zeit:
Freitag, 27.03.2020:
11:15 - 13:00

Ort: S19

Präsentationen

Automatisierte Kodierung offener Antworten durch sequentielle Lernalgorithmen

Steffen Brandt

opencampus.sh, Kiel

Theoretischer Hintergrund

Zahlreiche Studien haben belegt, dass direktes Feedback zu einer Leistung deutlich effektiver ist (vgl. z. B. Kulik & Kulik, 1988). Durch die Digitalisierung werden zudem Testungen vermehrt computer-basiert durchgeführt und ermöglichen so zum Teil eine automatisiere Auswertung. Die Auswertung offener Antworten muss in der Regel jedoch durch menschliche Kodierer erfolgen. Um auch solche Antworten automatisiert zu kodieren, bietet sich der Einsatz maschineller Lernalgorithmen an. In den letzten zwei Jahren gab es hier große Fortschritte im Bereich der sogenannten sequentiellen Lernalgorithmen („Sequential Transfer Learning“; Ruder, 2019), die es ermöglichen auch mit vergleichsweise wenigen Daten Algorithmen auf vorgegebene Klassifizierungen zu trainieren. Dabei werden die Parameter des Lernalgorithmus bzw. des zugehörigen Modells zunächst mit großen Mengen an unstrukturierten Textdaten (üblicherweise Webseiten) trainert und in einem zweiten Schritt dann auf die eigentliche Klassifizierungsaufgabe spezialisiert.

Fragestellung

Im Rahmen des Projektes DomPL-IK (Rausch & Wuttke, 2016) wurden 786 Berufsschüler*innen auf ihre Problemlösefähigkeit hin getestet. Auf insgesamt drei vorgegebene Problemszenarien mussten die Teilnehmenden Antworten in Form von frei formulierbaren Emails verfassen. Die Kodierung der Antwort-Emails erfolgte je nach Szenario auf Basis von zwischen 20 und 28 Items. Ein Teil der Kodierungen konnte regelbasiert automatisiert werden, der Großteil der Kodierungen wurde jedoch manuell durchgeführt. Es wird daher untersucht, inwieweit die oben beschriebenen Lernalgorithmen genutzt werden können, um auch komplexere Kodierungen zu automatisieren.

Dabei soll insbesondere untersucht werden:
(1) welche Anzahlen an Kodierungen vorliegen müssen, um eine ausreichende Schätzgenauigkeit des trainierten Modells zu erhalten, und
(2) welche Modellvarianten derzeit für entsprechende Kodierungen am geeignetsten sind.

Methode

Für zwei exemplarisch ausgewählte Kodierungen werden Lernalgorithmen trainiert und die resultierenden Schätzgenauigkeiten verglichen. Dazu wird zunächst ein Neural Network Language Modell (NNLM; Bengio, Ducharme, Vincent, & Jauvin, 2003) verwendet, das mit dem deutschen Google News 30B Korpus vortrainiert ist (Google, 2019) und dann auf Basis des TensorFlow Frameworks je Kodierung mit den zugehörigen vorliegenden kodierten Antwortdaten spezialisiert wird. Das Spezialisierungstraining wird mit unterschiedlichen Stichprobengrößen der vorliegenden Kodierungen durchgeführt, um den Einfluss der Anzahl der vorliegenden Kodierungen auf die Genauigkeit des Algorithmus zu untersuchen. Für das Training des Modells werden 70% der Daten verwendet, die zufällig ausgewählt werden. Die restlichen 30% werden zur Testung des Modells verwendet.

Ein entsprechend vergleichbares Training wird mit einer Modellvariante auf Basis des PyTorch Frameworks durchgeführt und mit den obigen Ergebnissen verglichen. Als initialer Korpus im Rahmen dieser Variante dient dabei das deutsche Wikipedia.

Ergebnisse

Im Folgenden sind beispielhaft die Ergebnisse für ein Item dargestellt, für das die Kodierungen mit Hilfe des TensorFlow Frameworks geschätzt wurden. Über eine dichotome Kodierung wurde in diesem Item festgehalten, ob die Teilnehmenden in ihrer Email-Antwort eine angemessene Fachsprache verwendet haben oder nicht. Im betrachteten Fall lagen von 733 Teilnehmenden (nicht leere) Antworten vor, von denen entsprechend 513 für das Training des Modells genutzt wurden und 219 für die seine Testung. Für 379 der Antworten wurde die Fachsprache als angemessen eingestuft. Nach Durchführung des Trainings lag die Schätzgenauigkeit für den Trainingsdatensatz bei 82,8% und für den Testdatensatz bei 82,2%. Für den Testdatensatz waren dabei 17,9% falsch negativ und 17,8% falsch positiv.

Die Ergebnisse für kleinere Stichprobengrößen und die Modellschätzung basierend auf PyTorch werden auf der Tagung präsentiert.

Diskussion

Die Ergebnisse zeigen, dass mit Hilfe der sequentiellen Lernalgorithmen die kodierten Antworten von einigen hundert Teilnehmenden ausreichend sein können, um die Schätzgenauigkeit einer automatischen Kodierung in Bereiche zu bringen wie sie häufig auch bei Kodierungen durch Menschen zu beobachten sind. Möchte man ein schnelles erstes Feedback liefern, kann man also durchaus in Betracht ziehen einen entsprechenden Lernalgorithmus einzusetzen. Darüber hinaus bietet er die Möglichkeit Antworten, bei denen der Algorithmus und der Kodierer unterschiedlich entscheiden haben, gezielt für eine Nachkontrolle bzw. Zweitkodierung zu selektieren.



Gemeinsame Modellierung multipler, behavioraler Indikatoren niedriger Testmotivation in MIRT-Modellen

Tobias Deribo1, Kroehne Ulf1, Goldhammer Frank1,2

1DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland; 2Zentrum für internationale Bildungsvergleichsstudien (ZIB), Deutschland

Theoretischer Hintergrund

Die Verfügbarkeit von Bearbeitungszeiten in computerbasierten Assessments hat zur Entwicklung neuer, verhaltensbasierter Messansätze von Testmotivation geführt (Wise & DeMars, 2006). Die Frage der Testmotivation ist insbesondere in Low-Stakes-Assessments relevant, da diese eine geringe Wertkomponente aufweisen (Eklöf, 2010). Diese kann zu niedrigerer Testmotivation führen, welche die Validität von Schlussfolgerungen auf Grundlage von Testergebnissen beeinträchtigen kann (Messick, 1995). Anhand von Prozessdaten können Verhaltensweisen identifiziert werden, welche auf Testmotivation schließen lassen (Goldhammer & Zehner, 2017; Wise & Gao, 2017). Als Indikatoren von Testmotivation werden schnelles Rate- oder Bearbeitungsverhalten (SRV; SBV, Wise, 2017; Goldhammer, Martens & Lüdtke, 2017) und das Auslassen von Items (Jakeworth, 1999) fokussiert. SRV bezeichnet dabei das Abgeben von Itemantworten unter einer Zeitschwelle. Es wird angenommen, dass unter dieser Schwelle keine inhaltliche Auseinandersetzung mit dem Item stattgefunden hat. SBV ist ein Kombination aus SRV und schnellem Auslassverhalten (SAV), d.h. dem Überspringen von Items unter einer Zeitschwelle. Die Zusammenfassung in SBV basiert auf der Annahme, dass auch SAV keine Auseinandersetzung vorausgegangen ist (Goldhammer et al., 2017). Auslassen von Items wird durch die Aufteilung in SAV und langsames Auslassverhalten (LAV) differenziert. LAV bezieht sich auf das Überspringen von Items nach dem die für SAV identifizierte Zeitschwelle überschritten wurde. Vorangegangene Forschungsarbeiten konnten einen negativen Zusammenhang zwischen SRV oder SBV mit Personenfähigkeit aufzeigen (z.B. Rios, Liu, & Bridgeman, 2014; Goldhammer et al., 2017; Wise, Pastor & Kong, 2009). Für das Auslassen von Items zeigten sich unterschiedliche Zusammenhänge in Abhängigkeit von der untersuchten Domäne (Pohl, Gräfe & Rose, 2014).

Forschungsfragen

Im Rahmen der Arbeit wird die Replikation eines negativen Zusammenhangs zwischen den latenten Variablen SRV und SBV mit der Personenfähigkeit erwartet (F1/F2). Weiterhin sollen die Befunde von Pohl et al. (2014) bzgl. des Zusammenhanges von Auslassen und Personenfähigkeit um die Domäne ICT-Literacy (Senkbeil, Ihme & Wittwer, 2013) erweitert (F3), sowie die Veränderung dieses Zusammenhanges, nach Differenzierung in SAV und LAV (F4), exploriert werden.

Methode

Die Analysen basieren auf Daten eines ICT-Literacy Test (Senkbeil, Ihme & Wittwer, 2013) der Startkohorte Studierende des Nationalen Bildungspanels. Dieser bestand aus 25 Multiple-Choice und fünf Complex-Multiple-Choice Items und wurde in einem unbetreuten Setting von den Testteilnehmern (N = 4906, MAlter = 24.13, weiblich = 61.94%) online bearbeitet. Zur Identifizierung der Zeitschwellen für SRV wurde Visual inspection of RT distributions with conditional P+ information (Lee & Jia, 2014) genutzt. Diese Schwellen wurden nachfolgend auch zur Identifikation von SAV verwendet. Zur Beantwortung der Forschungsfragen wurden multidimensionale Item-Response-Theorie Rasch-Modelle (MIRT-Modell; Reckase, 2009) geschätzt. Modell 1 (M1) umfasst die latenten Variablen Personenfähigkeit, Auslassen und SRV, Modell 2 (M2) Personenfähigkeit, LAV und SBV. Innerhalb der Fähigkeitsschätzung wurden Antworten, auf denen SRV, SBV, Auslassen oder LAV identifiziert worden sind, sowie nicht-erreichte Items als fehlend kodiert. Analysen wurde mit der Statistiksoftware R (R Core Team, 2019) und dem mirt-Paket (Chalmers, 2012) durchgeführt.

Ergebnisse

Die Analysen zeigten statistisch-signifikante, negative Korrelationen zwischen der Personenfähigkeit und SRV in M1 (F1; r = -.612; p <.001), sowie Personenfähigkeit und SBV in M2 (F2; r = -.667 p < .001). Die Korrelationen weisen auf eine nonignorability von SRV und SBV hin, selbst wenn identifizierte Itemantworten aus der Fähigkeitsschätzung ausgeschlossen werden. Es erscheint daher ratsam, SRV/SBV in die Fähigkeitsschätzung mit einzubeziehen. Für den Zusammenhang zwischen Personenfähigkeit und Auslassen in M1 fand sich ein statistisch-signifikanter, negativer Zusammenhang (F3; r = -.127, p = .02). Nach Differenzierung in SBV und LAV in M2 zeigte der Zusammenhang zwischen Fähigkeit und LAV eine geringere, statistisch nicht mehr signifikante Korrelation (F4; r = -.096, p = .44). Dies deutet auf eine niedrigere nonignorability des Mechanismus des Fehlens in M2 hin. Die Differenz sollte jedoch mit Blick auf die Standardfehler (M1, M2: SE = .027) nicht überinterpretiert werden.



Entwicklung und Implementierung eines digitalen Instrumentes zur Erfassung der Lesegeschwindigkeit

Katrin Gottlebe, Sandra Dietrich, Brigitte Latzko

Universität Leipzig, Deutschland

Theoretischer Hintergrund

In vielen Bundesländern ist die kontinuierliche Lernstandsanalyse bereits schulgesetzlich verankert. Um den Aufwand für die Lehrpersonen gering zu halten, wird in der praktischen Umsetzung zunehmend auf computerbasierte Lernstandserhebungen zurückgegriffen. Die computerbasierte Durchführung bringt Vorteile bezogen auf Testgütekriterien mit sich (siehe Schmidt-Atzert et al., 2012). Die Darbietung diagnostischer Aufgaben in digitaler Form führt aber nicht automatisch zu einer Verbesserung der Gütekriterien. Digitalisierte pädagogisch-psychologische Diagnostik bleibt den wissenschaftlichen Kriterien verpflichtet und muss auf pädagogisch-psychologische Theorien und Methoden zurückgreifen, um Gütekriterien zu sichern (Huff & Sireci, 2001).

Ausgehend davon zielt der Beitrag darauf ab, anhand der Entwicklung und Implementierung eines digitalen Instrumentes zur Erfassung der Lesegeschwindigkeit (Wortlesetest), die Potenziale und Schwierigkeiten der digitalen Transformation zu diskutieren.

Fragestellung

Inwiefern gelingt es, sich dem Konstrukt Leseflüssigkeit anzunähern und dabei auch die Anforderung einer digitalen und lehrplannahen Operationalisierung der basalen Lesefähigkeiten auf Wortebene zu erfüllen?

Methode

Der Wortlesetest ist ein digitales Verfahren zur Erfassung der Lesegeschwindigkeit in den Jahrgangstufen 2 bis 6. Im Wortlesetest werden die hierarchieniederen Prozesse der fehlerfreien und schnellen Worterkennung als ein Aspekt von Leseflüssigkeit (Rosebrock et al., 2017) in den Mittelpunkt gestellt.

Lesegeschwindigkeit wird operationalisiert über die Anzahl der gelesenen Wörter in zwei Minuten. Das Testmaterial besteht aus 64 Items (ein- und mehrsilbige Wörter), die einzeln dargeboten werden. Zur Kontrolle des instruktionsgemäßen Arbeitens sind in jedem Set 2 Zielwörter enthalten, die ausbalanciert verteilt sind.

An der Datenerhebung nahmen je Jahrgangstufe über 900 SchülerInnen aus 80 Grundschulen eines ausgewählten Bundeslandes teil. Die Auswahl der Grundschulen erfolgte zufällig mit mehrfacher Schichtung nach repräsentativer Verteilung auf die Schulämter und den sozioökonomischen Status der Elternschaft. Die Stichprobe umfasst je Jahrgangsstufe zwischen 862 und 930 SchülerInnen. Die Teilnehmerzahl entspricht ca. 1,5 % der jeweiligen Schülerzahl der entsprechenden Jahrgangstufen.

Die Erhebung fand zu Beginn des Schuljahres 2018/19 statt. Den teilnehmenden Schulen wurde ein Handbuch zur Verfügung gestellt, sodass diese den digitalen Wortlesetest eigenständig durchführen konnten.

Die Validierung der Leseleistung erfolgte anhand des SLS 2-9 (Mayringer & Wimmer, 2014) sowie in den Jahrgangstufen 3 und 5 anhand des ELFE II (Lenhard et al., 2017). Die kognitiven Fähigkeiten wurden mit Hilfe des CFT 1-R (Weiß & Osterland, 2012) in den Jahrgangsstufen 2 und 3 und des CFT 20-R (Weiß, 2006) in den Jahrgangstufen 4-6 erfasst. In die Validierungsstichprobe gingen zwischen 25 und 29% der Untersuchungsstichprobe ein.

Im Rahmen der statistischen Analysen wurden jahrgangspezifisch die Odd-Even-Split-Half-Reliabilität sowie Pearson-Korrelationskoeffizienten für den Zusammenhang der Messwerte des Wortlesetestes mit Normwerten der Validierungsverfahren bestimmt.

Ergebnisse

Die Itemschwierigkeiten sind über die Jahrgangsstufen durchgehend sehr niedrig, die Items also sehr leicht zu lösen. Die Itemtrennschärfen sind akzeptabel. Die Split-Half-Reliabilität liegt in den Jahrgangstufen über r = 0.90.

Die jahrgangspezifischen Messwerte des Wortlesetests weisen einen hohen Zusammenhang mit den Normwerten des SLS 2-9 auf. Die Korrelation mit dem Lesequotienten des SLS 2-9 liegt mit r = .72 in der Jahrgangstufe 2 sehr hoch, mit r = .42 in der Jahrgangstufe 5 eher niedrig, in den Jahrgangstufen 2, 3 und 6 zwischen r = .51 und .60. Für die Jahrgangsstufen 3 und 5 liegt die Korrelation mit der Lesegeschwindigkeit auf Wortebene (ELFE II) bei r = .63/.52.

Die Korrelationen mit der Deutschnote (Jgst. 4-6) liegen im eher niedrigen Bereich zwischen -.23 und -.33. Darüber hinaus werden Ergebnisse zur diskriminanten Validität vorgestellt.

Die Ergebnisse legen nahe, dass es sich bei dem Wortlesetest um einen vielversprechenden Zugang zur computerbasierten Erfassung von Lesegeschwindigkeit handelt, obgleich auch Möglichkeiten zur Verbesserung des Instruments diskutiert werden.

Die Vorteile digitaler Verfahren im Vergleich zum herkömmlichen Papier-Bleistift-Verfahren werden mit Bezug auf die aufgeworfene Frage nach dem Mehrwert digitaler Medien für die diagnostische Handlungspraxis von Lehrkräften erörtert.