Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Sitzung
D9–1.19: Analyse von Messinstrumenten
Zeit:
Donnerstag, 26.03.2020:
9:00 - 10:45

Ort: 1.19

Präsentationen

Computergeneriertes Scoring von fachdidaktischem Wissen (angehender) Lehrkräfte im kaufmännisch-verwaltenden Bereich – Ein Performanzvergleich zwischen Mensch und Maschine

Andreas Wahlen1, Christiane Kuhn1, Olga Zlatkin-Troitschanskaia1, Aoife Cahill2, Christian Gold3, Torsten Zesch3, Andrea Horbach3

1Johannes Gutenberg-Universität Mainz, Deutschland; 2Educational Testing Service, Princeton, USA; 3Universität Duisburg-Essen, Deutschland

Das Unterrichten eines Fachs ist eine komplexe Tätigkeit, die von (angehenden) Lehrkräften verlangt, die Struktur und Bedeutung eines Lerninhalts den Lernenden unter Berücksichtigung ihrer Lernvoraussetzungen und -bedürfnisse zugänglich zu machen (Wilson et al., 2018; Kersting et al., 2014). Hierfür benötigen Lehrkräfte u.a. fachdidaktisches Wissen, als Teil ihres Professionswissens. Um handlungsnahes Wissen valide zu erfassen, sind Aufgaben mit offenem Antwortformat ein wichtiges Instrument (Alonzo et al., 2012). Das Scoring offener Antworten durch geschulte Rater stellt jedoch einen ressourcenintensiven Prozess dar, was ihren Einsatz in der Praxis erschwert (Resnik & Lin, 2013). Zudem besteht die Gefahr, dass in den Test-Scores, auf Basis des Scorings, Inkonsistenzen aufgrund von systematischen Beurteilungsfehlern bzw. Verzerrungen auftreten, was eine objektive, reliable und valide Erfassung einschränkt (Bejar, 2012; Liu et al., 2014).

In der Lehr-Lern-Forschung wird seit einigen Jahren der Einsatz computergenerierter Scoring-Systeme bei offenen Aufgaben diskutiert (Shermis et al., 2013). Einerseits haben sie das Potential, den Ressourcenaufwand bei der Bewertung von Probandenantworten zu verringern und im Vergleich zu menschlichen Ratern konsistentere Scoringergebnisse zu erzielen (Zhang, 2013), was eine Verbesserung der Datenqualität in Bezug auf Objektivität, Zuverlässigkeit und Gültigkeit zur Folge hat (Zehner et al., 2016). Andererseits zeigen bisherige Untersuchungen, dass durch den Einfluss von personen- und datensatzbezogener Faktoren (z.B. Geschlecht, Antwortlänge) Unterschiede in den Scoringergebnissen zwischen Mensch und Computer bestehen (Bridgeman et al., 2012; Ramineni et al., 2012a, 2012b; Perleman, 2014; Zehner et al., 2018; Autoren, 2019). In ersten wenigen Studien, welche ein computergeneriertes Scoring des fachdidaktischen Wissens von (angehenden) Lehrkräften untersuchen, konnte für die Domäne Mathematik und den (M)INT-Bereich eine moderate bis substanzielle Scoring-Übereinstimmung zwischen Mensch und Computer festgestellt werden (κw=.51-.55; κ=.77) (Kersting et al., 2014; Wilson et al., 2017). Zudem konnte Kersting et al. (2014) zeigen, dass das Scoring von mathematikdidaktischem Wissen zwischen Mensch und Computer mit dem Scoring von zwei menschlichen Ratern positiv korreliert (r=.77-.91). Vergleichbare Studien liegen für das wirtschaftsdidaktische Wissen nicht vor. Dieser Vortrag fokussiert die Frage, wie vergleichbar das computergenerierte und menschliche Scoring von wirtschaftsdidaktischem Wissen (angehender) Lehrkräfte ist und welche Implikationen sich für den Einsatz computergenerierter Scoring-Systeme in Forschung und Praxis ergeben.

Das Forschungsvorhaben wurde in Kooperation mit einem internationalen Testinstitut sowie einem nationalen Language Technology Lab durchgeführt. Für das computergenerierte Scoring des wirtschaftsdidaktischen Wissens wurden die von zuvor zwei geschulten Ratern unabhängig bewerteten Antworten von (Lehramts)Studierenden, Referendaren und Lehrpersonen (N=852) herangezogen (κw=.87). Die Antworten wurden mittels sechs offener Items eines standardisierten Testinstruments mit Text-Vignetten erfasst (Autoren 2014; Autoren et al., 2016). Das computergenerierte Scoring erfolgte mithilfe der Scoring Programme „Educational SCoRIng Toolkit“ (ESCRITO, Autoren, 2018) und „Concept-Rater“ (C-Rater, Sukkarieh & Blackmore, 2009).

Die Interrateranalysen verweisen auf eine im Schnitt substanzielle Übereinstimmung zwischen Mensch und Computer (κw=.66). Sowohl ESCRITO als auch C-RATER erzielten entlang der Antworten zu den sechs Testaufgaben moderate bis substanzielle Übereinstimmungswerte (ESCRITO: κw=.53-.75; C-RATER: κw=.58-.77). Dies lässt auf eine konvergente Validität der Scoringergebnisse zwischen Mensch und Computer schließen. Ausgehend von aktuellen Untersuchungen (Autoren, 2019) wurde zudem, mittels ESCRITO, der Einfluss von Trainingsantworten homogener Subgruppen (NStudierende=460; NReferendare=230; NLehrkräfte=162) untersucht. Die Ergebnisse der einfaktoriellen Varianzanalyse zeigen zu jeder Subgruppe (Studierende, Referendare, Lehrkräfte) einen signifikanten Einfluss auf das computergenerierte Scoring der Antworten (pStudierende=.00; pReferendare=.00; pLehrkräfte=.00; p<.05). Um möglichst genaue Scoringergebnissse zu erzielen, ist beim Trainieren von Scoring-Systemen demnach der mögliche Einfluss jenes Varianzfaktors mit zu berücksichtigen. Im Vortrag werden diese sowie weitere Befunde zu Varianzfaktoren und Übereinstimmungen innerhalb der Subgruppen präsentiert und hinsichtlich der Implikationen zum Einsatz von computergenerierten Scoring-Systemen in der Lehrerbildungsforschung und –praxis und seine Potentiale und Limitationen kritisch diskutiert.



Contrasting classical and machine learning approaches in the estimation of value-added scores in large-scale educational data.

Jessica Levy1, Dominic Mussack2, Martin Brunner3, Ulrich Keller1, Pedro Cardoso-Leite2, Antoine Fischbach1

1LUCET, University of Luxembourg, Luxembourg; 2ECCS, University of Luxembourg, Luxembourg; 3University of Potsdam, Germany

Value-added (VA) models intend to estimate the “value” specific teachers or schools add to students’ achievement, independently of students’ backgrounds (e.g., Amrein-Beardsley, Collins, Polasky, & Sloat, 2013) and are fundamental for accountability and high-stakes decisions. Yet, there is currently no consensus on how to best estimate VA scores (Everson, 2017; Levy, Brunner, Keller, & Fischbach, 2019), and VA scores may vary greatly depending on the method used (e.g., Sloat, Amrein-Beardsley, & Holloway, 2018). There are currently two main classical models to compute VA scores: linear regression and multilevel models (Kurtz, 2018; Levy et al., 2019). These models are interpretable for most researchers and practitioners. However, they make strong assumptions (e.g., linearity), which may limit their accuracy. At least in some cases, nonlinear models fit the data better than linear models, implying that the typical linearity assumption might not be warranted (Lopez-Martin, Kuosmanen, & Gaviria, 2014).

An alternative approach to these classical models involves machine learning methods, which have yielded spectacular results in numerous fields. While these modern methods may provide higher prediction accuracies, they typically require large datasets and involve models that are difficult or even impossible to interpret (i.e., black boxes). In educational research, as in many other domains, the amount of available data is consistently growing (as reflected in the development of the new domain of “educational data mining”; see, e.g., Baker, 2019; Romero & Ventura, 2010) and it is becoming feasible to apply machine learning methods to estimate VA scores. The fruitfulness of these methods is supported by recent research reporting higher accuracy and more reliable estimates of school VA scores when comparing “random forests” regression to a classical linear regression (Schiltz, Sestito, Agasisti, & De Witte, 2018). Random forests methods can capture complex nonlinear relationships between dependent and independent variables and are far more flexible than linear regression models; if the data deviates from linearity and the dataset is large enough, techniques like “random forests” can grasp patterns that classical linear models cannot. However, as they are difficult to interpret, the question occurs in how far the resulting VA scores differ from those of classical nonlinear models.

The aim of the present study is to contrast various classical and machine learning models to estimate school VA scores. We will use representative data of 3600 students in 153 schools who took part in the Luxembourg School Monitoring Programme (LUCET, 2019) in grades 1 and 3. These standardized tests take place at the beginning of grade levels 1, 3, 5, 7, and 9 and assess students’ academic competencies (e.g., math, language), background variables (e.g., SES), and learning motivation (Fischbach, Ugen, & Martin, 2014).

All models tested here share the same underlying structure (Equation 1): Achievement of student i in school j at time point t (Aijt) is described as a function f of prior achievement at a previous time point t-1 (Aijt-1), other covariates (cijt-1), and a residual (rij), which will be averaged across all students within one school to build the school VA scores.

(Eq.1) Aijt=f(Aijt-1,cijt-1)+rij

The same sets of covariates are included in all models for fair model comparison. The different models include linear and nonlinear methods and extend classical models by machine learning methods (e.g., regression trees). All analyses are conducted using the caret package (Kuhn, 2019) in R version 3.6.1 (R Core Team, 2019).

Expected outcomes are that more precision in VA models (e.g., a higher amount of explained variance) will lead to more accurate school VA measures (i.e., less variability).We will interpret the implications of these results and discuss possible ethical concerns regarding the use of machine learning methods for decision-making in education.



Evaluation gängiger Diagnosekriterien für Rechenschwäche im Grundschulalter

David Bräuning1,2,3,5, Katharina Lambert1,2,3, Stefa Hirsch5, Trudie Schils2,4, Lex Borghans2,4, Benjamin Nagengast1,2,3, Korbinian Moeller1,2,5

1Universität Tübingen, Deutschland; 2LEAD Graduate School & Research Network, Tübingen, Deutschland; 3Hector-Institut für empirische Bildungsforschung, Tübingen, Deutschland; 4School of Business and Economics, Maastricht University, Niederlande; 5Leibniz-Institut für Wissensmedien, Tübingen, Deutschland

Hintergrund: Kinder mit einer Rechenschwäche zeigen erhebliche Defizite im Erlernen basisnumerischer Fähigkeiten, die oftmals überdauernd bestehen (z.B. Krajewski & Schneider, 2009). Zur Diagnose einer Rechenschwäche werden hauptsächlich zwei Arten von Kriterien herangezogen: das Cut-Off oder das Diskrepanzkriterium. Cut-Off Werte beziehen sich auf den Prozentrang der Mathematikleistung, während das Diskrepanzkriterium eine bedeutsame Abweichung zwischen allgemeiner kognitiver und Mathematikleistung voraussetzt. Die Anwendung dieser Kriterien variiert in Forschung und Praxis jedoch stark: So schwanken Cut-Off Werte zwischen PR<10 und PR<35, für das Diskrepanzkriterium werden Abweichungen zwischen 1-2 Standardabweichungen berichtet. Bisherige Studien zeigen, dass je nach Kriterium unterschiedliche Gruppen mit unterschiedlichen kognitiven Profilen identifiziert werden (Murphy et al., 2007), was die Ursachenforschung erheblich erschwert. Ebenso variiert die Stabilität der Diagnose deutlich in Abhängigkeit vom Kriterium (z.B. Mazzocco & Myers, 2003).

Fragestellung: Bisher wurden die Kriterien kaum empirisch validiert, insbesondere mangelt es an großen längsschnittlichen Stichproben. Das Ziel der vorliegenden Studie ist die Überprüfung der Vergleichbarkeit, Reliabilität und Validität bestehender Kriterien anhand eines repräsentativen Large-Scale Datensatzes.

Methode: Die Datengrundlage bildet ein niederländisches Bildungsmonitoring, in dem Kinder über den Verlauf der Primarstufe auf verschiedenen Leistungsvariablen regelmäßig getestet wurden. Im Querschnitt der Klassen 2-4 (Klasse 2: N=6674; Klasse 3: N=7304; Klasse 4: N=7866) wurden die Kinder sowohl nach einem dreistufigen Cut-Off-Kriterium (PR<10, PR11-25, PR>25) als auch einem dreistufigen Diskrepanzkriterium (Differenz IQ-Mathematikleistung von 2 SD, 1.5 SD, <1.5 SD) gruppiert. Mittels latenter Profilanalyse (LPA) wurde überprüft, inwieweit sich ein Profil „Rechenschwäche“ statistisch identifizieren lässt und inwieweit die identifizierte Gruppe mit den mittels konventioneller Kriterien bestimmten übereinstimmt. Schließlich wurden im Längsschnitt die Mathematikleistung am Ende der Primarstufe (Klasse 6) und die Übergangsempfehlung in Abhängigkeit der Diagnosekriterien evaluiert.

Ergebnisse: In jeder Klassenstufe wurde aus verschiedenen Modellen der LPA nach statistischen und inhaltlichen Kriterien eine Lösung mit vier Profilen ausgewählt. In jeder Klassenstufe wurde ein spezifisches Profil „Rechenschwäche“ identifiziert. Dieses Profil zeigte deutliche Schnittmengen mit dem Cut-Off Kriterium: In Klasse 2 wurden diesem Profil 99% der Gruppe PR<10 und 53% der Gruppe PR11-25 zugeordnet. In Klasse 3 beinhaltete dieses Profil ausschließlich Kinder der Gruppe PR<10 (davon 65%). In Klasse 4 wurden 92% der Kinder der Gruppe PR<10 und 6% der Gruppe PR11-25 zugeordnet. Das Diskrepanzkriterium zeigte hingegen geringe Übereinstimmung mit der LPA: In jeder Klassenstufe wurden nur 20-30 % der Kinder mit einer Diskrepanz von 1.5 SD dem rechenschwachen Profil zugeordnet und 40-50% der Gruppe mit einer Diskrepanz von 2 SD. Zudem erfüllte ein Großteil der Kinder, die durch die LPA als rechenschwach klassifiziert wurden, das Diskrepanzkriterium gar nicht.

Im Längsschnitt zeigte unter allen Diagnosekriterien der Cut-Off PR<10 die höchste Stabilität: Bei etwa 30 % der Kinder, die mindestens einmal dieses Kriterium erfüllten, lag die Mathematikleistung auch in Klasse 6 im Bereich PR<10, bei weiteren 30% im Bereich PR11-25. Die meisten Kinder (60-80%), die mindestens einmal eines der Diskrepanzkriterien erfüllten, zeigten hingegen in Klasse 6 eine Mathematikleistung im unauffälligen Bereich (PR>25).

Darüber hinaus zeigte sich eine deutliche Tendenz, dass Kinder die mindestens einmal das PR<10 oder PR11-25 Kriterium erfüllten, eine Übergangsempfehlung für den nicht-akademischen Bildungsweg erhielten. Diese Tendenz zeigte sich auch für das 2 SD Diskrepanzkriterium. Von den Kindern, die das 1.5 SD Kriterium erfüllten erhielt hingegen die Hälfte eine Empfehlung für den akademischen Bildungsweg.

Schlussfolgerung: Die Analysen legen die Verwendung eines strengeren Cut-Off Kriteriums zur Diagnose von Rechenschwäche nahe, als dies bisher üblich war. Dieses scheint im Querschnitt valide zu differenzieren, allerdings ist die Stabilität der Diagnose eingeschränkt, sodass in jedem Fall eine wiederholte Messung bzw. der Einbezug weiterer Informationen erforderlich ist. Das Diskrepanzkriterium erscheint auf Basis der vorliegenden Ergebnisse nicht für die Diagnostik geeignet. Die Ergebnisse werden detailliert aufbereitet und im Hinblick auf ihre praktische Relevanz in Bildungskontexten diskutiert.