Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
Sitzungsübersicht
Sitzung
M16–S24: Testkonstruktion
Zeit:
Mittwoch, 25.03.2020:
16:45 - 18:30

Ort: S24

Präsentationen

Cut-off Werte für Infit und Outfit in Abhängigkeit von dem Ausmaß an Misfit und der Personenverteilung

Katharina Fährmann, Carmen Köhler, Johannes Hartig

DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland

Theoretischer Hintergrund

Im Zentrum von Large-Scale-Assessments stehen zumeist Kompetenzmessungen. Zur Skalierung der Itemantworten wird die Item-Response-Theorie herangezogen, bei der eine Voraussetzung für valide Aussagen die Passung der Daten auf das Messmodell ist (Wainer & Thissen, 1987). Zur Prüfung jener Modellpassung schlagen Hambleton und Han (2005) fünf Schritte vor, von denen sich einer explizit auf die Itemfit-Testung bezieht.

In der Praxis werden weder gleiche Itemfit-Maße noch einheitliche Cut-Off Werte angewendet (siehe bspw. (ACARA, 2013; OECD, 2015), sodass das Vorgehen aufgrund einer fehlenden theoretischen und statistischen Grundlage willkürlich erscheint. Gleichzeitig liegen trotz umfangreicher Forschung zu den Eigenschaften der Itemfit-Maße keine klaren Richtlinien vor. Dies gilt auch für die Fit-Maße Infit und Outfit. Verschiedene Cut-off Werte werden empfohlen und verwendet: in der PISA-Studie 0.8 und 1.2 (OECD, 2012), in der NAP-Studie 1.15 (ACARA, 2013), in der NEPS-Studie 1.2 (für N=7.500) und 1.15 (für N=15,000) (Pohl & Carstensen, 2012), als generelle Empfehlung 0.5 und 1.5 (de Ayala, 2009; Linacre, 2002) oder für Low-stakes Tests 0.7 und 1.3 (Wrigth & Linacre, 1994). Fundierte Begründungen zur Wahl dieser Werte fehlen jedoch. Zudem ist die Anwendbarkeit universeller Werte kritisch zu sehen, da die Performanz unter anderem von der Stichprobengröße abhängt (bspw. Wu, 1997). Wenngleich Wu (1997) für den Outfit Beeinträchtigungen bei großen Differenzen zwischen der Personenfähigkeit und der Itemschwierigkeit ausmachen konnte und Stone and Zhang (2003) innerhalb ihrer Simulationsstudien die Beeinflussung der empirischen Power durch die relative Größe der Itemparameter zeigen konnten, stehen differenzierte Untersuchungen extremer Werte für Itemparameter hinsichtlich des Fehlers erster Art und der Power aus.

Fragestellungen:

Die uneinheitliche Verwendung der Fit-Maße führt in der Praxis zu Unklarheiten, welche Cut-off Werte verwendet werden sollen. Unterschiedliche Studiendesigns können unterschiedlich strenge Anforderungen an die Items erfordern, sodass das als akzeptabel angesehene Ausmaß an Misfit variieren kann. Bisher wurde dieser Aspekt hinsichtlich empfohlener Cut-off-Werte kaum berücksichtigt. Daher werden mit zwei Simulationsstudien folgende Forschungsfragen untersucht:

1) Wie übersetzt sich in Abhängigkeit von der Stichprobengröße und der Varianz in der Stichprobe eine von 1 abweichende Diskrimination in Infit/Outfit?

2) Welche Cut-off Werte können dementsprechend abgeleitet und empfohlen werden?

3) Eignen sich diese empfohlenen Cut-off Werte auch für realistische Testumgebungen?


Methode

In der ersten Simulationsstudie wird untersucht, wie sich unter idealen Bedingungen der Infit/Outfit eines durch das 2-PL-Modell generierten Items mit dem Ausmaß an Misfit, der Stichprobengröße sowie der Varianz in der Stichprobe im Vergleich zu 100 fittenden Items im Rasch-Modell verändert. Das Ausmaß an Misfit wird über die Größe des Diskriminationsparameters gesteuert. Für die variierenden Bedingungen werden über jeweils 100 Replikationen pro variierendem Diskriminationsparameter die Konfidenzintervalle der Fit-Maße für die fitting und misfitting Items berechnet. Daraus wird abgeleitet, für welche Diskriminationsparameter ein Cut-off Wert bestimmt werden kann. In der zweiten Studie wird geprüft, ob diese berechneten Cut-off Werte in realistischeren Szenarien für unterschiedliche Stichprobengrößen funktionieren. Dazu werden drei unterschiedliche Verteilungen verwendet, aus denen Diskriminationsparameter für alle Items gezogen werden. Pro Bedingung werden entsprechend des jeweiligen Diskriminationsparameters die berechneten Fit-Werte mit den Cut-off Werten verglichen und der prozentuale Anteil an Items berechnet, der außerhalb des jeweiligen Cut-offs liegt.

Ergebnisse

Die Ergebnisse zeigen, dass eine von 1 abweichende Diskrimination sich je nach Datensatzeigenschaften und Ausmaß an Misfit in unterschiedliche Infit-/Outfitwerte übersetzt. Diese sind maßgeblich von der Varianz in der Stichprobe sowie dem Ausmaß an Misfit abhängig. Für alle untersuchten Datensatzeigenschaften konnten Cut-off Werte abgeleitet werden, wobei mit steigender Stichprobengröße und/oder Varianz in der Stichprobe eine Trennung zwischen Misfit und Fit für ein niedrigeres Ausmaß an Misfit möglich ist. Diese berechneten Cut-off Werte funktionieren in realistischeren Szenarien überwiegend gut. Entsprechend können Anwendern Cut-off Werte für verschiedene Datensatzeigenschaften bereitgestellt werden, sodass lediglich für den jeweiligen Anwendungsfall das tolerierbare Ausmaß an Misfit festgelegt werden muss.



Relevanz des Testzeitraums für die Evaluation der Instruktionssensitivität von Testaufgaben

Stephanie Musow1, Alexander Naumann2, Jan Hochweber1, Johannes Hartig2

1Pädagogische Hochschule St.Gallen, Schweiz; 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation

Theoretischer Hintergrund

Die Instruktionssensitivität beschreibt, inwieweit ein Test oder eine Testaufgabe in der Lage ist, Effekte von Unterricht auf Leistungen der Schüler*innen abzubilden (Polikoff, 2010). Die Sicherstellung der Instruktionssensitivität ist insbesondere dann von Relevanz, wenn auf Basis der Testdaten der Schüler*innen Rückschlüsse über Schule oder Unterricht gezogen werden sollen (z.B. testdatenbasierte Schul- und Unterrichtsentwicklung; Altrichter, Moosbrugger & Zuber, 2016). Ist die Instruktionssensitivität nicht hinreichend gewährleistet, kann dies zu fehlerhaften Schlussfolgerungen bezogen auf Schule und Unterricht führen. Diverse Verfahren stehen zur Überprüfung dieses Validitätskriteriums zur Verfügung (Naumann, Hartig & Hochweber, 2017). In der Regel werden zwei Messzeitpunkte (Pre- und Posttest) für die Evaluation der Instruktionssensitivität herangezogen. Inwieweit die gemessene Sensitivität von Testaufgaben unter Berücksichtigung mehrerer unterschiedlicher Zeiträume variiert, darüber gibt es bislang jedoch keine Erkenntnisse. Der Beitrag hat zum Ziel, die Instruktionssensitivität von Testaufgaben unter Berücksichtigung von drei Messzeitpunkten zu evaluieren. Angenommen wird, dass je nach betrachtetem Zeitraum die Ergebnisse zur Evaluation der Instruktionssensitivität unterschiedlich ausfallen.

Methode

Die Untersuchung basiert auf einer empirischen Studie im Schweizer Kanton St.Gallen. Die Stichprobe umfasst 832 Schüler*innen in 48 Klassen der Primarschule. Mithilfe von Mathematikleistungstests wurden Daten zu 17 Arithmetik-Aufgaben zu drei Messzeitpunkten erhoben (t1 = Pretest, August/September 2016; t2 = Pretest, Februar/März 2017; t3 = Posttest, Mai/Juni 2017). Die Instruktionssensitivität der Testaufgaben wurde mithilfe eines längsschnittlichen Mehrebenen-Item-Response-Theory-Modell überprüft (Naumann et al., 2017). Dieses ermöglicht die Schätzung der mittleren Veränderung von Itemschwierigkeiten (globale Sensitivität) und der Varianz der Veränderung der klassenspezifischen Itemschwierigkeiten (differentielle Sensitivität) als Indikatoren der Instruktionssensitivität von Testaufgaben. In Anlehnung an Steyer, Eid und Schwenkmezger (1997) kann, bei der Wahl des Zeitraumes für die Bestimmung von Veränderungswerten mit drei Messzeitpunkten, der erste Messzeitpunkt als Referenzpunkt (t1 – t2, t1 – t3) oder der jeweils benachbarte Messzeitpunkt (t1 – t2, t2 – t3) herangezogen werden. In diesem Beitrag erfolgt ein Vergleich der Ergebnisse zu den Indikatoren der Instruktionssensitivität, denen zum einen Daten des Zeitraumes von t1 zu t3 und zum anderen Daten des Zeitraumes von t2 zu t3 zugrunde liegen.

Ergebnisse

Wird die globale Sensitivität der Testaufgaben für den Zeitraum von t1 zu t3 überprüft, erweisen sich alle Testaufgaben als global sensitiv (d.h. Kredibilitätsintervalle umschließen nicht die Null; Gelman & Hill, 2018). Wird die globale Sensitivität der Testaufgaben für den Zeitraum von t2 zu t3 untersucht, erweisen sich 12 der 17 Items als global sensitiv. Erste vorläufige Ergebnisse zur differentiellen Sensitivität zeigen, dass für den Zeitraum von t1 zu t3 insgesamt 5 der 17 Testaufgaben differentiell sensitiv sind (d.h. der Bayes-Faktor BF01 zur Überprüfung der Nullhypothese ist < 3, der Bayes-Faktor BF10 zur Überprüfung der Alternativhypothese ist >3; Verhagen & Fox, 2013). Wird die differentielle Sensitivität der Testaufgaben für den Zeitraum von t2 zu t3 überprüft, erweisen sich 8 der 17 Testaufgaben als differentiell sensitiv.

Diskussion

Die Ergebnisse zeigen, dass mit dem enger gewählten Zeitraum sich weniger Testaufgaben als global sensitiv erweisen als mit dem breiteren. Bei den Ergebnissen zur differenziellen Sensitivität ist es umgekehrt: Die Anzahl an differentiell sensitiven Testaufgaben fällt im breiter gewählten Zeitraum geringer aus als im engeren. Eine Erklärung ist darin zu sehen, dass die große Mehrheit an Schüler*innen die Aufgaben noch nicht zu t1, aber zu t3 korrekt lösen können. Wird ein engerer Zeitraum gewählt, sind einige Klassen im Unterricht weiter als andere. Letzteres geht mit einer höheren Varianz in den Daten einher. Die Testaufgaben erweisen sich folglich als differenziell sensitiv. Zusammenfassend bleibt festzuhalten, dass die Anzahl an geeigneten Testaufgaben, um Effekte von Unterricht auf die Leistungen der Schüler*innen abzubilden, vom jeweils gewählten Testzeitraum abhängt. Die Ergebnisse verdeutlichen damit die hohe Relevanz eines sinnvoll gewählten Zeitraums für die Bestimmung von Veränderungswerten zur Überprüfung dieses Validitätskriteriums.



Zum Konstrukt der «Wirtschaftsbürgerlichen Kompetenz»: Aspekte der Testentwicklung und der evidenzbasierten Validierung

Nicole Ackermann

Pädagogische Hochschule Zürich, Schweiz

Das Bildungsideal des «mündigen Wirtschaftsbürgers» (vgl. Albers, 1988, 1995; Dubs, 1985, 2011, 2013; Eberle, 2015; Ulrich, 1993, 2001) ist in der Schweiz für gymnasiale und berufliche Schulen auf der Sekundarstufe II curricular verankert (vgl. EDK, 1994; SBFI, 2006, 2012; SKKAB, 2011). Allerdings sind die damit verknüpften Kompetenzen und Lerninhalte/Lernziele so heterogen wie das Schweizer Bildungssystem föderalistisch ist. Es fehlt bislang an einem wissenschaftlich fundierten Kompetenzmodell, einem Kerncurriculum und kompetenzorientierten Bildungsstandards für die verschiedenen Bildungsgänge – und nicht zuletzt an einem Instrument, um die Bildungsergebnisse zu evaluieren. In diesem Beitrag wird, ausgehend vom neu entworfenen Rahmenmodell der wirtschaftsbürgerlichen Kompetenz (WBK-Modell) (Ackermann, in print), die modellbasierte Testentwicklung/-revision und die evidenzbasierte Validierung der Testergebnisse vorgestellt.

Wirtschaftsbürgerliche Kompetenz (WBK) bezieht sich auf ökonomisch geprägte Anforderungssituationen in verschiedenen Lebensbereichen, für deren Bewältigung kognitive Prozesse erforderlich sind (Ackermann, in print). Im gesamtgesellschaftlichen/gesamtwirtschaftlichen Lebensbereich – die sozioökonomische Facette der WBK (WBK-soek) – ergeben sich komplexe sozioökonomische Problemsituationen mit kontroversen Lösungsansätzen aus verschiedenen realen Politikfeldern (z.B. Energie & Umwelt, Finanzen & Steuern, Soziale Sicherheit & Vorsorge).

Der revidierte Test zur wirtschaftsbürgerlichen Kompetenz (WBK-T2) ist ein psychologischer Leistungstest, der die Facette WBK-soek operationalisiert (Ackermann, 2018a, 2018b, in print; Eberle, Schumann, Kaufmann, Jüttler, & Ackermann, 2016). Er ist für Schüler*innen am Ende der Sekundarstufe II konzipiert. Die Testwerte sollen kriteriumsorientiert als WBK-soek interpretiert werden und diagnostischen Zwecken dienen. Der WBK-T2 beinhaltet vier sozioökonomische Problemsituationen (z.B. Altersvorsorge, Energieversorgung) und insgesamt 32 Items (Ackermann, in print). Jede Problemsituation beginnt mit einem Einleitungstext, der die Problemsituation strukturiert und kontextualisiert, gefolgt von Items, die systematisch im Kognitionsprozess und im Antwortformat variieren.

Die qualitative Validierung des Testinhalts (AERA, APA, & NCME, 2014) erfolgte durch eine umfangreiche theoretische und empirische Domänenanalyse sowie erfolgte durch Leitfaden-Interviews mit Experten (Ackermann, in print).

Für die quantitative Validierung der Testergebnisse wurde der WBK-T2 bei einer Stichprobe von 375 Gymnasialschüler*innen (42 % WuR, 58 % Nicht-WuR) in einem Deutschschweizer Kanton eingesetzt (Ackermann, in print). Für die Validierung der internen Struktur (AERA et al., 2014) wurden probabilistische Analysen mit dem Partial Credit Rasch-Modell gerechnet (vgl. Adams, Wu, & Wilson, 2015; Rost, 2004). Die Prüfung der faktoriellen Struktur des Messmodells spricht für Eindimensionalität. Die Skalierbarkeit der Personen- und Itemparameter ist gegeben (Mθ = 0.525, VARθ = 0.394; Mσ = 0, VARσ = 1.460). Die Prüfung des Testmodells bestätigt tolerierbare Item-Infits für alle Items (0.92 ≤ wMNSQ ≤ 1.17), ansteigende Schwellenparameter für fast alle polytomen Items sowie mehrheitlich akzeptables Differential Item Functioning bezüglich des curricularen Vorwissens (WuR/Nicht-WuR) und des biologischen Geschlechts. Die Reliabilität der Personenparameter und der Personen-Testwerte ist als gut zu beurteilen (WLE = .74, EAP/PV = .76, α = .74). Die Qualität der Items ist aufgrund klassischer Item-Schwierigkeiten und Item-Trennschärfen bei fast allen Items ebenfalls gut.

Für die Validierung der Beziehung zu externen Merkmalen wurden Mittelwert- und Korrelationsanalysen gerechnet (Ackermann, in print). Schüler*innen im Schwerpunktfach WuR verfügen über eine höhere WBK als jene mit einem anderen Schwerpunktfach (p < .001, |d| = 0.80). Jungen haben eine höhere WBK als Mädchen, allerdings zeigt sich dieser Effekt nur in der Teilstichprobe Nicht-WuR (p < .001, |d| = 0.65). Die WBK korreliert schwach positiv mit den Schulfachnoten WuR und Deutsch (r = .21 bzw. r = .14, p < .001) sowie schwach positiv mit dem Interesse für sozioökonomische Problemstellungen (r = .27, p < .001).

Die untersuchten Validierungsaspekte deuten darauf hin, dass die Testergebnisse der Gymnasialschüler*innen valide hinsichtlich des Konstrukts WBK-soek interpretiert werden können. Somit kann der WBK-T2 vielfältig eingesetzt werden, z.B. zur Kompetenzerfassung in anderen Bildungsgängen/Schulformen auf der Sekundarstufe II, zur Wirkungsuntersuchung verschiedener Lehr-Lernarrangements auf die Kompetenzentwicklung.



Kann der ausgeglichene Einsatz gebundener und freier Itemformate Geschlechterunterschiede in den Testergebnissen reduzieren? Eine Analyse des Format-Geschlechter-Verhältnisses im Test der wirtschaftsbürgerlichen Kompetenz

Nicole Ackermann1, Christin Siegfried2

1Pädagogische Hochschule Zürich, Schweiz; 2Goethe-Universität Frankfurt am Main, Deutschland

Studien in der Domäne Economic Literacy verweisen immer wieder auf geschlechtsspezifische Unterschiede in der Testleistung, d.h. männliche Testpersonen schneiden besser ab als weibliche (z.B. Brückner, Förster, Zlatkin-Troitschanskaia, & Walstad, 2015; Förster & Zlatkin-Troitschanskaia, 2010; Schumann & Eberle, 2014; Soper & Walstad, 1987). Erklärt werden diese Befunde sehr unterschiedlich: männliche Probanden haben ein höheres Interesse an ökonomischen Themen und höhere mathematische Fähigkeiten (z.B. Beck & Wuttke, 2004; Becker, Greene, & Rosen, 1990); sie haben höhere eine Präferenz für gebundene Itemformate (Selected-Response, SR) wie z.B. Multiple-Choice (Walstad & Robson, 1997). Gleichzeitig zeigen Studien im Bereichen Naturwissenschaften (STEM, z.B. Mathematik) und Sprachen (z.B. Englisch als Muttersprache), dass weibliche Testpersonen bei freien Itemformaten (constructed response items, CR) besser abschneiden als bei gebundenen (Beller & Gafni, 2000; Bolger & Kellaghan, 1990; Reardon, Kalogrides, Fahle, Podolsky, & Zárate, 2018). Um die geschlechterbedingten Affinitäten bezüglich unterschiedlicher Itemformate gleichermaßen zu bedienen, schlagen Forschende die systematische Variation von SR- und CR-Items vor (z.B. Reardon et al., 2018). Jedoch lassen die bestehenden Test für Economic Literacy eine solche Variation vermissen, denn sie enthalten vornehmlich SR-Items (vgl. Beck, 1993; Schumann & Eberle, 2014).

Ziel der vorliegenden Studie ist es, die Geschlechterunterschiede bezüglich des Itemformats in der Domäne Wirtschaft zu untersuchen. Hierfür wird der Test der wirtschaftsbürgerlichen Kompetenz (WBK) mit einer systematischen Variation von SR und CR Items herangezogen. Damit kann folgenden Forschungsfragen nachgegangen werden: (FF1) Inwieweit zeigen männliche Testpersonen eine höhere Testleistung in der wirtschaftsbürgerlichen Kompetenz als weibliche? (FF2) Inwieweit sind potentielle Geschlechterunterschiede in der Testleistung systematisch mit dem Itemformat der einzelnen Testitems verknüpft? (FF3) Inwieweit wird der Zusammenhang zwischen Itemformat und Geschlecht in der Testleistung durch das Interesse an sozioökonomischen Fragestellungen und dem ökonomischen Vorwissen moderiert?

Für die Beantwortung dieser Forschungsfragen wird eine Stichprobe von 375 Schweizer Gymnasiasten (62 % weiblich, 38 % männlich) (Ackermann, im Druck) und der revidierte Test zur wirtschaftsbürgerlichen Kompetenz (WBK-T2) (Ackermann, 2018a, 2018b; Eberle, Schumann, Kaufmann, Jüttler, & Ackermann, 2016) herangezogen. Der WBK-T2 enthält insgesamt 32 Items, von denen 53 % ein SR-Format und 47 % ein CR-Format haben. Für die Untersuchung der Itemformat-Geschlechter-Relation wurden T-Tests und Regressionsanalysen gerechnet.

Die Ergebnisse zeigen, dass männliche Testpersonen den weiblichen im WBK-T2 mit kleinen Effektgrößen überlegen sind, und zwar unabhängig vom Itemformat. Für Probanden mit ökonomischem Vorwissen Vorkenntnissen in der Wirtschaftswissenschaft deuten die Ergebnisse allerdings darauf hin, dass das Geschlecht keine Auswirkung auf das Testergebnis hat. Das Interesse an sozioökonomischen Inhalten beeinflusst das Testergebnis der Probanden, moderiert aber nicht den Zusammenhang von Geschlecht und Testergebnis. Dieser Moderrationseffekt wird stattdessen vom ökonomischen Vorwissen übernommen.

Zusammenfassend lässt sich aus den Ergebnisse der vorliegenden Studie ableiten, dass Geschlechterunterschiede in den Testergebnissen des WBK-T2 weniger durch ein bestimmtes Itemformat oder der Verteilung von Itemformaten beeinflusst sind, sondern vielmehr durch das Vorwissen der Testpersonen und der Wahrnehmung Nutzung formaler Lerngelegenheiten in der Domäne Wirtschaft. Diese Ergebnisse stehen im Einklang mit anderen aktuellen Studien (Ackermann, im Druck; Siegfried, 2019; Siegfried & Ackermann, im Review), die darauf hindeuten, dass der Besuch von Wirtschaftskursen die Geschlechterunterschiede verringern kann. Dabei scheinen Teilnehmerinnen Mädchen stärker als Jungen von wirtschaftswissenschafltichen Vertiefungskursen in Ökonomie zu profitieren als Teilnehmer.

Es bleibt dabei allerdings die Frage offen, ob diese Ergebnisse ein Merkmal des Testinstruments WBK-T2 oder des Inhaltsbereichs der wirtschaftsbürgerlichen Kompetenz sind. Bei weiteren Studien zur Untersuchung von Geschlechterunterschieden in der Domäne Wirtschaft sollten deshalb auch ökonomisches Vorwissen, domänenspezifisches Interesse und kognitive Fähigkeiten berücksichtigt werden.