Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Sitzung
F11–S16: Paper-Pencil vs. PC-Testung
Zeit:
Freitag, 27.03.2020:
11:15 - 13:00

Ort: S16

Präsentationen

Objektivitätssteigerung durch computerbasierte Testung bei Vergleichsarbeiten

Thorben Kraus

Zentrum für Empirische Pädagogische Forschung (Uni Landau), Deutschland

Vergleichsarbeiten (VERA) stellen eine zentrale Funktion im Rahmen der Unterrichts- und Schulentwicklung jeder einzelnen Schule dar. VERA übernimmt eine wichtige Vermittlungsfunktion zwischen Schulen und der aus den Bildungsstandards hervorgehenden Kompetenzorientierung des Unterrichts. Aus VERA-Ergebnissen lassen sich Ansatzpunkte für evidenzbasierte Qualitätssicherung und -entwicklung und ableiten. Eines der von der Kultusministerkonferenz (KMK) angestrebten Ziele zur Weiterentwicklung der VERA-Testung ist die Bereitstellung von VERA als Online-Instrument (KMK 2018).

Im VERA-Durchgang 2019 wurde in der achten Klassenstufe (VERA8) parallel zum klassischen „Paper-Pencil“ (PP) Verfahren eine computerbasierte Testung (CBT) eingesetzt. Um offene Fragen hinsichtlich der Vergleichbarkeit der Ergebnisse beider Test-Modi beantworten zu können, muss zunächst die Objektivität beider Testverfahren miteinander verglichen werden.

Rost (2004) betrachtet die „[…] Objektivität der Testdurchführung [als] eine logische Voraussetzung für Reliabilität und Validität“. Objektivität kann laut Moosbrugger und Kelava (2012) in folgende Aspekte differenziert werden: Durchführungs-, Auswertungs- und Interpretationsobjektivität. Insbesondere die Auswertungsobjektivität kann bei VERA kritisch gesehen werden, da die Auswertung nicht durch geschulte Personen durchgeführt wird, sondern durch die jeweilige Lehrkraft.

Um einen Referenzwert der Auswertungsobjektivität zu schaffen, wurden PP-VERA8-Testhefte im Fach Deutsch einer Zweitkorrektur unterzogen. Durch geschulte Rater wurden insgesamt 22.459 Item-Bearbeitungen (245 Testhefte) vorgenommen und mit den ursprünglichen Kodierungen durch die Lehrkräfte verglichen. Es ergab sich eine absolute Abweichung in 5,8% der Fälle. Unter Berücksichtigung der Art der Abweichung bewerteten die Lehrkräfte die Antworten der Schülerinnen und Schüler durchschnittlich um ein Prozent besser als die geschulten Rater. Auf Aufgabenebene ergaben sich bei Aufgabentypen mit offenem Antwortformat höhere Abweichungen als bei Aufgaben mit geschlossenem Antwortformat (z. B. Multiple-Choice-Aufgaben). Bei der Untersuchung der Auswertungs-objektivität von Vergleichsarbeiten in der dritten Jahrgangsstufe (VERA3) kamen Koch und Hosenfeld (2013) für den Zeitraum 2009 bis 2012 zu einem ähnlichen Befund: Der Unterschied zwischen der Bewertung der Lehrkräfte und der Bewertung durch geschulte Rater betrug bei 36.734 Item-Bearbeitungen rund 3,4%. Auch hier ergab sich eine um rund 1% bessere Bewertung durch die Lehrkräfte.

In einem weiteren Schritt sollen die (VERA8-2019-Deutsch-)Ergebnisse der CBT ebenfalls einer Zweitkorrektur unterzogen werden. Bedingt durch die veränderte Testdurchführung und -auswertung bietet die CBT im Vergleich zur klassischen PP-Testung einige gravierende Vorteile: So werden in der CBT je nach eingesetztem Testheft ungefähr die Hälfte bis zwei Drittel der (eindeutig lösbaren) Aufgaben automatisiert auswertet. Weiterhin entfallen die im PP-Prozedere vorgesehenen Zwischenschritte, bei denen die Lehrkraft die Auswertung zunächst in Papierlisten vornimmt und diese erst in einem weiteren Schritt ins VERA-Portal überträgt. Bei der CBT hingegen fallen diese Zwischenschritte weg, wodurch Zuordnungs- und Flüchtigkeitsfehler vermieden werden.

Aufgaben, die vom CBT-System nicht automatisch ausgewertet werden können, werden der Lehrkraft zur Auswertung angezeigt. Dabei ist für die Lehrkraft nicht ersichtlich, welcher Schüler bzw. welche Schülerin welche Antwort gegeben hat. Anders als bei der PP-Testung kann durch die bewusste Anonymisierung der Antworten ausgeschlossen werden, dass deren Bewertung durch die Lehrkraft durch ihre spezifischen Erwartungen an einen einzelnen Schüler bzw. eine einzelne Schülerin beeinflusst wird. Der sogenannte „Rosenthal-Effekt“ kann hierdurch also vermieden werden (Bortz und Döring 2015). Aufgrund der soeben beschriebenen Unterschiede kann angenommen werden, dass sich bei der CBT im Vergleich zur PP-Testung eine signifikant bessere Auswertungsobjektivität ergibt. Durch die Auswertung am Monitor sind allerdings auch gegenteilige Effekte denkbar, welche dazu führen, dass bestimmte Aufgabentypen für die Lehrkräfte schwieriger auszuwerten sind als bei der PP-Testung.

Da die CBT im Zuge der anstehenden Modularisierung zunehmend an Relevanz gewinnen wird, dienen die Ergebnisse dieses Vergleichs dazu, frühzeitig Probleme bei der Durch-führung und Auswertung zu identifizieren. Weiterhin wird hierdurch eine Datenbasis geschaffen, auf deren Grundlage die Leistung der automatischen Korrektur erhöht werden kann. Letztlich werden Lehrkräfte hierdurch weiter entlastet.



MIMIC-Modelle zur Identifikation von DIF beim Wechsel von einem Paper&Pencil-Test zu einem Online-Test

Markus Szczesny

Humboldt-Universität zu Berlin, Deutschland

Die Verwendung von Online-Tests erscheint häufig als eine effiziente Möglichkeit Fragebogenerhebungen kostengünstig und lokal ungebunden durchzuführen. In dem hier vorliegenden Fall wurden frühpädagogische Fachkräfte sowohl während ihrer Ausbildung als auch nach dem Berufseinstieg (und damit nach einem unvorhersehbaren Ortswechsel) im Rahmen einer längsschnittlichen Studie untersucht. Dazu wurde ein Test zum mathematischen Fachwissen (MCK, mathematical content knowledge) frühpädagogischer Fachkräfte (Jenßen, 2017) sowohl in einer Paper&Pencil Version (N=1649) als auch in einer korrespondierenden Online-Version (N=180) angewendet.

Mithilfe von DIF (differential item function) Analysen lässt sich überprüfen, ob die für den Online-Test adaptierten Einzelitems die gleichen Messeigenschaften wie die im Paper&Pencil-Test verwendeten aufweisen. Da aufgrund des benutzten Multi-Matrix-Designs keine DIF-Analysen in Mehrgruppen-Modellen berechnet werden konnten, wurden die DIF-Analysen mithilfe von MIMIC (Multiple Indicators and Multiple Causes) Modellen durchgeführt (Woods et al., 2009).

Der MCK-Fragebogen besteht aus N=23 dichotomen Items aus einem Wissensbereich, der in etwa den Stand von Schülerinnen und Schülern der 10. Klassenstufe widerspiegelt. Während Multi-Choice-Items direkt für den Online-Test übernommen werden konnten, wurden die Antwortformate für Items, die die Eingabe spezifisch mathematischer Zeichen oder das Zeichnen von Diagrammen erforderten, für den Online-Test angepasst. Die Paper&Pencil-Stichprobe umfasst N=1649 zukünftige frühpädagogische Fachkräfte, die nach einem Zeitraum von etwa drei Jahren aufgefordert wurden, noch einmal an einer Befragung teilzunehmen. Zusätzlich wurden N=53 neue frühpädagogische Fachkräfte rekrutiert, so dass die Online-Stichprobe N=180 Teilnehmende umfasst. Zur Analyse der Online-Items wurden nur Antworten herangezogen, die im Paper&Pencil-Test nicht verwendet wurden.

Die DIF-Analysen wurden in einem 3-schrittigen Verfahren in Mplus 7.4 (WLSMV-Estimator, Differenztests mit DIFFTEST-Option) durchgeführt. Dazu wurde ein latentes zwei-parametrisches IRT-Modell spezifiziert, für das im ersten Schritt überprüft wurde, ob es einen signifikanten Einfluss des Testmediums (Paper&Pencil vs. Online) auf das latente Fähigkeitskonstrukt gibt. In einem zweiten Schritt wurde für jedes als signifikant markierte Item ein Modell mit frei geschätztem Regressionsparameter gegen ein DIF-freies Modell, in dem der Regressionsparameter auf den Wert 0 fixiert wurde, getestet. Nur Items, für die sich ein signifikant schlechterer Modellfit ergab, wurden als DIF-haltig gekennzeichnet. Schließlich wurde ein finales Modell geschätzt, in dem alle DIF-Items einbezogen wurden.

Als Ergebnis zeigten sich für 9 von 23 Items signifikante Regressionsparameter. Der im zweiten Schritt durchgeführte Modellvergleich ergab für 5 Items eine durch differential item functioning bedingte Modellfitverschlechterung. Während sich für zwei dieser Items das Auftreten von DIF durch eine Veränderung des Antwort-Formats erklären lässt, handelte es sich bei drei auffälligen Items um unverändert in den Online-Test übernommene Aufgaben.

Zusammenfassend lässt sich sagen, dass MIMIC-Modelle eine einfache Möglichkeit bieten, Einzelitems auf ein Auftreten von DIF zu überprüfen. Auch zeigten die Analysen, dass die für den Online-Test adaptierten Items zu einem großen Teil (18 von 23) identische Messeigenschaften wie ihre Paper&Pencil-Entsprechungen aufwiesen. Nichtsdestotrotz bleibt darauf hinzuweisen, dass (einfache) MIMIC-Modelle nur zur Analyse uniformen (d.h., bzgl. der Itemschwierigkeit) DIFs hinreichen. Auch erscheint die Verwendung von Chi-Quadrat-Differenzentests im Modellvergleich für große Stichproben als zu restriktives Verfahren.



PC oder Papier? Eine Untersuchung des Testmoduseffekts beim fremdsprachigen Leseverstehen

Johanna Fleckenstein, Jennifer Meyer, Olaf Köller

IPN - Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, Deutschland

Papierbasierte Leistungstests im schulischen Kontext werden zunehmend durch computerbasierte Testversionen zu ersetzt. Folglich stellt sich für jeden Leistungstest die Frage, ob die resultierenden Testleistungen durch die Veränderung des Testmodus beeinflusst werden (Gallagher, Bridgeman & Cahalan, 2002; van de Vijver & Harsveld, 1994). Bennett et al. (2008) warnen in diesem Zusammenhang vor einer allgemeinen Überschätzung der Schülerkompetenzen im Bereich modernder Technologien und Medien sowie vor einer systematischen Benachteiligung bestimmter Gruppen von Schülerinnen und Schülern. Kolen und Brennan (2013) postulieren, dass der Testmoduseffekt und dessen Einflussfaktoren, test- oder zumindest domänenspezifisch sind. In Übereinstimmung damit kommen auch Choi und Tinkler (2002) zu der Einschätzung, dass Erkenntnisse aus früheren Studien nicht unmittelbar auf andere ähnliche Populationen und Aufgaben verallgemeinert werden können. So kommen verschiedene Studien zu dem Ergebnis, dass Testmoduseffekte im Bereich des Leseverstehens deutlicher ausfallen als in anderen Domänen (Bridgeman et al., 2003; Pommerich, 2004).

Allerdings ist die Befundlage heterogen: Kim und Huynh (2008) kommen in ihren Untersuchungen zu Testmoduseffekten in einem Abschlusstest von Schülerinnen und Schülern in den Vereinigten Staaten zu dem Ergebnis, dass die erzielten Leistungen in beiden Bedingungen grundsätzlich vergleichbar sind, sich aber ein verhältnismäßig großer Unterschied im Bereich des Leseverstehens ergibt, da die erzielten Leistungen in der computerbasierten Testversion im Durchschnitt schlechter ausfallen. Diverse aktuelle Studien kommen zu dem Schluss, dass sich durch das gewählte Testmedium signifikante Unterschiede in Hinblick auf die Lesegeschwindigkeit, die Textverarbeitung, den Abruf der gelesenen Inhalte sowie auf das Leseverstehen ergeben (Kerr & Symons, 2006; Mangen et al., 2013). Wang et al. (2008) fanden in einer Metaanalyse hingegen keinen allgemeinen Testmoduseffekt bei der Überprüfung von Lesekompetenz.

Eine Forschungslücke stellt die Untersuchung des Textmoduseffekts beim fremdsprachigen Leseverstehen dar. Da die Studien des Forschungsbereichs stammen zumeist aus dem anglo-amerikanischen Sprachraum und beschränken sich auf die Erstsprache der Teilnehmerinnen und Teilnehmer. Auch fehlt in vielen Studien die Analyse potentieller Einflussgrößen auf der Ebene der Schülerinnen und Schüler sowie auf der Ebene des Tests (Wang et al., 2008). Vor dem Hintergrund der Test- und Domänenspezifität von Testmoduseffekten ergibt sich so die Notwendigkeit, das Auftreten etwaiger Testmoduseffekte im Bereich des fremdsprachigen Leseverstehens sowie potentielle Moderatoren zu überprüfen.

Im Rahmen des vorliegenden Beitrags wurde der Testmoduseffekt beim fremdsprachigen Leseverstehen in einem Within-Subject-Design experimentell untersucht. Dazu bearbeiteten N = 217 Schülerinnen und Schüler der zehnten Klassenstufe an Gymnasien in Schleswig-Holstein Aufgaben zum Leseverstehen in Englisch aus dem IQB-Ländervergleich 2009 (Köller, Knigge & Tesch, 2010) jeweils in der Papierversion und digital am Computer. Dabei wurde die Reihenfolge des Testmodus der Aufgabenblöcke variiert. Die Leistungsdaten wurden anschließend Rasch-skaliert, um je einen Personenfähigkeitswert pro Testmodus zu erhalten. Zudem wurde ein Fragebogen eingesetzt, der neben soziodemographischen Aspekten auch die Computernutzung und motivationale Orientierungen erfasste.

Die Daten wurden mithilfe einer Varianzanalyse mit Messwiederholung ausgewertet. Es zeigte sich ein signifikanter Effekt des Testmodus zugunsten des papierbasierten Tests (F(213) = 14.51, p > .001, d = 0.52), der auch unter Kontrolle von kognitiven Grundfähigkeiten und sozioökonomischem Status der Schülerinnen und Schüler bestehen blieb. Computerbezogene Erfahrung und Motivation wiesen keine signifikanten Interaktionen mit dem Testmodus auf. Weitere Analysen von Zwischensubjektfaktoren zeigten dagegen, dass der Moduseffekt sich insbesondere bei den leistungsstärkeren Schülerinnen und Schülern bemerkbar machte (F(213) = 12.88, p < .001, d = 0.49). Detaillierte vergleichende Analysen der Itemparameter in beiden Modi geben Hinweise darauf, welche Aufgaben vom Moduseffekt besonders betroffen sind und inwiefern textinherente Faktoren dabei eine Rolle spielen.

Die Befunde dieser Studie werden vor dem Hintergrund ihrer praktischen Implikationen für die Verwendung digitaler Medien im Kontext von Schulleistungsstudien und im Fremdsprachenunterricht diskutiert.



Digitalisierung von Testverfahren und Lernmaterial für Lese- und Rechtschreibkompetenzen

Zarah Weiss1, Heiko Holz1,2

1Seminar für Sprachwissenschaften, ICALL-Research.de Group, Universität Tübingen; 2Graduiertenschule & Forschungsnetzwerk LEAD, Universität Tübingen

Wir illustrieren das Potenzial der Digitalisierung im Lese- und Rechtschreiberwerb anhand einer Auswahl konkreter Anwendungen für die Bereitstellung binnendifferenzierten Lernmaterials und digitaler Lese- und Rechtschreibtests. Die Auseinandersetzung mit Lernmaterial innerhalb des individuellen Lernstandes Lernender ist eine entscheidende Komponente für den Erwerb sprachlicher Kompetenzen durch explizite Instruktion, wie beispielsweise Zweit- oder Schriftspracherwerb (Krashen, 1977). Die Lernstandserhebung wird heutzutage zumeist papierbasiert durchgeführt. Dies verlangt von Lehrkräften die Einarbeitung in sowie die zeitintensive Auswertung der Testverfahren. Auch die Bereitstellung binnendifferenzierten Lernmaterials nach der Lernstandserhebung stellt eine große Herausforderung für Lehrkräfte dar, die in der Praxis oft heterogenen Lerngruppen unterrichten. Wir zeigen, inwiefern computergestützte Verfahren dabei unterstützen können, individuelle Leistungsstände zu erfassen und diese in der Zusammenstellung ihres Lehrmaterials zu berücksichtigen.

Für die computergestützte Lernstandserhebung haben wir zum einen eine tablet-gestützte Version des Salzburger Lese-Screenings für die Schulstufen 2–9 (SLS 2–9; Mayringer & Wimmer, 2014) zur Erfassung der Lesegeschwindigkeit und zum anderen eine tablet-gestützte Version des Diagnostischen Rechtschreibtests für 4. Klassen (DRT 4; Grund, Leonhart, & Nauman, 2017) entwickelt. In zwei Pilotstudien mit je einer Schulklasse zeigen wir die Beibehaltung der Testreliabilität anhand hoher Korrelationen zwischen digitaler und papierbasierter Testversion (r_SLS=.93**, r_DRT=.75*), während das Testverfahren deutlich von den Schüler_innen bevorzugt wird. Zudem ermöglicht die digitale Version in weiteren Schritten die Automatisierung der Testauswertung, womit nicht nur die Lehrkräfte entlastet, sondern auch das Testmaterial kontinuierlich überprüft werden können. Sie erlaubt auch die Gamifizierung des Testverfahrens, wodurch Testsituationen entschärft werden, die besonders auf lernschwache Lernende belastend wirken können. Spiel-Elemente wie Feedback, Belohnung, oder Hintergrundgeschichten haben einen positiven Einfluss auf Lernprozesse (Wouters et al., 2013), spielen eine entscheidende Rolle bei der Erreichung von Lernzielen (Boyle et al., 2016) und wirken negativen Mechanismen wie Frustration, Demotivierung oder Langeweile entgegen (Deterding et al., 2011). Beispielsweise liefert die Einbettung eines Tests in eine multimodale Hintergrundgeschichte eine begründete Motivation, den Test gewissenhaft durchzuführen, was insbesondere bei regelmäßigen Lernstandserhebungen wichtig ist.

Nach der Lernstandserhebung können computergestützte Anwendungen dazu beitragen, den Schriftspracherwerb individualisiert zu fördern. Dies kann in Form von unterrichtsbegleitend und eigenständig nutzbaren Förderungen geschehen, wie das von uns vorgestellte Lernspiel Prosodiya. Prosodiya (https://prosodiya.de; Holz et al. 2018a, 2018b) ist ein mobiles, spielbasiertes Rechtschreibtraining für Grundschulkinder. In 2018 haben wir einen Randomized-Controlled-Field-Trial mit 129 Grundschulkindern der zweiten bis vierten Schulklassen mit einem Wartelisten-Kontrollgruppen-Design durchgeführt, wobei die Gruppen zeitversetzt 9 Wochen mit Prosodiya trainierten. Die Verbesserung der Rechtschreibleistung ist pro Gruppe in der Trainingsphase signifikant höher als in der Wartephase (p_treatment-first=.023*, p_treatment-second<.001***) und für die jeweilige Trainingsgruppe signifikant höher als für die Wartegruppe (p_T1->T2=.014*, p_T2->T3=.0085**). Neben der Wirksamkeit konnten wir zeigen, dass Prosodiya durch seine Spielelemente insbesondere von den Kindern sehr positiv angenommen wurde.

Weiterhin können computergestützte Anwendungen Lehrkräfte und Eltern dabei unterstützen, binnendifferenzierte Unterrichtsmaterialien zu erstellen. Zur Identifikation geeigneten Sprachmaterials haben wir die kompetenz-adaptiven Suchmaschine KANSAS Suche entwickelt (http://kansas-suche.de/; Weiss et al., 2018). Diese erlaubt es, Internetsuchen unter Berücksichtigung der Lesekompetenz der intendierten Lesenden durchzuführen und Such-Ergebnisse aufgrund spezifischer curriculumsrelevanter linguistischer Konstruktionen zu repriorisieren. Die Anreicherung von Lernmaterialien mit zu erwerbenden sprachlichen Konstruktionen (input flood; Pigada & Schmitt, 2006) sowie deren visuelle Hervorhebung (input enhancement; Sharwood Smith, 1993) sind für den Zweit- und Schriftspracherwerb bedeutsam. Letztere wird mit COAST (https://sifnos.sfs.uni-tuebingen.de/coast/; Holz et al., 2018c) unterstützt. COAST ist eine Web-Anwendung, welche die flexible visuelle Hervorhebung von Silben und anderen linguistischen Eigenschaften in Lesematerialien ermöglicht. Mit COAST können beliebige, vom Nutzer spezifizierte Texte annotiert und in Lese- und Rechtschreibübungsaufgaben übertragen werden. So wird zum Beispiel der an Schulen genutzte silbengestützte Lese- und Rechtschreiberwerb unterstützt (Mildenberger Verlag, 2018).

Im Zentrum unseres Beitrages steht die Diskussion der Nutzbarkeit wissenschaftlich fundierter, computergestützter Bildungsangebote für den Schriftspracherwerb anhand der genannten Anwendungen für den Schul- und Bildungsalltag.