Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Veranstaltung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Sitzung
6-04: Testbearbeitungsmotivation in Schulleistungsuntersuchungen: Diagnostik, Modellierung und Einflussfaktoren
Zeit:
Dienstag, 19.03.2024:
15:20 - 17:00

Ort: H02

Hörsaal, 150 TN

Zeige Hilfe zu 'Vergrößern oder verkleinern Sie den Text der Zusammenfassung' an
Präsentationen
Symposium

Testbearbeitungsmotivation in Schulleistungsuntersuchungen: Diagnostik, Modellierung und Einflussfaktoren

Chair(s): Janine Buchholz (Institut zur Qualitätsentwicklung im Bildungswesen (IQB))

Diskutant*in(nen): Johannes Hartig (DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation)

Die Teilnahme an groß angelegten Bildungsvergleichsstudien stellt ein zentrales Instrument der KMK-Gesamtstrategie zum nationalen Bildungsmonitoring dar (KMK, 2015). In Deutschland finden daher regelmäßig nationale und internationale Schulleistungsuntersuchungen statt. Dies sind die Studie zur Überprüfung des Erreichens der Bildungsstandards („IQB-Bildungstrends“) sowie PISA, PIRLS/IGLU und TIMSS. Diese Studien unterscheiden sich in zahlreichen Merkmalen (z.B. Definition des zu messenden Kompetenzkonstrukts, gemessene Domänen, Stichprobe, Durchführungsintervall, durchführende Organisation), lassen sich aber alle als sog. „low-stakes“ Assessments charakterisieren, da keine persönlichen Konsequenzen (z.B. Noten, Entlohnung) mit dem Ergebnis des Tests verbunden sind. Dadurch kann von einer im Vergleich zu „high-stakes“ Assessments (z.B. Klassenarbeiten) geringer ausgeprägten Testbearbeitungsmotivation ausgegangen werden (z.B. Penk & Richter, 2017; Wolf & Smith, 1995), was sich wiederum in einer geringeren Testleistung niederschlägt (Wise & DeMars, 2005). Dies ist besonders problematisch, wenn bestimmte Gruppen von Schüler:innen (z.B. Jungen, Nicht-Muttersprachler:innen) systematisch von solchen Unterschieden betroffen sind, weil Gruppenunterschiede in der gemessenen Kompetenz dann mit Gruppenunterschieden in der Motivation konfundiert sind. Dieser Umstand stellt somit eine Gefahr für die Interpretation der in den Schulleistungsuntersuchungen gewonnenen Testwerte als Indikatoren für die zu messenden Kompetenzen dar.

Die Problematik geringer Testbearbeitungsmotivation findet zunehmend Aufmerksamkeit. Beispielsweise widmete die OECD dem Thema im Rahmen ihres „PISA Research, Development and Innovation“ Programms ein eigenes Projekt (z.B. Buchholz et al., 2022) und wird im Rahmen der Ergebnisrückmeldung für PISA 2022 verschiedene Indizes für „student engagement“ berichten. Gleichzeitig ist das Thema in vielfältiger Weise Gegenstand der aktuellen Forschung. Die Beiträge dieses Kolloquiums lassen sich dabei den folgenden Themenbereichen zuordnen: (a) Entwicklung von Indikatoren von Test­be­ar­bei­tungs­motivation (Beiträge 1 und 2), (b) Modellierung von Kompetenzen unter Berücksichtigung von Unterschieden in der Testbearbeitungsmotivation (Beitrag 3), und (c) Identifikation von Einflussfaktoren und möglichen Interventionen (Beitrag 4).

(a) Neben Selbstberichtsskalen zur aktuellen Motivation oder Anstrengungsbereitschaft können unterschiedliche Indizes gebildet werden, um Verhalten zu quantifizieren, das auf eine geringe oder nachlassende Testbearbeitungsmotivation schließen lässt, etwa Leistungsabfall oder Auslassungstendenzen. Aus den zunehmend computerbasiert administrierten Schulleistungsstudien stehen zudem Antwortzeiten bereit. Diese können u.a. genutzt werden, um übermäßig schnelle Antworten zu identifizieren, die auf Raten zurückgeführt werden können, das wiederum aufgrund geringer Test­be­ar­bei­tungs­motivation zustande gekommen sein kann. Beitrag 1 untersucht anhand von Eye-Tracking-Daten eine weitere Möglichkeit, zufälliges Raten auf Multiple-Choice-Items zu identifizieren. Beitrag 2 bezieht sich auf das Zusammenspiel verschiedener Indikatoren von Testbearbeitungsmotivation. Anhand von Daten des IQB-Bildungstrends wird der Zusammenhang von Leistungsabfall und selbstberichteter Anstrengungs­bereitschaft untersucht, und ob die Auslassungstendenz einen darüberhinausgehenden Erklärungswert besitzt.

(b) Auf Basis von Indikatoren geringer oder nachlassender Testbearbeitungsmotivation lassen sich betroffene Antworten und/oder Personen identifizieren, wodurch sich die Frage anschließt, wie mit den Daten im Rahmen der Modellierung umgegangen werden soll und welche Konsequenzen für die Interpretation des Kompetenzkonstrukts damit verbundenen sind. Beitrag 3 stellt modellbasierte Behandlungsmethoden von schnellgeratenen Antworten vor und untersucht, inwiefern sich das Länderranking in PISA in Abhängigkeit von der Behandlungsmethode verändern würde.

(c) Um auch in „low-stakes“ Assessments ein angemessenes Niveau der Testbearbeitungsmotivation zu gewährleisten oder ein Abfallen im Testverlauf zu vermeiden, werden u.a. Merkmale von Testadministration und Testdesign untersucht, die einen Einfluss nehmen können. Beitrag 4 untersucht anhand der Umstellung von papier- auf computerbasierte Testung im Rahmen der IGLU-Studie, welchen Einfluss der Testmodus auf das emotionale Erleben während der Testbearbeitung hat und wie dies mit der gemessenen Leseleistung zusammenhängt.

Die vier Beiträge werden im Anschluss diskutiert. Dabei wird ein besonderer Fokus auf der Validität von Interpretationen der in den Schulleistungsuntersuchungen gewonnenen Testwerte liegen. Ein weiterer Schwerpunkt liegt auf den Konsequenzen dieser Befunde für die Sekundärnutzung der Daten aus diesen Studien für die eigene Forschung.

 

Beiträge des Symposiums

 

Der Beitrag von Blickbewegungsdaten zur Fähigkeitsmessung mittels Multiple-Choice-Items

Gabriel Nagy1, Esther Ulitzsch1, Gregory Camilli2, Marlit Annalena Lindner3
1IPN – Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, 2Rutgers University, NJ, 3IPN – Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik; IWM – Leibniz-Institut für Wissensmedien

Theoretischer Hintergrund

Blickbewegungsdaten liefern wertvolle Informationen über die Bearbeitungsprozesse kognitiver Aufgaben. Dementsprechend werden Eye-Tracking-Verfahren vor allem im Kontext komplexer Aufgaben mit offenen Antwortformaten eingesetzt, bei denen Lösungsprozesse und weniger Lösungsprodukte (falsch vs. richtig) im Vordergrund stehen. Es finden sich kaum Arbeiten, die das Potenzial von Blickbewegungsdaten für die Messung individueller Fähigkeiten mittels Multiple-Choice-Items untersuchen. Bisherige Studien dokumentieren, dass sich Blickbewegungen systematisch zwischen falschen und richtigen Antworten unterscheiden (Lindner et al., 2014; Tsay et al., 2012). Diese Arbeiten geben jedoch keinen direkten Aufschluss darüber, inwiefern sich Blickbewegungsdaten zur Messung von Fähigkeiten eignen und inwiefern diese einen diagnostischen Mehrwert gegenüber klassischen Testscores aufweisen.

Die zentrale Herausforderung bei der Nutzung von Blickbewegungen zur Fähigkeitsmessung besteht darin, die für eine korrekte Antwort relevanten Informationen zu isolieren und zu einem geeigneten Index zu verdichten. Dieser Index hat dann einen diagnostischen Mehrwert gegenüber kategorialen Itemantworten, wenn er quantitative Informationen über die Sicherheit der gegebenen Antworten kodiert. In diesem Fall wäre es möglich, Itemantworten als „sicher richtig“ (z.B. Können/Wissen), „sicher falsch“ (z.B. Fehlvorstellungen) und „unsicher“ (evtl. Raten) zu klassifizieren.

Fragestellungen

Die Studie verfolgt zwei Ziele. Erstens soll die Möglichkeit der Fähigkeitsmessung allein mit Blickbewegungsdaten untersucht werden. Zweitens soll der diagnostische Mehrwert von Blickbewegungsdaten über dichotom kodierte Itemantworten hinaus untersucht werden.

Methode

Die Fragestellungen wurden anhand einer Stichprobe von N = 99 Schülerinnen und Schüler (52% weiblich) der Klassenstufe 6 untersucht, die einen Naturwissenschaftstest mit 18 Items (jeweils vier Antwortkategorien) bearbeiteten. In die Analysen gingen die dichotom kodierten Itemantworten und die Fixationszeiten der vier Antwortkategorien ein. Auf Itemebene wurden die Fixationszeiten zu einem Index zusammengefasst (s.u.). Die Möglichkeit der Fähigkeitsmessung mittels Fixationszeiten wurde auf Item- und Personenebene untersucht (Klassifikationsgenauigkeit der Antwortrichtigkeit und Korrelation der über Items aggregierten Indizes mit individuellen Testwerten). Der inkrementelle diagnostische Wert des vorgeschlagenen fixationszeitbasierten Index wurde mit Hilfe eines latenten Variablenmodells, das sowohl dichotome Itemantworten als auch fixationszeitbasierte Indizes enthält, untersucht.

Ergebnisse

Ein Index, der auf der Verteilung der individuellen Fixationszeiten über die vier Antwortkategorien basiert, erwies sich als vielversprechend. Der vorgeschlagene Index berücksichtigt (1) die Fixationszeiten der richtigen Antwortkategorien, (2) die Abstände zur kürzesten Fixationszeit und (3) die relativen Unterschiede zwischen den Fixationszeiten der verschiedenen Antwortkategorien. Der Index ermöglichte eine relativ genaue Zuordnung von richtigen und falschen Antworten (Trefferquoten: Median = 85%; Min = 70%, Max = 89%). Der auf Personenebene aggregierte Index wies eine zufriedenstellende interne Konsistenz auf ( = .70), die nur geringfügig unter der der klassischen Testwerte lag ( = .76). Der aggregierte Index korrelierte stark mit den Testwerten (r = .79), sodass die attenuationskorrigierte Korrelation perfekt ausfiel. Diese Ergebnisse deuten darauf hin, dass der vorgeschlagene Blickbewegungsindex und die klassischen Testwerte dasselbe Konstrukt mit vergleichbarer Genauigkeit erfassen.

Das im zweiten Schritt verwendete latente Variablenmodell beinhaltete eine globale Fähigkeitsdimension, die von allen Items und den auf Fixationszeiten basierenden Indizes gemeinsam indiziert wurde. Darüber hinaus wurden itemspezifische (genestete) latente Variablen modelliert, die durch die jeweils zugehörigen Itemantworten und Indizes identifiziert wurden. Die genesteten Faktoren erfassen den „Abstand“ der beobachteten richtigen oder falschen Antworten zu den „unsicheren“ Antworten. Die Ergebnisse können wie folgt zusammengefasst werden. Die (globale) Fähigkeitsmessung wurde durch die Hinzunahme der Blickbewegungsdaten kaum beeinflusst (vergleichbare Präzision und nahezu perfekte Übereinstimmung der EAP-Personenparameter). Die EAP-Personenparameter auf den genesteten Faktoren lieferten jedoch Informationen, die für die Interpretation der individuellen Testwerte nützlich sein könnten. Beispielsweise wurden im unteren Fähigkeitsbereich Antwortvektoren identifiziert, die keine als „sicher richtig“ klassifizierbaren Antworten enthielten. Dieser Befund deutet darauf hin, dass die Testwerte dieser Schülerinnen und Schüler ausschließlich auf Raten zurückzuführen sind.

 

Positionseffekte und Leistungsabfall im Verlauf der Bearbeitung umfassender Kompetenztests: Die Rollen von Anstrengungsbereitschaft und Auslassungstendenz

Karoline A. Sachse1, Sebastian Weirich1, Nicole Mahler2, Camilla Rjosk3
1Institut zur Qualitätsentwicklung im Bildungswesen (IQB), 2Institut für Bildungsanalysen Baden-Württemberg (IBBW), 3Universität Potsdam

Theoretischer Hintergrund

Weltweit werden die Ergebnisse groß angelegter nationaler und internationaler Schulleistungsuntersuchungen (Educational Large-Scale Assessments; LSAs) als Informationsgrundlage bei der Gestaltung von Bildungsprozessen herangezogen. LSAs können empirische Informationen darüber liefern, wie Schüler:innen im Vergleich zu Bildungsstandards abschneiden, ob es Unterschiede in den Kompetenzen zwischen verschiedenen Gruppen gibt und wie sich Testergebnisse im Laufe der Zeit verändern. Um ein valides Bild der schulischen Leistungen der Schüler:innen zu liefern und dazu eine breite Abdeckung der zu untersuchenden Fachgebiete sicherzustellen, dauern einige Untersuchungen insgesamt bis zu 90 Minuten (z.B. Mullis & Martin, 2013), zwei Stunden oder sogar länger (z.B. Becker et al., 2019; OECD, 2017).

Bei einer solchen, relativ langen Testdauer ist es wahrscheinlich, dass die Leistungen der Schüler:innen im Verlauf der Testdurchführung schwanken. Sogenannte Aufgaben-Positions-Effekte (Leary & Dorans, 1985) wurden nachgewiesen. Das bedeutet, dass Aufgaben umso schwieriger werden, je später sie im Test präsentiert werden (z.B. Hartig & Buchholz, 2012; Weirich et al., 2014). Diese Zunahme der Schwierigkeit spiegelt einen Leistungsabfall im Verlauf der Testdurchführung wider. Dieser kann aufgrund einer Zunahme von (a) falschen Antworten oder (b) Auslassungen von Antworten auftreten. Beide Gründe können unter anderem als Resultat nachlassender Anstrengungsbereitschaft betrachtet werden.

Fragestellung

In dieser Untersuchung gehen wir der Frage nach, inwiefern der Leistungsabfall im Verlauf eines LSAs durch selbstberichtete Anstrengungsbereitschaft (Effort, Skalen siehe Eklöf, 2010) erklärt werden kann und welchen Erklärungswert darüber hinaus die individuelle Neigung hat, Antworten auszulassen (Auslassungstendenz bzw. Omission Propensity). Auch stellt sich die Frage, inwiefern sich Anstrengungsbereitschaft und Auslassungstendenz im Testverlauf verändern und wie diese Veränderungen gegebenenfalls mit dem Leistungsabfall zusammenhängen.

Methoden

Mit Daten des IQB-Ländervergleichs 2012 wurde für N=24.075 Neuntklässler:innen in der Domäne Mathematik und N=19.107 in den Naturwissenschaften der Leistungsabfall innerhalb eines 120minütigen Tests untersucht. Mithilfe von Latent-Change-Score-Modellen (Klopack & Wickrama, 2020; McArdle & Nesselroade, 2014) wurde die Veränderung in der Testleistung mit der Veränderung in der Anstrengungsbereitschaft und der Veränderung der Auslassungstendenz über den Testverlauf in Beziehung gesetzt.

Ergebnisse und Diskussion

In beiden Domänen wurde ein deutlicher Leistungsabfall von der ersten zur zweiten Testhälfte gefunden sowie ein Abfall der selbstberichteten Anstrengungsbereitschaft und eine Zunahme des Auslassungstendenz über den Testverlauf. Ergebnisse der Latent-Change-Score-Modelle legen nahe, dass Anstrengungsbereitschaft zum ersten Messzeitpunkt in beiden Domänen mit dem Leistungsabfall zusammenhängt. Im Gegensatz zu den Naturwissenschaften wurde im Fach Mathematik jedoch kein statistisch signifikanter Vorhersageeffekt für die Veränderung der Anstrengungsbereitschaft im Testverlauf auf den Leistungsabfall beobachtet. Darüber hinaus schien die Anstrengungsbereitschaft nicht durch die die Auslassungstendenz vermittelt zu sein. Dies ist interessant, da Auslassungen in der Literatur gelegentlich als Indikator für Anstrengungsbereitschaft betrachtet werden, wohingegen unsere Ergebnisse eher für zwei zu trennende Konstrukte sprechen. Diese und weitere Ergebnisse werden im Vortrag präsentiert, diskutiert und hinsichtlich ihrer Relevanz für die Praxis eingeordnet.

 

Über die angemessene Behandlung von schnellem Rateverhalten am Beispiel von PISA 2018

Tobias Deribo1, Frank Goldhammer2, Ulf Kroehne1
1DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation; Zentrum für internationale Bildungsvergleichsstudien (ZIB)

Schnelles Rateverhalten (Rapid Guessing) wurde für verschiedene kognitive Merkmalsbereiche (z.B., Silm et al., 2020) beobachtet und kann eine ernstzunehmende Gefahr für die Validität von Schlussfolgerungen auf Basis von Testergebnissen darstellen (Wise, 2019). Einer der geläufigsten Ansätze zum Umgang mit schnellem Rateverhalten ist das Effort Moderated IRT Modell (Wise & DeMars, 2006). Hierbei werden einzelne, schnellgeratene Antworten für die Fähigkeitsschätzung aus den Daten entfernt und dadurch als ignorierbar fehlend (Rubin, 1976) behandelt.

Jedoch konnte vorangegangene Forschung (Deribo et al., 2021) unter Zuhilfenahme des Mislevy-Wu Modelles (Mislevy & Wu, 1996) zeigen, dass die Annahme von entfernten, schnellgeratenen Antworten als ignorierbar fehlend nicht zwangsweise gegeben ist. Das Mislevy-Wu Modell ermöglicht es dabei, verschiedene Behandlungsmethoden von schnellgeratenen Antworten miteinander zu vergleichen und zu prüfen, ob die Behandlung von schnellgeratenen Antworten als ignorierbar fehlend für die Fähigkeitsschätzung haltbar ist. Die vorliegende Studie möchte dieses Verfahren nun auf die Daten der PISA 2018-Studie (OECD, 2018) anwenden. Dies erscheint relevant, da sich die Länder im Mechanismus, der zu schnellgeratenen Antworten führen kann, theoretisch unterscheiden können. Zudem erscheint es auch hilfreich um zu verstehen, wie unterschiedlichen Behandlungsmethoden sich auf die Ländervergleiche in PISA auswirken können. Die durch die unterschiedlichen Behandlungsansätze separat gewonnenen Item- und Personenparameter werden dabei über Haberman-Linking (Haberman, 2009) miteinander verbunden, um die Auswirkungen von verschiedenen Behandlungsmethoden auf hypothetische Ländervergleiche in PISA deutlich zu machen.

Mit Blick auf die Modellgüte (AIC, BIC) scheint das Mislevy-Wu Modell für alle Länder zu bevorzugen. Ebenso zeigte sich, unter Rückgriff auf Differenzen in der Gilula-Haberman-Penalty (Gilula & Haberman, 1995), in 86% aller Fälle eine beachtenswerte Differenz in der Modellgüte zwischen dem Mislevy-Wu Modell und der Behandlung als ignorierbar fehlend. Weiterhin variierten die Ländermittelwerte bei unterschiedlicher Behandlung von schnellem Rateverhalten deutlich. Diese Variation schlägt sich dabei in Unterschieden von ein bis drei Rangpositionen für über 50% der verglichenen Länder nieder.

Die Ergebnisse können zeigen, wie wichtig die reflektierte Auswahl eines Behandlungsansatzes für schnellgeratene Antworten ist. Dabei erscheint es wahrscheinlich, dass in Fällen, in denen das Mislevy-Wu Modell gilt, alternative Behandlungsmethoden zu verzerrten Kennwerten (z.B. Ländermittelwerten) führen können. Dabei werfen die Ergebnisse jedoch auch die Frage auf, inwieweit die Wahl eines bestimmten Behandlungsansatzes die Interpretation der gewonnenen Konstrukte (z.B. kognitiver Fähigkeit) beeinflussen kann und ob dieser Einfluss gewollt ist.

 

Leistungsemotionen im Vergleich zwischen papier- und computerbasierter Testung bei IGLU 2021

Christoph König1, Andreas Frey1, Frank Goldhammer2
1Goethe-Universität Frankfurt, 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation; Zentrum für internationale Bildungsvergleichsstudien (ZIB)

Theoretischer Hintergrund

Im Jahr 2021 wurde die Internationale Grundschul-Lese-Untersuchung (IGLU; McElvany et al., 2023) nicht mehr als papierbasiertes Assessment (PBA), sondern als computerbasiertes Assessment (CBA) administriert. Die damit verbundenen Änderungen in der Darbietung der Aufgaben und die unterschiedlichen Interaktionsmöglichkeiten mit dem Testmaterial können sich unter anderem auf das emotionale Testerleben der untersuchten Schülerinnen und Schüler auswirken. Gemäß der Kontroll-Wert-Theorie der Leistungsemotionen (Pekrun, 2006) beeinflussen individuelle Bewertungen von Testsituationen die Ausbildung emotionaler Reaktionen. Konkret postuliert sie als zentrale Annahme, dass Leistungsemotionen aus dem Zusammenwirken der Bewertung von Leistungssituationen im Hinblick auf Kontrolle und Wert zustande kommen. Obgleich zahlreiche Studien Bezug auf die Kontroll-Wert-Theorie nehmen, wurde diese zentrale Annahme bisher erst in vereinzelten Studien geprüft (Bieg et al., 2013; Goetz et al., 2010; Putwain et al., 2018; Shao et al., 2020).

Fragestellungen

Die vorgestellte Studie prüft die zentrale Annahme der Kontroll-Wert-Theorie und untersucht, darauf aufbauend, Effekte des Wechsels von PBA zu CBA bei IGLU 2021. Folgende Fragestellungen werden beantwortet:

1. Finden sich die seitens der Kontroll-Wert-Theorie postulierten Zusammenhänge zwischen kognitiven Bewertungen und Emotionen bei Schülerinnen und Schülern vierter Klassen?

2. Hat der Testmodus (PBA oder CBA) einen Einfluss auf das emotionale Erleben der IGLU-Testsituation im Hinblick auf Freude, Langeweile und Angst?

3. Welchen Einfluss hat das Zusammenwirken von Kontrolle, Wert, Freude, Langeweile und Angst auf die gemessene Leseleistung?

Methode

Die genannten Fragestellungen werden anhand von Daten von Schülerinnen und Schülern am Ende der vierten Klasse aus Deutschland beantwortet, die im Rahmen von IGLU 2021 an der „Brückenstudie“ teilgenommen haben. Dabei erhielten nPBA = 538 PBA und nCBA = 1079 CBA mit randomisierter Gruppenzuweisung. Die Erhebung der Leistungsemotionen Freude (3 Items), Langeweile (2 Items) und Angst (4 Items) erfolgte mit einer adaptierten, domänenspezifischen Kurzversion des AEQ-ES (Lichtenfeld et al., 2012). Kontrolle und Wert wurden jeweils mit einem Item im Selbstbericht gemessen. Zur Beantwortung der ersten Fragestellungen wurde eine Pfadanalyse geschätzt. Die Beantwortung der zweiten Fragestellung basierte auf Mittelwertvergleichen zwischen PBA und CBA. Die dritte Fragestellung wurde wiederum mittels Pfadanalyse mit Plausible Values für Lesen beantwortet. Die Pfadanalysen wurden jeweils mit der Gesamtstichprobe durchgeführt. Bei sämtlichen Analysen wurde die komplexe Stichprobenstruktur von IGLU 2021 durch die Nutzung des R-Pakets BIFIEsurvey (Robitzsch & Oberwimmer, 2022) beachtet.

Ergebnisse

Die Interkorrelationen der drei Emotionsskalen sind größtenteils vereinbar mit den Annahmen der Kontroll-Wert-Theorie. Entsprechend fanden viele aus der Kontroll-Wert-Theorie abgeleitete Hypothesen empirische Unterstützung; einzelne Hypothesen waren jedoch auch zu verwerfen. Hinsichtlich Fragestellung 2 ergab sich eine tendenziell größere Freude (d = 0.146, p = .067) und eine tendenziell größere Angst (d = 0.101, p = .098) bei CBA als bei PBA und kein signifikanter Unterschied bezüglich Langeweile (d = 0.113, p = .135). Im Hinblick auf Fragestellung 3 ergab sich ein signifikant positiver Gesamteffekt von Kontrolle auf Leseleistung (d = 0.315, p = .012), der insbesondere über Angst mediiert wurde.

Diskussion

Die festgestellten Effekte sind relativ klein, womit nicht von substantiellen Verbesserungen des Testerlebens durch die Einführung von CBA auszugehen ist. Zudem finden sich die von der Kontroll-Wert-Theorie postulierten Zusammenhänge nicht zuverlässig, vor allem hinsichtlich Wert und Angst. Dies widerspricht nur bedingt der bestehenden Befundlage, da auch andere Studien von Abweichungen von den postulierten Zusammenhängen berichten. Aus dem signifikanten Effekt der Kontrolle auf die Leseleistung lässt sich schließen, dass Testsituationen und –eigenschaften insbesondere darauf ausgerichtet werden sollten, dass Tests nach Möglichkeit von allen Getesteten als kontrollierbar wahrgenommen werden. Vor dem Hintergrund der Ergebnisse zum Ability-Difficulty-Fit (Asseburg & Frey, 2013) kann dies durch die Vorgabe von Items mit individuell angemessener Schwierigkeit erzielt werden.