Symposium
Emotionale und motivationale Effekte des computerisierten adaptiven Testens
Chair(s): Anne Frenzel (Ludwig-Maximilians-Universität München), Andreas Frey (Goethe-Universität Frankfurt am Main)
Discussant(s): Reinhard Pekrun (University of Essex)
Computerisiertes adaptives Testen (CAT; z.B. Frey, 2020) ist eine spezielle Art der Messung individueller Merkmale, bei der sich die Auswahl der einer Testperson zur Bearbeitung vorgelegten Items an deren Antwortverhalten orientiert. Bei der Messung von Leistungsmerkmalen resultiert dies darin, dass leistungsfähige Testpersonen systematisch schwierigere Items vorgelegt bekommen als weniger leistungsfähige Testpersonen. Die Wahrscheinlichkeit, mit der die adaptiv vorgelegten Items korrekt beantwortet werden können, ist hierbei über Testpersonen hinweg vergleichbar (meistens » 50%). Dieses Vorgehen ist statistisch begründet und führt dazu, dass CAT dem nicht adaptiven Testen (NCAT) im Hinblick auf die Messeffizienz klar überlegen ist. Die empirischen Befunde zu den emotionalen und motivationalen Auswirkungen dieser speziellen Art des Testens sind jedoch deutlich weniger eindeutig. Die bis heute häufig wiederholte Annahme bezüglich positiver Haupteffekte von CAT auf das emotionale und motivationale Testerleben wurde zunehmend durch Studien in Frage gestellt, die entweder keine emotionalen oder motivationalen Unterschiede zwischen CAT und NCAT fanden (z.B. Akhtar et al., 2022) oder sogar negative Auswirkungen der Verwendung CAT feststellen konnten (z.B. Ortner et al., 2014). Die hohe Heterogenität der Befunde weist darauf hin, dass die Annahme einfacher Haupteffekte von CAT auf Emotionen und Motivation zu kurz greift und dass das emotional-motivationale Erleben von Testsituationen vielmehr aus der differenzierten Zusammenwirkung verschiedener Test-, Personen- und Situationsmerkmale hervorgeht.
Dieses Symposium integriert existierende empirische Befunde zu den emotionalen und motivationalen Effekten von CAT und trägt neue Evidenz zu diesen zusammen.
Der erste Beitrag des Symposiums von Frey, Liu, Fink und König präsentiert ein konzeptionelles Framework zum Testerleben und präsentiert Ergebnisse einer Metaanalyse zu den Effekten von CAT im Vergleich zu NCAT hinsichtlich selbstberichteter Motivation, positiven Emotionen und negativen Emotionen. Dabei zeigten sich keine signifikanten Haupteffekte (d ≤ 0.13; p ≥ .119) aber signifikante Moderatoreffekte verschiedener Testmerkmale auf die abhängigen Variablen. Die Relevanz der Befunde für die Testgestaltung wird im Beitrag diskutiert.
Während sich die bisherige Forschung, und damit die in die Metaanalyse eingehenden Ergebnisse, auf die Verwendung von Selbstbericht zur Erfassung von Emotionen während der Testbearbeitung beschränkt, verwendeten Wünsch, Frenzel und Sun zusätzlich Hautleitfähigkeit als Maß der physiologischen Stressreaktion auf CAT. Die Ergebnisse der Laborstudie (N = 87), welche im zweiten Beitrag des Symposiums vorgestellt werden, zeigen ein höheres physiologisches Stresslevel von Testpersonen während der Bearbeitung eines adaptiven, verglichen mit einem nicht-adaptiven Test am Computer (p = .029), jedoch keine signifikanten Unterschiede im Selbstbericht von Aufregung (p = .108) und Stress/Angst (p = .065).
Im dritten Beitrag von Brüggemann, Ludewig, Lorenz und McElvany wurden die Effekte eines CAT zur Erfassung der Lesekompetenz auf Testängstlichkeit und Motivation von Grundschülerinnen und Grundschüler (N = 387) im Vergleich mit papierbasierten und computerbasierten NCATs untersucht. Es ließen sich keine direkten Auswirkungen der Adaptivität auf die Motivation oder Testängstlichkeit feststellen. Motivationsunterschiede wurden zwischen den Testformaten gefunden, ließen sich jedoch nicht auf die Adaptivität zurückführen. Jedoch zeigte sich ein Geschlechtsunterschied beim Verlauf der Testangst über den Testverlauf bei CAT (Anstieg bei den Mädchen, p = .002, Absinken bei den Jungen, p = .007)
Im vierten Beitrag von Schenk, Naumann und Frey wurde das emotionale Erleben in acht unterschiedlich konfigurierten adaptiven und nicht-adaptiven Hochschulprüfungen im Rahmen einer Vignettenstudie (N = 2566) untersucht. Bei den Prüfungsszenarien handelte es sich u.a. um papierbasierte Klausuren, CAT-Klausuren ohne Item-Review sowie CAT mit verschiedenen Item-Review-Verfahren. Es zeigte sich, dass bezogen auf alle untersuchten Leistungsemotionen sowie auf das subjektive Kontrollerleben, ein signifikanter Haupteffekt der Prüfungsszenarien vorlag (p .002). In der Regel gingen CAT-Klausuren (mit oder ohne Item-Review) mit stärkeren positiven Emotionen und schwächeren negativen Emotionen einher als NCAT-Klausuren.
Die Einzelbeiträge des Symposiums werden abschließend von Reinhard Pekrun auch im Hinblick auf die Verwendung von CAT im Bildungsbereich diskutiert.
Presentations of the Symposium
Metaanalyse zu den Effekten computerisierten adaptiven Testens auf Motivation und Emotion von Testpersonen
Andreas Frey, Tuo Liu, Aron Fink, Christoph König
Goethe-Universität Frankfurt am Main
Theoretischer Hintergrund
Computerisiertes adaptives Testen (CAT; z. B. Frey, 2023) ist eine dynamische Art zur Messung individueller Merkmale bei der sich die Auswahl der einer Person vorgelegten Items an der Beantwortung zuvor präsentierter Items orientiert. Bei der adaptiven Messung eines Leistungsmerkmals, bekommen leistungsfähige Personen schwierigere Items vorgelegt als weniger leistungsfähige Personen. Die interindividuelle Vergleichbarkeit der so ermittelten Testresultate wird durch die Verwendung eines mit der Item Response Theory (z. B. van der Linden, 2016) kalibrierten Itempools sichergestellt. Auf diese Weise kann die Messung ausgesprochen effizient erfolgen. In der Regel werden beim adaptiven Testen nur circa halb so viele Items benötigt, um die gleiche Messpräzision zu erreichen, wie bei linearer Itemvorgabe, bei der alle Personen die gleichen Items in gleicher Reihenfolge vorgelegt bekommen. Seit Beginn der Forschung zu CAT in den 1970er Jahren wurde wiederholt proklamiert, dass CAT wünschenswerte Effekte auf die Motivation zur Testbearbeitung und auf das emotionale Erleben der Testsituation hat (z. B. Betz & Weiss, 1977). Eine belastbare empirische Grundlage für diese Aussage liegt jedoch bislang nicht vor. Die betreffende Literatur ist heterogen. Dies weist darauf hin, dass die Annahme einfacher Haupteffekte von CAT auf Motivation und auf Emotion wahrscheinlich zu kurz greift und von Moderatoreffekten auszugehen ist.
Fragestellungen
Die vorgestellte Studie beantwortet zwei zentrale Fragestellungen:
1. Welche Effekte hat CAT im Vergleich zum nicht-adaptiven Testen (NCAT) auf die Motivation zur Testbearbeitung, auf negative Emotion und auf positive Emotion?
2. Gibt es Variablen, die diese Effekte moderieren?
Die Moderatoren werden danach unterschieden, ob sie sich auf Merkmale (a) des Tests, (b) der Testperson oder (c) der Testsituation beziehen.
Methode
Zur Beantwortung der Fragestellungen wurde eine Metaanalyse durchgeführt. Berücksichtigt wurden Originalarbeiten, die CAT mit NCAT bezüglich motivationaler und/oder emotionaler Zustände verglichen, mindestens eine Effektgröße mit Standardfehler angaben oder Informationen zu deren Berechnung lieferten und in Englisch, Deutsch oder Chinesisch verfasst waren. Aus dem mehrschrittigen Selektionsprozedere resultierten 27 Studien mit insgesamt 190 Effektstärken. Diese Studien wurden kodiert und anschließend statistisch analysiert. Als metaanalytisches Modell wurden ein Drei-Ebenen-Modell mit Zufallseffekten, CAT vs. NCAT als unabhängige Variable und Motivation, positive Emotion und negative Emotion als abhängige Variablen genutzt. Als gemeinsame Effektstärke kam Cohen’s d zum Einsatz. Ein Cochrane Risk of Bias Assessment wurde durchgeführt und Publikations-Bias mit Funnel Plot und Egger-Test untersucht und insofern notwendig mit PET-PEESE (Stanley & Doucouliagos, 2014) korrigiert.
Ergebnisse
Der mittlere Effekt von CAT wurde für keine der drei AVs signifikant (d ≤ 0.13; p ≥ .119). Die Homogenitätsanalyse zeigte substantielle Heterogenität der Effektstärken für alle drei AVs. Bei der Moderatoranalyse ergaben sich signifikante Moderatoreffekte auf erlebte Motivation von „Test-Speededness“ (p = .046), auf positive Emotion von „sofortigem Antwort-Feedback“ (p = .003), „Möglichkeit zur Antwortkorrektur“ (p = .028) und Test-Speededness“ (p = .029) und auf negative Emotion von „Aufgabenschwierigkeit“ (p = .022).
Diskussion
Die präsentierte Metaanalyse ist die bislang umfassendste Arbeit zu den motivational-emotionalen Effekten von CAT. Sie unterstreicht, dass Aussagen im Sinne einfacher Haupteffekte von CAT zu kurz greifen und dass das motivational-emotionalen Erleben von Testungen aus dem Zusammenspiel verschiedener Test-, Person- und Situationsvariablen resultiert. Im Vortrag werden auf Basis der Befunde Ansatzpunkte diskutiert, um das emotionale Erleben bei adaptiven Testungen zu optimieren.
Physiologische und subjektive Stressreaktionen in adaptiven vs. nicht-adaptiven Tests
Miriam Wünsch1, Anne Frenzel1, Luning Sun2
1Ludwig-Maximilians-Universität München, 2University of Cambridge
Theoretischer Hintergrund
Während im klassischen, nicht-adaptiven Testen jede Testperson dieselben Items bearbeiten, welche typischerweise in ansteigender Schwierigkeit präsentiert werden, erfolgt im adaptiven Testen die Präsentation des nächsten Items basierend auf der fortlaufenden Leistung der Testperson (Thompson & Weiss, 2011). Dadurch werden in adaptiven Tests weniger Items benötigt, um eine genauere Einschätzung der tatsächlichen Fähigkeiten einer Person vorzunehmen (Weiss, 2004, 2011). Diese herausragende Effizienz erreicht ein Maximum bei einer Schwierigkeit von 50% (Wise, 2014), was zur Folge hat, dass jede Testperson mit für sie relativ schwierigen Items konfrontiert wird und im gesamten Test (nur) eine 50% Lösungsrate erreichen kann. Zentrale Hypothese des vorliegenden Beitrags ist, dass diese Vorgehensweise möglicherweise negative affektive Konsequenzen für die Testpersonen mit sich bringen. Die bisherige Studienlage ist uneinheitlich, mit sowohl Befunden, die auf vermehrte (z.B. Ling et al., 2017; Martin & Lazendic, 2018) als auch auf verringerte Angst (z.B. Fritts & Marszalek, 2010) während der Bearbeitung adaptiver Tests hindeuten.
Fragestellungen
Die vorliegende Studie leistet einen Beitrag zum besseren Verständnis der emotionalen Auswirkungen von adaptiven Leistungstests, indem neben selbstberichteten Emotionen auch zum ersten Mal das physiologische Stresserleben der Testpersonen betrachtet wird.
Es wurde untersucht, ob Personen während der Bearbeitung eines adaptiven im Vergleich zu einem nicht-adaptiven Test mehr a) Physiologischen Stress, b) Subjektive Aufregung, c) Subjektive/n Angst und Stress erleben.
Methode
In einem within-subject Design bearbeiteten die Testpersonen am Computer einen adaptiven und einen nicht-adaptiven Tests zur Erfassung von Numerischem Denkvermögen, wobei der einen Hälfte der Personen zuerst der adaptive und der anderen Hälfte zuerst der nicht-adaptive Test präsentiert wurde. Aus den 49 von Loe et al. (2018) entwickelten Items wurden zwölf für den nicht-adaptiven Test ausgewählt und mit aufsteigender Schwierigkeit präsentiert, wobei die Hälfte der Items einen Schwierigkeitsparameter unter bzw. über Null hatte. Die übrigen 37 Items bildeten die Basis für den adaptiven Test, der ebenfalls aus zwölf Items bestand.
Zur Erfassung der physiologischen Stressreaktion wurde die Hautleitfähigkeit während der Testbearbeitung mithilfe von Elektroden auf der Handfläche gemessen und über ein BioNomadix Armband und den M160 Empfänger von BIOPAC an die Software iMotions übermittelt (iMotions, 2022). Als Maß für physiologischen Stress der Testperson wurden die Anzahl der Peaks pro Minute (PPM) in der Hautleitfähigkeit pro Test-Art ermittelt.
Zudem füllten die Testpersonen jeweils nach vier Items, d.h. dreimal pro Test, einen Selbstberichts-Fragebogen zu ihrem aktuellen subjektiven Erleben aus, in welchem die allgemeine Aufregung sowie Stress/Angst erfasst wurden. Aus diesen Antworten wurde der Mittelwert über die drei Messzeitpunkte pro Test gebildet.
Die finale Stichprobe für die Analyse der Selbstberichtsdaten bestand aus N=87 Personen (26/58/2/1 männlich/weiblich/divers/keine Angabe), während in die Analyse der Hautleitfähigkeit 68 Personen eingingen.
Ergebnisse
Für die drei abhängigen Variablen PPM, Aufregung und Stress/Angst wurde jeweils ein Mixed Linear Model berechnet, mit Random Intercepts für Person und Reihenfolge, sowie Test-Art (adaptiv vs. nicht-adaptiv) und Zeit (erster vs. zweiter Test) als Prädiktoren. Unabhängig von Test-Art nahm das physiologische Stresserleben (p<.001) sowie subjektive/r Stress/Angst (p=.033) vom ersten auf den zweiten Test signifikant ab. Wie erwartet zeigte sich zudem höherer physiologischer Stress im adaptiven Test, mit im Mittel 0.27 PPM mehr als im nicht-adaptiven Test (p=.029). Die Modelle für wahrgenommene Aufregung (p=.108) und Stress/Angst (p=.065) zeigten hingegen keine signifikanten Unterschiede zwischen den Test-Arten.
Diskussion
Die Ergebnisse zeigen, dass Personen während der Bearbeitung adaptiver Leistungstests höheren physiologischen Stress erleben, während sich dies jedoch nicht eindeutig in ihrer subjektiven Wahrnehmung von Aufregung oder Stress und Angst widerspiegelt. Basierend auf Studien, die einen nur bestenfalls moderaten Zusammenhang zwischen Hautleitfähigkeit und subjektiver Testangst zeigten (Roos et al., 2021), ist es also möglich, dass adaptives Testen differenzielle Effekte auf physiologischen Stress und die subjektive Wahrnehmung dessen hat.
Testängstlichkeit und Lesemotivation bei computeradaptiven Tests in der Grundschule
Thomas Brüggemann, Ulrich Ludewig, Ramona Lorenz, Nele McElvany
Institut für Schulentwicklungsforschung, TU Dortmund
Theoretischer Hintergrund
Digitale Medien werden vermehrt im Schulkontext eingesetzt (Lorenz et al., 2022). In der Grundschule können digitale Medien zur Leseförderung und Diagnostik genutzt werden (z.B. Goldhammer et al., 2023). Dabei bieten computeradaptive Tests (CAT) eine Alternative zu computerbasierten (CBT) und papierbasierten Tests (PPT). CBTs unterscheiden sich von PPTs in ihrer Aufgabendarstellung (z.B. Furenes et al., 2021) und CATs unterscheiden sich von CBTs und PPTs in der Aufgabenselektion (z.B. Frey, 2020). Die Unterschiede zwischen diesen drei Testformaten können sich auf das Testerleben in Form von Motivation und Testängstlichkeit auswirken (z.B. Colwell, 2013). Lesemotivation und Testängstlichkeit bestehen aus einer Eigenschaftskomponente (Trait) und einer Zustandskomponente (State; Tremblay et al., 1995; Zohar et al., 1998).
Computer wirken auf Grundschüler*innen oft motivierend (z.B. Picton, 2014), wobei fraglich ist, ob die Motivation langfristig anhält (Neuheitseffekt; Shin et al., 2019). Die potenziell motivierenden Effekte von CATs durch anspruchsvolle Aufgaben (Weiss & Betz, 1973) wurden bisher nur wenig untersucht (Ling et al., 2017). Gleichzeitig sind Effekte der Testformate auf die Testängstlichkeit durch Computerangst (z.B. dos Santos & de Santana, 2018) und Unterschiede in der Itemselektion (Ling et al., 2017) möglich.
Fragestellungen
Bisherige Studien zu den Unterschieden zwischen PPT, CBT und CAT sind meist im Bereich der Mathematik verortet (z.B. Martin & Lazendic, 2018), untersuchen Schüler*innen in der Sekundarstufe (Ling et al., 2017) und vergleichen meist zwei der drei Formate (z.B. Fritts & Marszalek, 2010). Daher wird in dieser Studie untersucht, inwiefern sich PPTs, CBTs und CATs auf die Lesemotivation und Testängstlichkeit von Grundschüler*innen der vierten Klasse in einem Lesekompetenztest auswirken.
Methode
An einer experimentellen Studie nahmen N = 387 Schülerinnen und Schüler der vierten Klasse (48.2 % weiblich) in allgemeinbildenden Grundschulen in Nordrhein-Westfalen an einem Lesekompetenztest (Rel.¬¬¬WLE = .84) teil. Die Schüler*innen wurden zufällig innerhalb ihrer Klassen in drei Gruppen aufgeteilt, die den Lesekompetenztest jeweils papierbasiert, computerbasiert oder computeradaptiv bearbeiteten. Die Schüler*innen wurden vor dem Lesekompetenztest nach ihrer allgemeinen Trait-Lesemotivation (α = .89) und Testängstlichkeit (α = .83) gefragt, sowie nach der Ankündigung des Lesekompetenztests nach ihrer State-Testängstlichkeit (α = .68). In der Mitte (inter) und am Ende (post) des Tests wurde die State-Lesemotivation (αinter = .82; αpost = .90) und State-Testängstlichkeit (αinter = .71; αpost = .82) erfasst. Am Ende des Tests wurde ebenfalls die Testmotivation (α = .87) gemessen. Fehlende Werte wurden mit der Bibliothek missRanger (Mayer, 2019) in R imputiert. Die Daten wurden mithilfe von linear mixed-effect Modellen mit der R-Bibliothek lme4 (Bates et al., 2014) ausgewertet.
Ergebnisse
Die Ergebnisse zur State-Lesemotivation fanden signifikante Haupteffekte von Trait-Lesemotivation und dem Testmedium (Papier versus Bildschirm). Schüler*innen, die gerne lesen, fanden die Testaufgaben spannender. Weiterhin lasen Schüler*innen lieber am Computer als am Papier. Über den Testverlauf sank die Lesemotivation am Bildschirm signifikant ab und war am Ende des Tests auf dem Niveau der Lesemotivation der Kinder am Papier. Es gab keine Unterschiede zwischen den Testformaten in der Post-Test Testmotivation.
Die Trait-Testängstlichkeit war ein signifikant positiver und die Lesekompetenz ein signifikant negativer Prädiktor der State-Testängstlichkeit. Es gab keine Unterschiede zwischen dem PPT, CBT oder CAT in der empfundenen State-Testängstlichkeit. Weitere Analysen nach Geschlechtsunterschieden fanden eine signifikant erhöhten Anstieg der State-Testängstlichkeit für Schülerinnen im CAT und ein Sinken der State-Testängstlichkeit für Schüler im CAT.
Diskussion
Die Befunde zur Lesemotivation deuten einen Neuheitseffekt (Shin et al., 2019) für bildschirmbasierte Tests an. CATs wirkten dabei nicht motivierender als der PPT oder CBT (vgl. Weiss & Betz, 1973). Unterschiede in der Testängstlichkeit zwischen den Testformaten wurden nicht gefunden (vgl. Ling et al., 2017). Die Geschlechtsunterschiede werden vor dem Hintergrund des Testthemas der Lesekompetenz und dem Alter der Schüler*innen mit Blick auf die Testfairness diskutiert.
Emotionale Effekte verschiedener Item-Review-Verfahren bei adaptiven Hochschulklausuren
Cosima Schenk, Patrick Naumann, Andreas Frey
Goethe-Universität Frankfurt am Main
Theoretischer Hintergrund
Computerisiertes adaptives Testen (CAT) kennzeichnet sich dadurch, dass sich die Auswahl des als nächstes vorzugebenden Items am vorherigen Antwortverhalten des getesteten Individuums orientiert (z.B. Frey, 2020). Diese hocheffiziente Art des Testens eignet sich in besonderem Maße zur Messung des Kompetenzstandes von Studierenden im Rahmen von Klausuren (Spoden & Frey, 2021). Jedoch kann die Bearbeitung von adaptiven Klausuren für die getesteten Studierenden mit Emotionen mit negativer Valenz einhergehen (Kimura, 2017). Eine Ursache hierfür könnte sein, dass bei adaptiven Klausuren kein Item-Review vorgesehen ist, also keine Möglichkeit besteht, bearbeitete Items im Nachhinein noch einmal durchzugehen und Antworten bei Bedarf zu verändern (Stocking, 1997). Dadurch könnte es zu einem verringerten Kontrollerleben kommen, welches – gemäß der Kontroll-Wert-Theorie von Pekrun und Perry (2014) – zu negativen emotionalen Reaktionen führt. Ein gesteigertes Kontrollerleben könnte hingegen zu positiven emotionalen Reaktionen führen. Dies wäre nicht nur für die getesteten Individuen angenehm, sondern dürfte auch den Abruf der maximalen Leistungsfähigkeit und die Akzeptanz adaptiver Klausuren fördern.
Im Rahmen der präsentierten Studie wurden verschiedene Item-Review-Verfahren für computerbasierte Tests, darunter auch drei neu konzipierte Verfahren, hinsichtlich des emotionalen Erlebens durch Studierende im Vergleich zu papierbasiertem Testen untersucht. Bei den drei neu entwickelten Verfahren handelt es sich um CAT-„Answer Until Correct“ (CAT-AUC), bei dem Studierende eine Aufgabe so lange bearbeiten dürfen bis diese richtig gelöst wurde, CAT-„Final Answer“ (CAT-FA), bei dem Studierende entweder vorläufige oder finale Antworten geben dürfen, und CAT-„Skipping“ (CAT-SK), bei dem Aufgaben übersprungen werden dürfen.
Fragestellungen
Mithilfe der Studie werden die folgenden Fragestellungen untersucht:
Wie ist das emotionale Erleben von Studierenden während einer Klausur in Abhängigkeit des Item-Review-Verfahrens?
Wie ist das subjektive Kontrollerleben von Studierenden während einer Klausur in Abhängigkeit des Item-Review-Verfahrens?
Welche Item-Review-Methode ist für CAT-Klausuren am vorteilhaftesten hinsichtlich des emotionalen Erlebens und des subjektiven Kontrollerlebens?
Methode
Im Rahmen einer Online-Studie mit dem Between-Subjects-Faktor „Prüfungsszenario“ und dem Within-Subjects-Faktor „Messwiederholung“ wurden Studierenden jeweils zwei von acht verschiedenen Prüfungsszenarien als Vignetten vorgelegt. Bei den acht Prüfungsszenarien handelte es sich um papierbasierte Klausuren, computerisierte Klausuren ohne adaptives Testen, CAT-Klausuren ohne Item-Review-Möglichkeit, CAT-Klausuren mit der Möglichkeit, alle Items nachträglich zu verändern (CAT „Full Review“), die drei neu entwickelten Verfahren CAT-AUC, CAT-FA, CAT-SK und um das von Cui et al. (2018) vorgeschlagene Verfahren CAT „Salt“. Als abhängige Variablen wurden das emotionale Erleben (7 Leistungsemotionen) und das subjektive Kontrollempfinden mit Fragebogenskalen erhoben. Die erhobenen Daten (N = 2566) wurden mit generalisierten linearen Mischmodellen mit dem R-Paket lme4 (Bates et al., 2014) analysiert. Fehlende Werte wurden mithilfe multipler Imputation mit dem R-Paket mice (van Buuren & Groothuis-Oudshoorn, 2011) imputiert.
Ergebnisse
Die Analysen zeigen einen signifikanten Effekt des Faktors „Prüfungsszenario“ für alle Leistungsemotionen und das Kontrollempfinden (p ≤ .002). Die Ergebnisse weisen darauf hin, dass ein gesteigertes subjektives Kontrollempfinden insbesondere bei dem Prüfungsszenario CAT-AUC vorliegt, welches auch mit höheren positiven Emotionen und niedrigeren negativen Emotionen einhergeht. In der Regel fallen die emotionalen Reaktionen von Prüfungsszenarien mit CAT (einschließlich solcher mit Item-Review-Verfahren) positiver aus als bei papierbasierten Klausuren und computerisierte Klausuren ohne adaptives Testen.
Diskussion
Die Ergebnisse der vorgestellten Studie weisen auf unterschiedliches emotionales Erleben von verschiedenen Klausurversionen hin. Des Weiteren deuten die Ergebnisse darauf hin, dass die ohnehin schon in der Regel mit wünschenswerteren emotionalen Reaktionen verbundenen adaptiven Klausuren (stärkere positive Emotionen und schwächere negative Emotionen) durch die zielgerichtete Verwendung von Item-Review-Verfahren weiterhin hinsichtlich des Kontrollerlebens und damit distal hinsichtlich des emotionalen Erlebens optimiert werden. Implikationen – insbesondere im Hinblick auf die zukünftige Umsetzung von CAT-Prüfungen – werden diskutiert.