11. GEBF Conference - ConfTool Pro Printout

Symposium

Beobachterratings als Königsweg zur Erfassung von Unterrichtsqualität?!

Chair(s): Anna-Katharina Praetorius (Universität Zürich), Anika Dreher (Pädagogische Hochschule Freiburg, Deutschland)

Discussant(s): Wida Wemmer-Rogh (Universität Zürich)

Einschätzungen externer Beobachtender für die Erfassung von Unterrichtsqualität werden viele Vorteile beigemessen: Externe Beobachtende sind nicht in das Geschehen involviert, haben vielfältige Vergleichsmöglichkeiten und sollten durch ein durchlaufenes Training Unterrichtsqualität valide einschätzen können. Folglich werden Beobachterratings vielfach als Königsweg, Goldstandard oder vereinzelt sogar als objektive Messung bezeichnet und entsprechend in vielen Studien eingesetzt. Dennoch zeigen sich in vielen dieser Studien Befunde, die auf eine optimierungsbedürftige Validität von Beobachterratings zu Unterrichtsqualität hinweisen (für eine Übersicht siehe Praetorius & Charalambous, 2018). Eine mögliche Erklärung für diese Befundlage könnte darin liegen, dass die Bedingungen, unter denen diese potenziellen Vorteile von Beobachterratings gelten, aktuell noch nicht ausreichend geklärt sind.

Bei genauerer Betrachtung wird deutlich, dass die genannten Vorteile auf einer Reihe von Annahmen beruhen (für eine ähnliche Argumentation zu Fachspezifität siehe Dreher & Leuders, 2021): So muss unter anderem (a) das Beobachtungssetting so gewählt sein, dass eine Beobachtung der für eine Einschätzung von Unterrichtsqualität relevanten Aspekte überhaupt möglich ist, (b) die Rater:innen die nötigen Kompetenzen besitzen, um die Einschätzungen valide durchführen zu können und (c) die Instrumente so konstruiert sein, dass sie alle relevanten Aspekte zur Einschätzung der Unterrichtsqualitätsdimensionen beinhalten.

Bislang existieren nur wenige Untersuchungen, die sich vertieft damit auseinandersetzen, inwiefern die obigen Annahmen hinsichtlich Beobachtungssetting, Kompetenzen von Rater:innen und Instrumenten zutreffen. An diesem Desiderat setzt das Symposium an. Die Beiträge setzen sich vertieft mit je einer der Annahmen auseinander und nutzen zu deren Überprüfung ein experimentelles Design.

In Beitrag 1 wird in Bezug auf das oftmals videobasierte Beobachtungssetting kritisch in den Blick genommen, inwiefern die üblicherweise genutzten Kameraperspektiven (1 Klassenkamera, 1 Lehrpersonenkamera) dazu führen, dass relevante Aspekte zur Einschätzung von Unterrichtsqualität übersehen werden. Zur Überprüfung wurden traditionelle und 360°-Kameraperspektiven in einem within-person-Design eingesetzt und die erfassten Begründungen der Unterrichtsqualitätseinschätzungen miteinander verglichen. Die Befunde deuten darauf hin, dass das Erkennen qualitätsrelevanter Unterrichtsereignisse sowie die Validität der Begründungen der Einschätzungen im traditionellen Setting nicht schlechter gelingt als in der 360°-Bedingung.

Beitrag 2 fokussiert auf die Frage, ob die Dauer von Beobachtertrainings zu Unterrichtsqualität einen Unterschied macht für die Validität der Unterrichtseinschätzungen. Dazu wurden in einem experimentellen Prä-Post-Design dieselben Videos vor und nach einem kurzen (7.5h) bzw. langen (13h) Training hinsichtlich der Dimensionen Klassenführung, motivational-emotionale Unterstützung, kognitive Aktivierung sowie Auswahl und Thematisierung von Inhalten eingeschätzt und mittels Differenzscores mit Masterratings abgeglichen. Es zeigen sich lediglich für 2 der 12 möglichen Gruppenunterschiede Vorteile für ein längeres Training und dies in Bezug auf kognitive Aktivierung.

Der Fokus von Beitrag 3 schliesslich liegt auf der Frage, inwiefern Beobachtende mit Fachexpertise Qualitätsaspekte von Mathematikunterricht anhand von üblichen generischen Beobachtungskriterien valide einschätzen können oder dafür fachspezifische Beobachtungskriterien benötigen.

Dazu haben Mathematik-Seminarlehrkräfte geskriptete Mathematikunterrichtsvideos in einem within-person-Design jeweils anhand eines generischen und eines fachspezifischen Items zu einem Unterrichtsqualitätsaspekt geratet. Es zeigten sich in bestimmten Fällen systematische Unterschiede in den Ratings der beiden Items. Diese Ergebnisse deuten darauf hin, dass einige übliche generische Beobachtungskriterien zentrale fachspezifische Aspekte der Unterrichtsqualitätsdimensionen nicht erfassen.

Zusammengenommen zeichnen die Beiträge ein gemischtes Bild hinsichtlich der Annahmen zu Beobachtungssettings, Kompetenzen von Rater:innen und eingesetzten Instrumenten. Sie deuten darauf hin, dass Beobachtereinschätzungen nicht per se als Königsweg zur Erfassung von Unterrichtsqualität bezeichnet werden können, sondern eine vertiefte Auseinandersetzung mit ebendiesen Annahmen notwendig erscheint, um ausreichende Validität zu gewährleisten.

Presentations of the Symposium

Unterrichtsbeobachtung in traditionellen und immersiven Videoumgebungen und deren Ein-fluss auf offene Begründungen für Unterrichtsqualitätsratings

Tosca Daltoè¹, Maximilian Irion², Linn Hansen³, Julia Larissa Blank⁴, Benjamin Fauth¹, Ulrich Trautwein², Richard Göllner²
¹Universität Tübingen, Institut für Bildungsanalysen Baden-Württemberg, ²Universität Tübingen, ³Pädagogische Hochschule Freiburg, ⁴Institut für Bildungsanalysen Baden-Württemberg

Die Unterrichtsbeobachtung durch externe Beobachtende ist eine zentrale Perspektive zur Erfassung von Unterrichtsqualität (z. B. Fauth et al., 2020). In der Unterrichtsforschung und Lehrkräftebildung werden Unterrichtsbeobachtungen meist anhand von Unterrichtsvideos durchgeführt, die eine systematische Unterrichtsanalyse ermöglichen (Krammer & Reusser, 2005; Syring et al., 2015). Neben dem großen Potenzial videobasierter Unterrichtsbeobachtungen haben traditionelle Unterrichtsvideos allerdings auch Limitationen bezüglich der Validität resultierender Beobachtungsratings. Verschiedene Forschungsarbeiten zeigen, dass die Kameraperspektive in Unterrichtsvideos die Wahrnehmung des Unterrichts sowie Unterrichtsqualitätsratings beeinflusst (Cortina et al., 2018; Mahler et al., 2023; Paulicke et al., 2019). Eine Möglichkeit, diesem Einfluss der Kameraperspektive entgegenzutreten, ist der Einsatz von 360-Grad-Unterrichtsvideos.

In 360-Grad-Videos wird die Blickrichtung auf den gefilmten Unterricht vom Standpunkt der Kamera aus frei gewählt, z. B. durch Kopfbewegungen in einer Virtual-Reality (VR)-Brille (Balzaretti et al., 2019). Beobachtende erleben Unterricht in 360-Grad-Videos immersiver (Daltoè et al., 2023; Ferdig & Kosko, 2020; Gold & Windscheid, 2020) und strengen sich bei der Unterrichtsbeobachtung mehr an als in traditionellen Videoumgebungen (Daltoè et al., 2023). Durch dieses veränderte Beobachtungserleben könnten Beobachtende relevante Unterrichtsereignisse in immersiven Videoumgebungen besser erkennen und Unterrichtsqualität dadurch treffender einschätzen. Gleichzeitig könnte es aber auch sein, dass Beobachtende relevante Unterrichtsereignisse übersehen, unter anderem dadurch, dass diese aktiv durch Kopfbewegungen angesteuert werden müssen. Es stellt sich daher die Frage, ob sich immersive Videoumgebungen zur Erfassung von Unterrichtsqualität unter Verwendung bisheriger Beobachtungsinstrumente eignen oder ob Beobachtungsratings anders ausfallen und begründet werden als in traditionellen Videoumgebungen.

In einer ersten Studie von Gold und Windscheid (2020) unterschieden sich Unterrichtsqualitätsratings zwischen traditionellen und 360-Grad-Videos nicht. Darauf aufbauend fanden wir in einer ersten Untersuchung Hinweise darauf, dass sich Unterrichtsqualitätsratings zwischen den Videoumgebungen nur dann unterscheiden, wenn die Wahrnehmung der Interaktion zwischen Lehrkraft und Lernenden im Mittelpunkt steht (Daltoè et al., 2023). Diese bisherigen Befunde basieren auf hoch-inferenten Unterrichtsqualitätsratings und sollten durch eine Analyse offener Begründungen für diese Ratings erweitert werden, um zu prüfen, welche Unterrichtsereignisse gesehen und zur Begründung der Ratings herangezogen werden. Aus diesem Grund untersucht der vorliegende Beitrag, ob sich offene Begründungen für Unterrichtsqualitätsratings je nach Videoumgebung (traditionell vs. immersiv) unterscheiden. Folgende Forschungsfragen stehen im Fokus:

1. Zeigen sich Unterschiede zwischen den Videoumgebungen bezüglich des Erkennens qualitätsrelevanter Unterrichtsereignisse?

2. Zeigen sich Unterschiede zwischen den Videoumgebungen bezüglich der Indikatoren, die für die Begründung der Unterrichtsqualitätsratings herangezogen werden?

In der vorliegenden Untersuchung betrachteten N = 75 Lehramtsstudierende jeweils zwei von insgesamt fünf geskripteten Unterrichtsvideos, davon eines in einer traditionellen Videoumgebung am PC und eines in einer immersiven Videoumgebung mit einer VR-Brille. Nach jedem Video schätzten die Lehramtsstudierenden die Unterrichtsqualität in den Videos mit dem Unterrichtsfeedbackbogen Tiefenstrukturen (UFB; Fauth et al., 2021) ein und gaben dabei offene Begründungen für das Unterrichtsqualitätsrating ab. Die insgesamt 368 offenen Begründungen wurden mithilfe eines Kodierleitfadens mit zwei übergeordneten Kategorien kodiert: 1. Erkennen die Lehramtsstudierenden die qualitätsrelevanten Unterrichtsereignisse? 2. Ist die Begründungen für das UFB-Rating im Sinne der Beobachtungsindikatoren valide? (vgl. Ansatz von Praetorius et al., 2012). Die Kodierung durch zwei geschulte Ratende ergab eine prozentuale Übereinstimmung von 83.7% sowie eine substanzielle Interrater-Reliabilität von κ = .64 (vgl. Landis & Koch, 1977). Voneinander abweichende Kodierungen wurden diskutiert und eine Konsenskodierung gebildet. Im nächsten Schritt wurden die Kodierungen zwischen den Videoumgebungen mittels t-Tests verglichen.

Die vorläufigen Befunde weisen darauf hin, dass sich weder das Erkennen qualitätsrelevanter Unterrichtsereignisse (Forschungsfrage 1; t(145) = 1.05, p = .294), noch die Validität der Begründungen für die Ratings (Forschungsfrage 2; t(145) = 0.25, p = .803) zwischen den Videoumgebungen unterscheidet.

Die vorliegende Untersuchung legt nahe, dass die untersuchten Indikatoren für das Erkennen und Beurteilen von Unterrichtsqualität gleichermaßen in den verschiedenen Videoumgebungen genutzt werden können. Limitationen der vorliegenden Untersuchung sowie Implikationen für Forschung und Praxis werden diskutiert.

Welche Rolle spielt die Dauer von Trainings für Beobachter:innen zur Einschätzung von Unterrichtsqualität für die Qualität der Ratings?

Valerie Gitzi¹, Thilo Kleickmann², Olga Lichtner², Mirjam Steffensky³, Aiso Heinze³, Anna-Katharina Praetorius¹
¹Universität Zürich, ²Christian-Abrechts-Universität zu Kiel, ³Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik

Theoretischer Hintergrund

Einschätzungen von Beobachter:innen gelten oft als Königsweg zur Erfassung von Unterrichtsqualität (Helmke, 2022). Der Einsatz von Trainings für Rater:innen gilt dabei als Standard (Praetorius, 2013). Trotz deren häufiger Durchführung besteht nach wie vor erhebliche Unklarheit hinsichtlich der optimalen Ausgestaltung solcher Trainings (Lemay et al., 2021). Selbst bei der Frage nach der idealen Länge von Trainings finden sich extreme Unterschiede in der Literatur, die nicht weiter begründet werden (z.B. Nowińska et al., 2017; Lemay et al., 2021). Die vorliegende Studie beschäftigt sich mit der Frage, ob eine Variation der Dauer mit Unterschieden in der Qualität der Unterrichtsbeobachtungen (d.h. Reliabilität und Validität) einhergeht. In der Unterrichtsqualitätsforschung gibt es dazu bislang keine theoretischen oder empirischen Auseinandersetzungen. Werden andere Forschungsgebiete herangezogen, können Argumente in verschiedene Richtungen abgeleitet werden: Je länger das Training dauert, desto valider sollten Ratings sein (z.B. Floden, 2002; Atkinson & Shiffrin, 1968) aber auch, dass sich keine Veränderung der Ratings aufgrund der Dauer identifizieren lassen (Craik & Lockhart,1972, Bhowmik et al., 2021). Da mehr Argumente für eine längere Dauer sprechen, vermuten wir, dass ein längeres Training mit einer höheren Validität der Unterrichtseinschätzungen einhergeht.

Methode

In einem prä-registrierten, experimentellen Forschungsdesign mit Prä-Post-Design haben wir die zuvor formulierte Forschungsfrage für hoch-inferente Ratings von Unterrichtsqualität untersucht. Dafür wurde ein 13-stündiges (n = 34 Teilnehmende ) mit einem 7.5-stündigen (n = 41 Teilnehmende) kontrastiert. Die beiden Trainingsbedingungen unterschieden sich hinsichtlich der Inhalte nicht, sondern lediglich in der Ausführlichkeit, mit der diese thematisiert wurden. Die Teilnehmenden beurteilten vor und nach dem Training dieselben zehn Unterrichtsvideos (fünf zum Thema «Verdunsten und Kondensieren» und fünf zum Thema «Pythagoras»). Die Teilnehmenden bewerteten diese Videos anhand von vier übergeordneten Dimensionen (Klassenführung, motivational-emotionale Unterstützung, kognitive Aktivierung und Auswahl & Thematisierung des Inhalts) (Rogh et al., 2020).

Die Reliabilität wird mittels Interrater-Übereinstimmungen bestimmt. Die Überprüfung der Validität der Ratings findet über Differenzwerte zu Masterratings statt. Die beiden Gruppen werden anhand von dimensionsweise durchgeführten Regressionsanalysen verglichen, bei denen die Präratings als Kovariate, die Gruppenzugehörigkeit als unabhängige Variable und die Differenzwerte als abhängige Variable eingingen. Beide Fächer werden sowohl getrennt als auch aggregiert betrachtet.

Ergebnisse und Diskussion

Zunächst zeigte sich deskriptiv, dass sowohl für das kurze als auch das lange Training die Mittelwerte der Differenzwerte zum Prä-Messzeitpunkt höher lagen als jene des Post-Messzeitpunkts (Gruppe kurzes Training: Prä (0.63 ≤ x̄ ≤ 1.11) und Post (0.46 ≤ x̄ ≤ 0.68) und Gruppe langes Training: Prä (0.72 ≤ x̄ ≤ 1.12) und Post (0.48 ≤ x̄ ≤ 0.65)). Das bedeutet, dass die Rater:innen im Post-Rating näher an den Ratings der Master-Ratings lagen und damit als valider eingeschätzt werden können.

Von den 12 möglichen Gruppenunterschieden zwischen kurzem und langem Training (4 Dimensionen jeweils für Mathematik, Naturwissenschaften und zusammengenommen) zeigen sich lediglich bei zwei signifikante Unterschiede in der vermuteten Richtung: Bei der Dimension kognitive Aktivierung zeigen sich statistisch signifikante Gruppenunterschiede für die naturwissenschaftlichen Videos (ß = -.48**) sowie über alle Videos hinweg (ß = -.38*). Das bedeutet, dass die Validität in der Gruppe mit dem längeren Training nach dem Training höher ausgeprägt ist als in der Gruppe mit kürzerem Training – dies jedoch nur für die Dimension kognitive Aktivierung.

Die Befunde deuten darauf hin, dass sich die Hypothese, dass ein längeres Training für die Validität von Ratings vorteilhaft ist, lediglich für kognitive Aktivierung bestätigen lässt. Die Limitationen der vorliegenden Studie einbeziehend werden abschliessend Implikationen für zukünftige Studien abgeleitet, die Einschätzungen zur Unterrichtsqualität von Beobachter:innen einsetzen wollen.

Erfassung von Unterrichtsqualität durch Beobachterratings – Die Rolle der Fachspezifität von Beobachtungskriterien

Linn Hansen¹, Marita Friesen², Anika Dreher¹
¹Pädagogische Hochschule Freiburg, ²Pädagogische Hochschule Heidelberg

Theoretischer Hintergrund und Fragestellung

Beobachterratings spielen in der Unterrichtsqualitätsforschung eine wichtige Rolle. Eine zentrale Herausforderung besteht jedoch darin, dass Beobachterratings von verschiedenen Faktoren (z.B. unterschiedlichen Iteminterpretationen) beeinflusst werden (Praetorius, 2013). So stellt sich beispielsweise die Frage, wie fachspezifisch Rater:innen und Beobachtungskriterien sein müssen, um Unterrichtsqualität valide zu erfassen (z.B. Lindmeier & Heinze, 2020). Um die Bedeutung von Fachspezifität für Beobachterratings genauer zu untersuchen, schlugen Dreher und Leuders (2021) vor, die Varianzquellen Unterrichtssituationen, Beobachtungskriterien und Rater:innen sowie deren Wechselwirkungen zu berücksichtigen. Dabei wird erwartet, dass sich diese Varianzquellen durch verschiedene Grade an Fachspezifität systematisch auf die Einschätzung der Unterrichtsqualität auswirken können.

In unserem Forschungsprojekt wird folglich anhand von fachspezifischen Unterrichtssituationen untersucht, wie sich die systematische Variation der Fachspezifität von Rater:innen und Beobachtungskriterien (Items) auf die erfasste Unterrichtsqualität auswirkt. Insbesondere wird erwartet, dass fachspezifische Rater:innen Fachunterricht häufig auch anhand rein generischer Kriterien valide einschätzen können, manchmal jedoch übliche generische Items zentrale fachspezifische Aspekte nicht erfassen. Um diese erwartete Rolle der Fachspezifität von Beobachtungskriterien zu prüfen, werden zunächst Unterrichtsqualitätsratings von fachspezifischen Rater:innen betrachtet.

Methode

Es wurden sechs geskriptete Videos von Mathematikunterricht erstellt, in denen jeweils ein Unterrichtsqualitätsaspekt nach dem Unterrichtsfeedbackbogen (UFB) (Fauth et al., 2021) manipuliert wurde. Dabei wurden jeweils zwei Videoversionen erstellt: Eine Version enthält einen fachdidaktischen Normverstoß zum fokussierten Unterrichtsqualitätsaspekt, den die andere Version nicht enthält. Analog zum Beispiel aus Dreher und Leuders (2021) wurde für jedes Video neben dem generischen Item (UFB) auch ein fachspezifisches Item formuliert. Die Videos wurden so konzipiert, dass sich die Normverstöße in drei Videos nur auf das fachspezifische Item auswirken sollten. In den anderen drei Videos sollten beide Items den Normverstoß erfassen.

Ein Beispiel für den ersten Fall ist das Video zum Aspekt „Engagement der Schülerinnen und Schüler“: Der Normverstoß besteht darin, dass die Lernenden zwar engagiert am Unterrichtsgeschehen beteiligt sind, sich dieses Engagement aber nicht auf das fachliche Lernen bezieht. In diesem inkongruenten Fall erwarten wir Varianz durch die Fachspezifität der Beobachtungskriterien: Fachspezifische Rater:innen sollten das generische Item, das sich auf das allgemeine Engagement der Lernenden bezieht, positiv, das fachspezifische Item jedoch negativ raten. Ein Beispiel für den zweiten, kongruenten Fall ist das Video zum Unterrichtsqualitätsaspekt „Individuelle Unterstützung“. Hier wird für das fachspezifische Item keine grundsätzlich andere Einschätzung erwartet als für das generische, weil der Normverstoß bereits vom generischen Item erfasst wird.

Wie im illustrierenden Beispiel aus Dreher und Leuders (2021) wird für alle sechs Videos erwartet, dass die Normverstöße für generische Rater:innen kaum sichtbar sind, so dass in einer späteren Projektphase die Varianz durch die Fachspezifität der Rater:innen untersucht werden kann.

Beide Items werden jeweils auf vierstufigen Likert-Skalen geratet und die Einschätzung in offenen Antworten begründet. Erste Daten beziehen sich auf N=24 Mathematik-Seminarlehrkräfte (fachspezifische Rater:innen) ohne spezifisches Training. Die Teilnehmenden wurden zufällig in zwei Subgruppen eingeteilt und erhielten für jeden Unterrichtsqualitätsaspekt jeweils randomisiert eine der Videoversionen. Da dieser Beitrag auf die Videoversionen mit Normverstoß fokussiert, liegen pro Video Daten von n=12 Rater:innen vor.

Ergebnisse

Während sich die Ratings in den kongruenten Fällen nicht signifikant voneinander unterscheiden, wurden in den inkongruenten Fällen die fachspezifischen Items signifikant negativer geratet (MdnVideo1=2, MdnVideo2=3, MdnVideo3=2) als die generischen Items (MdnVideo1=4, MdnVideo2=3.5, MdnVideo3=4) (Video 1: Z=-2.70, p=<.05 r=-.60; Video 2: Z=-1.73, p=<0.5, r=-.39; Video 3: Z=-2.57, p=<.05, r=-.57). Die Effektstärken entsprechen mittleren bis starken Effekten. Die Kodierung der offenen Antworten bestätigt zudem einen Zusammenhang der negativen Ratings der fachspezifischen Items mit dem Erkennen der Normverstöße.

Diese vorläufigen Ergebnisse zeigen die Fachspezifität von Beobachtungskriterien als Varianzquelle für Beobachterratings in den angenommenen Fällen. Diese Ergebnisse können damit zu einem besseren Verständnis der Bedingungen beitragen, unter denen generisch formulierte Items für die Erfassung von Unterrichtsqualität selbst durch Rater:innen mit Fachexpertise nicht ausreichen.

Conference Agenda