Conference Agenda

Overview and details of the sessions of this conference. Please select a date or location to show only sessions at that day or location. Please select a single session for detailed view (with abstracts and downloads if available).

 
 
Session Overview
Session
5-16: Bewertung von Schülerleistungen
Time:
Tuesday, 19/Mar/2024:
1:10pm - 2:50pm

Location: S15

Seminarraum, 50 TN

Show help for 'Increase or decrease the abstract text size'
Presentations
Paper Session

Anspruch und Wirklichkeit bei der Vergabe mündlicher Schulnoten: Befunde einer repräsentativen Befragung von Lehrpersonen

Nicolas Hübner

Universität Tübingen, Deutschland

Theoretischer Hintergrund. Bereits seit langer Zeit werden Schulnoten höchst kontrovers diskutiert (Beutel & Pant, 2020; Hübner et al., im Druck; Ingenkamp, 1971). Die Diskussionen resultieren insbesondere aus dem wahrgenommenen Widerspruch zwischen ihrer großen Relevanz für eine erfolgreiche Bewerbung um Ausbildungs- oder Studienplätze einerseits und ihrer sehr eingeschränkten Vergleichbarkeit und unklaren Bedeutung andererseits (Bohl, 2019; Hübner et al., 2020). Letzteres verdeutlicht sich an einer Reihe von Einzelbefunden: Lehrkräfte vergeben für eine identische Klassenarbeit unterschiedliche Noten, beziehen leistungsirrelevante Kriterien in ihre Beurteilung ein und kommen zu verschiedenen Zeitpunkten zu unterschiedlichen Urteilen über identische Leistungen von Schülerinnen und Schülern (vgl. Birkel, 2005; Bonefeld & Dickhäuser, 2018; Brügelmann, 2014; Hannover & Kessels, 2011). Zudem weisen Schülerinnen und Schüler mit identischen Schulnoten deutlich unterschiedliche Kompetenzen auf (Hübner et al., im Druck). Zusammenfassend erfüllen Noten diagnostische Gütekriterien daher nur in einem sehr überschaubaren Maße, sodass in Bezug auf ihre Vergleichbarkeit in der aktuellen Literatur auch von einer notwendigen, aber kontrafaktischen Annahme gesprochen wird (Klieme, 2022, S. 320). Einen „blinden Fleck“ in den immer wieder aufkeimenden Debatten zur Vergleichbarkeit von Noten bilden mündliche Schulnoten. Dies ist erstaunlich, weil mündlichen Noten auch rechtlich ein substanzieller Einfluss auf Zeugnisnoten eingeräumt wird. So ist bisher beispielsweise weitestgehend unklar, welche Informationen Lehrkräfte zur Bildung von mündlichen Noten heranziehen und wie diese gewichtet und verrechnet werden. Es fehlen folglich zentrale Wissensbausteine, um den Prozess der Bildung von Zeugnisnoten und die Bedeutung von mündlichen Noten insgesamt besser verstehen zu können.

Fragestellung. Im Vortrag werden drei Fragestellungen beantwortet: Welche Kriterien verwenden Lehrkräfte bei der Bildung mündlicher Noten und wie werden diese gewichtet? Wie stark variieren die Kriterien zwischen Lehrkräften? Welche Lehrermerkmale erklären Variation in der Gewichtung unterschiedlicher Kriterien?

Methode. Zur Untersuchung der Fragestellungen wurde zunächst eine Pilotierungsstudie mit 55 Lehrpersonen aus Baden-Württemberg durchgeführt. Im Rahmen der Pilotierung erfolgte eine Überprüfung der Verständlichkeit und psychometrischen Qualität der eingesetzten und zum Teil neu entwickelten Instrumente. Im Anschluss an die Pilotierungsstudie wurde im Herbst 2023 eine repräsentative Stichprobe von rund 1.100 Lehrpersonen in Deutschland zu ihrer Notenbildungspraxis befragt. Neben Fragen zur Demographie (Schulform, Alter, Geschlecht, etc.) wurden die Lehrkräfte auch gefragt, welche Bedeutung unterschiedliche Kriterien (z.B. die Qualität von Gruppenarbeiten und Antworten bei Abfragen oder die Selbständigkeit der Schülerinnen und Schüler) bei der Bildung mündlicher Noten auf einer Skala von 1 (sehr unwichtig) bis 6 (sehr wichtig) für sie haben und wie sie mündliche Noten bei der Bildung von Gesamtnoten gewichten. Zudem wurden Informationen zur Bezugsnormorientierung, zu wahrgenommenen Herausforderungen bei der Beurteilung mündlicher Leistungen und zur Persönlichkeit der Lehrpersonen erfasst. Zur Analyse der Daten wurden unterschiedliche bivariate und multiple Regressionsmodelle sowie Strukturgleichungsmodelle spezifiziert. Fehlende Werte wurden mit der Full Information Maximum Likelihood (FIML)-Methode behandelt. Zur Berücksichtigung der Nestung der Daten (Lehrer in Bundesländern) wurden clusterrobuste Standardfehler berechnet.

Ergebnisse und ihre Bedeutung. Erste Ergebnisse legen substanzielle Unterschiede bei der Gewichtung der verschiedenen Beurteilungskriterien zwischen Lehrpersonen nahe. So zeigte sich beispielweise, dass die Häufigkeit der SchülerInnenbeteiligung an Unterrichtsgesprächen von 25% der Lehrpersonen als eher nicht wichtig, von 42% als eher wichtig und von 33% als sehr wichtig eingeschätzt wurde. Darüber hinaus ergaben sich statistisch bedeutsame Zusammenhänge zwischen unterschiedlichen Persönlichkeitsmerkmalen von Lehrkräften und der Gewichtung der verschiedenen Beurteilungskriterien (z.B. r = -.33 (p < .05) zwischen dem Kriterium „Regelmäßige Erledigung von Hausaufgaben“ und der Offenheit der Lehrpersonen). Zusammenfassend weisen diese ersten Befunde darauf hin, dass die für die Bildung von mündlichen Noten relevanten Kriterien bei Lehrpersonen substanziell variieren und im Zusammenhang mit Hintergrundmerkmalen von Lehrpersonen (z.B. der Persönlichkeit) zu stehen scheinen. Die Befunde werden im Vortrag differenziert dargestellt sowie hinsichtlich ihrer Bedeutung für die Aus- und Fortbildung von Lehrerinnen und Lehrern diskutiert.



Paper Session

Leistungsbewertung im schulischen Kontext - Eine empirische Untersuchung des Zusammenhangs von Kompetenzen und Noten unter Berücksichtigung der Bezugsnormorientierung

Robert Reggentin, Katrin Böhme

Universität Potsdam, Deutschland

Die Bezugsnorm und die Bezugsnormorientierung, d.h. die Neigung von Lehrkräften in der Leistungsbewertung verschiedene Normen (sozial, individuell, kriterial) als Bezugsrahmen heranzuziehen (Rheinberg, 2006), sind schon lange Teil des Forschungsdiskurses der empirischen Bildungsforschung (Rheinberg et al., 1977; Holder und Kessels, 2018). So konnte bisher gezeigt werden, dass die Bezugsnormorientierung die Leistungsbereitungsbereitschaft in Testsituationen von Studierenden beeinflusst (Sülz, 2014). Zudem neigen Schüler:innen eher dazu bei der Leistungserbringung zu betrügen, wenn sie eine Leistungsbewertung durch die Lehrkraft antizipieren, die sich stärker an der sozialen Bezugsnorm orientiert (Marksteiner et al., 2021). Auf Basis dieser Forschung wurden bereits kultusministerielle Empfehlungen zur Verwendung von Bezugsnormen in der schulischen Leistungsbewertung abgeleitet (z. B. in Baden-Württemberg; Ministerium für Kultus, Jugend und Sport, 2016).

Nichtsdestotrotz fehlt es bisher an empirischen Untersuchungen dazu, wie groß der Einfluss der Bezugsnormorientierung auf die schulische Leistungsbewertung ist. Im vorliegenden Beitrag wird daher untersucht, ob und inwieweit sich die von den Lehrkräften präferierte Bezugsnorm bei der Leistungsbewertung auf die Vergleichbarkeit von Schulnoten über den Klassenkontext hinaus, und damit auch auf die Selektionsfunktion von Noten (Breidenstein, 2018), auswirkt.

Unter der Maßgabe, dass über Bildungsstandards operationalisierte Kompetenzen und Schulnoten ähnliche Maße derselben akademischen Leistungen von Schüler:innen sind (Stanat et al. 2017), werden in diesem Beitrag die Zusammenhänge zwischen Noten und gemessenen Kompetenzen in Abhängigkeit von der präferierten Bezugsnorm der notengebenden Lehrkraft analysiert. Da die Bildungsstandards zu den kriterialen Standards gehören, die auf die kriteriale Bezugsnorm angewendet werden (Klieme et al. 2010), vermuten wir einen höheren Zusammenhang zwischen den Schulnoten und den Kompetenzen bei einer kriterialen Bezugsnorm der notengebenden Lehrkraft im Vergleich zu den anderen Bezugsnormen (Hypothese 1). Eine weitere Hypothese bezieht sich auf die soziale Bezugsnorm. Da bei Anwendung der sozialen Bezugsnorm die Leistungen der gesamten Klasse als Referenz für die Leistungsbeurteilung genutzt werden, nehmen wir an, dass der durchschnittliche Leistungsstand in der Klasse einen moderierenden Effekt auf den Zusammenhang zwischen Noten und gemessenen Kompetenzen hat (Hypothese 2).

Zur Prüfung der Hypothesen nutzen wir den Datensatz des IQB-Bildungstrends 2016 (Stanat et al., 2019) mit einer Analysestichprobe von 14.240 Schüler:innen der 4. Klasse und 724 Lehrkräften. Es wurden nur Schüler:innen in die Analyse aufgenommen, zu denen es Angaben der Lehrkräfte zur präferierten Bezugsnormorientierung gab. Außerdem wurden die Schüler:innen mit sonderpädagogischem Förderbedarf ausgeschlossen, da die Möglichkeit besteht, dass diese Schüler:innen nach einem anderen Maßstab bewertet wurden.

Zur Datenanalyse wurde R in der Version 4.2.3 (R Core Team, 2023) und das lme4 Package für Mehrebenen-Regressionsmodelle verwendet. Es wurden getrennte Modelle für die Fächer Mathematik und Deutsch gerechnet. Die schrittweise Analyse des Mehrebenenmodells zeigt im Nullmodell für Mathematik und Deutsch keine relevante Varianz auf der Ebene der Bezugsnormen der Lehrkraft (ICC <.00). Damit zeigen sich auch nur vernachlässigbare Unterschiede im Random-Intercept-Modell sowohl für Deutsch als auch für Mathematik. Insgesamt deuten die Ergebnisse darauf hin, dass es keine signifikanten und relevanten Unterschiede zwischen Noten und gemessenen Kompetenzen in Abhängigkeit von der präferierten Bezugsnorm der notengebenden Lehrkraft gibt. Zur weiteren Absicherung der Ergebnisse wurde unter Kontrolle der kognitiven Fähigkeiten zusätzlich ein Mehrgruppen Bi-Faktormodell geschätzt, welches zu vergleichbaren Ergebnissen kommt.

Keine der formulierten Hypothesen konnte bestätigt werden. Dies deutet darauf hin, dass es im Durchschnitt keine Unterschiede in der Benotung der Lehrkräfte in Abhängigkeit von der präferierten Bezugsnorm und dem Kompetenzniveau der Schüler:innen gibt. Wir konnten jedoch Unterschiede in der Varianz beobachten. In Anknüpfung an diese Befunde werden im Beitrag forschungspraktische und didaktische Implikationen für die Bezugsnormorientierung von Lehrkräften in der schulischen Leistungsbewertung diskutiert.



Paper Session

Untersuchung der Beziehungen zwischen Urteilsakkuratheit, Unterrichtsqualität und Leistung: komplexer als gedacht?

Dimitra Kolovou1, Jan Hochweber1, Anna-Katharina Praetorius2

1Pädagogische Hochschule St. Gallen, Schweiz; 2Universität Zürich, Schweiz

Theoretischer Hintergrund

Die Urteilsakkuratheit von Lehrkräften bezieht sich auf ihre Fähigkeit, Merkmale (z.B. Leistung) ihrer Schüler:innen akkurat einzuschätzen (Schrader & Praetorius, 2018). Da sich Lehrkräfte bei ihren täglichen Unterrichtsentscheidungen auf ihre Urteile der Leistung der Schüler:innen stützen, wird deren Akkuratheit als wichtig für einen qualitativ hochwertigen Unterricht und für die Leistungsentwicklung angesehen (Thiede et al., 2019). Obwohl diese Grundannahme die Forschung zur Urteilsakkuratheit motiviert hat, gibt es nur wenige empirische Belege dafür (Urhahne & Wijnia, 2021).

Bei Betrachtung der wenigen Studien zu den Beziehungen zwischen Urteilsakkuratheit, Unterrichtsqualität und Leistung zeigt sich, dass 1) verschiedene (Sub-)Dimensionen der Unterrichtsqualität ausgewählt wurden, oft ohne Bezug auf Modelle der Unterrichtsqualität, 2) die Beziehungen zwischen den Variablen unterschiedlich modelliert wurden, oft ohne fundierte Argumentationen zum angenommenen Mechanismus. Untersucht werden entweder a) Interaktionseffekte zwischen Urteilsakkuratheit und Unterrichtsqualität auf die Leistung oder b) Mediationseffekte der Urteilsakkuratheit über die Unterrichtsqualität. Die erste Gruppe unterscheidet sich auch darin, welche Variable als Moderator betrachtet wird (d. h. Urteilungsakkuratheit oder Unterrichtsqualität als Moderator). Obwohl dieser Unterschied statistisch unter Verwendung von Interaktionstermen keine Rolle spielt, ist er bezüglich des angenommenen zugrunde liegenden Mechanismus nicht unbedeutsam. Schliesslich bleibt in manchen Studien unklar, ob der untersuchte Mechanismus aus inhaltlichen Gründen oder datengestützt gewählt wurde.

Ziele und Fragestellungen

Ziel unseres Beitrags war es daher, den Forschungsstand etwas systematischer zusammenzufassen, kritisch zu reflektieren und darauf aufbauend die Beziehungen zwischen Urteilsakkuratheit, Unterrichtsqualität und Leistung empirisch zu untersuchen. Dabei stützten wir uns auf das MAIN-Teach-Modell (Charalambous & Praetorius, 2020), um die verschiedenen untersuchten (Sub-)Dimensionen der Unterrichtsqualität zu strukturieren und über ihre Rolle bei der Modellierung der Beziehungen zu reflektieren. Zusammengefasst wurden Ergebnisse aus Studien zu Interaktionseffekten, Mediationseffekten und Zusammenhängen zwischen Urteilsakkuratheit und Unterrichtsqualität nach folgenden Aspekten: untersuchter Mechanismus, untersuchte (Sub-)Dimension der Unterrichtsqualität, Fach, Klasse, signifikante Ergebnisse. Für unsere empirische Studie haben wir auf der Grundlage der Ergebnisse der Literaturübersicht, theoretischer Überlegungen anhand von Angebots-Nutzungs-Modellen, in der Studie verfügbaren Skalen zur Unterrichtsqualität sowie statistischer Überlegungen für die Untersuchung von Mediationseffekte entschieden und folgende Fragestellung untersucht: Inwiefern werden die Effekte der Urteilsakkuratheit auf die Leistung im Fach Deutsch durch die Unterrichtsqualität mediiert?

Methode

Analysiert wurden Daten von 35 Deutschlehrkräfte und 646 Sekundarschüler:innen aus der deutschsprachigen Schweiz. Die Urteilsakkuaratheit wurde mit zwei Indikatoren auf Schüler:innen- und Klassenebene erfasst. Die abhängige Variable war die Deutschleistung der Schüler:innen am Ende der 9. Klasse unter Kontrolle der Leistung zu Beginn der 7. Klasse. Mehrere Aspekte von Unterrichtsqualitätsdimensionen, die nach dem MAIN-Teach-Modell in direktem Zusammenhang mit dem Lernen der Schüler:innen stehen (individuelle Unterstützung, Verständlichkeit und Klarheit, kognitive Aktivierung und Konsolidierung), wurden erfasst und auf ihre mediierende Rolle hin untersucht. Die Daten wurden im Längsschnitt mit Mehrebenen-Regressionsmodellen unter Verwendung von Korrekturmethoden für kleine Stichproben analysiert.

Ergebnisse und Bedeutung

Gemäß unserer Literaturübersicht zeigte sich die empirische Evidenz wenig schlüssig; statistisch signifikante Ergebnisse zeigten sich für Interaktions- als auch für Mediationseffekte, wobei die Urteilsakkuratheit mit denjenigen Dimensionen in Verbindung stand, die nach dem MAIN-Teach-Modell direkt auf die Unterstützung des Lernens der Schüler:innen ausgerichtet sind (z.B. Kognitive Aktivierung).

In der empirischen Studie konnten wir keine Mediationseffekte finden. Unsere Ergebnisse zeigen jedoch, dass akkurat eingeschätzte Schüler:innen am Ende der 9. Klasse bessere Leistungen zeigten und den Unterricht positiver wahrnahmen als unterschätzte Schüler:innen, wenn es um Möglichkeiten und ausreichende Zeit zum Üben der angestrebten Kenntnisse/Fertigkeiten ging. Darüber hinaus weisen die Ergebnisse unserer Studie in Verbindung mit unserer Literaturübersicht auf den Bedarf an theoretischen Modellen hin, die sich mit den möglichen Wirkmechanismen zwischen den interessierenden Variablen befassen. Die Beziehungen zwischen Urteilsakkuratheit, Unterrichtsqualität und Leistung sind möglicherweise komplexer als bisher angenommen und lassen sich vielleicht besser durch Modelle erklären, die sowohl Mediation als auch Moderation auf der Grundlage fundierter Überlegungen kombinieren.



Paper Session

Worauf achten Mathematiklehrkräfte bei der Diagnose von Schülerlösungen? Eine Analyse der Blickbewegungen

Christian Schons, Anselm Strohmaier, Alina Kadluba, Andreas Obersteiner

Technische Universität München, Deutschland

Theoretischer Hintergrund

Das Diagnostizieren des Lernstandes von Schülerinnen und Schülern gehört zu den Kernfacetten professioneller Lehrkräftekompetenz (KMK, 2004). Dabei umfasst Diagnosekompetenz individuelle Dispositionen (z.B. Professionswissen), situationsspezifische Prozesse und Diagnoseakkuratheit (Blömeke et al., 2015). Während sich viele Studien auf Diagnoseakkuratheit fokussierten (Urhahne & Wijnia, 2021), ist auch ein tieferes Verständnis des Diagnoseprozesses notwendig (Heitzmann et al., 2019). Bisherige Studien untersuchten den Diagnoseprozess vorwiegend beim Beurteilen von Aufgabenschwierigkeiten (z.B. Rieu et al., 2022; Schreiter et al., 2022). Aus fachdidaktischer Perspektive ist neben der Diagnose von Aufgabenschwierigkeiten auch die Diagnose von Schülerlösungen interessant, da diese eine Grundlage für eine adaptive und individuelle Förderung bietet (Hardy et al., 2019).

Diagnoseprozesse wurden bei Medizinern vielfach untersucht, insbesondere durch Analyse der Blickbewegungen (Al-Moteri et al., 2017). Es zeigten sich schon in der ersten Phase des Diagnoseprozesses Unterschiede in der Diagnosekompetenz: Während Experten diagnostische Items global betrachten, indem sie in der ersten Phase die relevanten Merkmale nur identifizieren (ohne sie intensiver zu verarbeiten), beginnen Novizen direkt nach Identifikation erster relevanter Merkmale mit deren intensiver Verarbeitung (Kundel et al., 2008).

Bei Mathematiklehrkräften wurde der Diagnoseprozess bisher noch nicht aus dieser Perspektive erforscht und verstanden. Insbesondere ist unklar, ob Mathematiklehrkräfte 1) vor allem auf fehlerhafte Schülerlösungen fokussieren oder auch auf diagnostische Aufgaben in korrekten Schülerlösungen achten (die auch diagnoserelevant sind) und ob sie 2) während der Diagnose von Schülerlösungen zunächst global vorgehen oder schon in der ersten Phase mit der intensiveren Verarbeitung diagnostischer Aufgaben beginnen.

Diese Studie untersucht daher die Frage, wie intensiv und wie lange angehende Mathematiklehrkräfte diagnostische und nicht diagnostische Aufgaben in korrekten und fehlerhaften Schülerlösungen während der ersten Phase des Diagnoseprozesses verarbeiten.

Methode

An der Studie nahmen 33 Lehramtsstudierende in Mathematik teil (Semesteranzahl M = 2.7, Alter M = 25.0, 42.4% weiblich). Die Teilnehmenden sollten systematische Fehler in zwölf Items mit Schülerlösungen zur Bruchrechnung diagnostizieren (6 korrekt, 6 fehlerhaft) an einem Eye Tracker (Tobii Pro Spectrum). In jedem Item waren die Schülerlösungen zu vier Bruchrechenaufgaben gleichen Typs dargestellt, von denen jeweils zwei Aufgaben diagnostisches Potential (Hammer et al., 2023) besaßen und damit relevant für die Diagnose waren (diagnostische Aufgaben), während zwei Aufgaben kein diagnostisches Potential besaßen.

Zur Analyse der Blickbewegungen wurden Areas of Interests (AOIs) für die vier Aufgaben definiert. Untersucht wurde der Diagnoseprozess bis zum Zeitpunkt, an dem der Blick auf allen vier AOIs verweilte und sie wieder verließ. Als Blickbewegungsparameter wurden für jede AOI die mittlere Fixationsdauer und die Gesamtfixationsdauer als Indikatoren dafür verwendet, wie intensiv und wie lange die Schülerlösungen verarbeitet wurden.

Ergebnisse

Es wurden lineare Mischmodelle für die beiden Blickbewegungsparameter mit den Faktoren Fehler (ja/ nein) sowie diagnostische Aufgabe (ja/ nein) als feste Effekte sowie Teilnehmende und Item als Zufallseffekte berechnet.

Für die mittlere Fixationsdauer zeigte sich ein Haupteffekt von diagnostische Aufgabe: In diagnostischen Aufgaben war die mittlere Fixationsdauer höher als in nicht diagnostischen Aufgaben (β = .23, p < .01). Es zeigte sich auch ein Interaktionseffekt (β = 0.37, p < .001): Bei diagnostischen Aufgaben in fehlerhaften Items war die mittlere Fixationsdauer höher als bei diagnostischen Aufgaben in korrekten Items. Für die Gesamtfixationsdauer zeigte sich ebenfalls ein Interaktionseffekt (β = 0.88, p < .001): In den fehlerhaften Items wurden diagnostische Aufgaben länger fixiert als in korrekten Items.

Diskussion

Die Ergebnisse zeigen, dass die Teilnehmenden diagnostische Aufgaben sowohl in korrekten Schülerlösungen als auch in fehlerhaften Schülerlösungen in der ersten Phase des Diagnoseprozesses intensiver verarbeiteten als nicht diagnostische Aufgaben und folglich identifizierten. Außerdem verarbeiteten sie fehlerhafte diagnostische Aufgaben länger und intensiver, was nicht auf ein globales Vorgehen hindeutet, wie man es von Experten kennt (Al-Moteri et al., 2017). Diese Studie zeigt das Potential von Blickbewegungen zur Erforschung des Diagnoseprozesses von Mathematiklehrkräften.



 
Contact and Legal Notice · Contact Address:
Privacy Statement · Conference: GEBF 2024
Conference Software: ConfTool Pro 2.8.105
© 2001–2025 by Dr. H. Weinreich, Hamburg, Germany