Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
Sitzungsübersicht
Sitzung
D9–S13: Beurteilung von Schülerleistung
Zeit:
Donnerstag, 26.03.2020:
9:00 - 10:45

Ort: S13

Präsentationen

Explizite und implizite Kriterien bei der Beurteilung einer ungewöhnlichen Schülerlösung

Christin Laschke, Bettina Rösken-Winter, Sven Schüler

Humboldt- Universität Berlin, Deutschland

Einleitung und theoretischer Hintergrund

Die Beurteilung von Schüler*innenprodukten durch Lehrkräfte ist eine wichtige Grundlage für Unterrichtsplanung, Leistungsfeststellung und letztlich Übergangsentscheidungen. Damit beeinflussen Beurteilungen Bildungskarrieren von Schüler*innen entscheidend und sollten objektiv, reliabel und valide sein.

Zukünftige Lehrkräfte zu befähigen, normative und objektive Beurteilungskriterien anzuwenden, ist ein wichtiger Aspekt im Lehramtsstudium. Dazu werden, fachliche und fachdidaktische Aspekte integrierend, Schüler*innenprodukte anhand von aufgabenspezifischen (konzeptuelle, prozessbezogene) als auch aufgabenunspezifischen (kompetenzorientierte, pädagogisch orientierte) Kriterien beurteilt, die sich durch Bildungsstandards legitimieren. Die Anwendung objektiver Beurteilungskriterien wird jedoch zur Herausforderung, wenn Lehrkräfte mit unerwarteten Situationen konfrontiert werden, die dazu führen, dass unbewusst auf implizite Persönlichkeitstheorien zurückgegriffen wird (Borko, Roberts & Shavelson, 2008).

Dahingehende Befunde zeigen, dass Beurteilungen von Lehrkräften durch implizite Kriterien beeinträchtigt sind, z. B. begründet durch Stereotype hinsichtlich sozialer oder ethnischer Herkunft, auf welche Lehrkräfte (Valdez, 2013; Holder & Kessels, 2017) und auch bereits angehende Lehrkräfte (Sprietsma, 2013) rekurrieren. Trotz einer Vielzahl empirischer Studien zur Kompetenz und speziell auch zu diagnostischer Kompetenz von Lehrkräften gibt es keine konsistente evidenzbasierte Theorie dazu, wie sich Beurteilungen durch Lehrkräfte begründen (Leuders, Dörfler, Leuders & Philipp, 2018).

Ziel und Fragestellungen

Mit der Studie wird untersucht, welche expliziten Kriterien angehende Primarlehrkräfte anwenden und ob implizite Beurteilungskriterien eine Rolle spielen. Dazu wurde eine ungewöhnliche Lösung zu einer Aufgabe aus dem Themenbereich Wahrscheinlichkeiten, kombiniert mit Vornamen, die entweder einen hohen bzw. niedrigen sozialen Status der Eltern oder einen türkischen bzw. vietnamesischen Migrationshintergrund implizieren, von angehenden Primarlehrkräften beurteilt.

Der Studie liegen die folgenden Fragestellungen zu Grunde:

  1. Auf welche expliziten Beurteilungskriterien greifen angehende Primarlehrkräfte zurück, wenn sie eine ungewöhnliche Schülerlösung beurteilen?
  2. Spielen implizite Beurteilungskriterien eine Rolle, wenn die ungewöhnliche Schülerlösung mit Vornamen, die einen hohen bzw. niedrigen sozialen Status oder türkischen bzw. vietnamesischen Migrationshintergrund implizieren, kombiniert wird?

Methodik

Die Studie wurde mit einer Gelegenheitsstichprobe von 112 angehenden Primarlehrkräften am Ende einer Vorlesung zum Thema Stochastik im 4. Bachelorsemester an der Humboldt-Universität zu Berlin durchgeführt. Die Studierenden wurden gebeten eine Aufgabe aus dem Bereich Wahrscheinlichkeit zu lösen und anschließend eine ungewöhnliche Schülerlösung dieser Aufgabe zu beurteilen sowie ihr Urteil zu begründen.

Eine Kombination aus induktivem und deduktivem Vorgehen wurde für die Beantwortung der ersten Fragestellung genutzt. Ausgehend von einer Auswahl an Begründungen wurden Kategorien identifiziert, anhand derer das gesamte Datenmaterial von zwei Forschenden (mit zufriedenstellender Intercoderübereinstimmung) kodiert wurde. Die zweite Fragestellung wurde untersucht, indem auf Unterschiede in den Beurteilungen zwischen den Gruppen mit unterschiedlichen Vornamen mittels Chi-Quadrat getestet wurde. Darüber hinaus wurden Logit-Loglinearanalysen durchgeführt, um den Effekt der Vornamen auf die Beurteilung - bei Kontrolle der Fähigkeit der Studierenden, die Aufgabe selbst lösen zu können - zu bestimmen.

Ergebnisse und Diskussion

Die angehenden Lehrkräfte verweisen in den Begründungen ihrer Beurteilung auf konzeptuelle Aspekte (43 %) wie die korrekte Erfassung des mathematischen Problems und die Entwicklung einer cleveren Lösungsstrategie und/oder auf prozedurale Aspekte (35 %), wie die (in-)korrekte Anwendung von Rechenwegen. Darüber hinaus wurde strukturbezogen argumentiert (15 % der Begründungen), würdigend, dass Grafik, Lösungsweg und Antwortsatz vorhanden sind sowie pädagogisch (7 %) mit Fokus auf die Anstrengungsbereitschaft.

Lösungen kombiniert mit einem Vornamen, der einen niedrigen sozialen Status impliziert, wurden schlechter bewertet als Lösungen kombiniert mit einem Vornamen, der einen hohen sozialen Status impliziert und auch als jene, die mit einem vietnamesischen Vornamen kombiniert wurden. Weitere Unterschiede nach ethnischer Herkunft zeigten sich nicht. Die Ergebnisse der Logit-Loglinareanalyse bestätigen die Ergebnisse der bivariaten Analysen.

Die angehenden Lehrkräfte nutzen also explizite, durch Bildungsstandards legitimierte, Beurteilungskriterien. Dennoch sprechen die Ergebnisse dafür, dass Beurteilungen beeinträchtigt werden von impliziten Kriterien, resultierend aus Stereotypen bezogen auf die soziale Herkunft. Im Rahmen des Studiums sollten angehende Lehrkräfte demzufolge sowohl für die Vielfalt von Lösungswegen als auch für die Existenz impliziter Beurteilungskriterien sensibilisiert werden.



Wissen, worauf es ankommt – Genügt Lehramtsstudierenden ein kurzer Einführungstext für eine kompetentere Analyse von Videobeispielen?

Monika Martin1, Meg Farrell2, Andreas Hetmanek2, Werner Rieß3, Tina Seidel2, Alexander Renkl1

1Albert-Ludwigs-Universität Freiburg, Deutschland; 2TUM School of Education, München; 3Pädagogische Hochschule Freiburg

Im Rahmen der Lehrkräfteausbildung werden zunehmend Videos von Unterrichtssituationen eingesetzt, um die professionelle Unterrichtsbeobachtung (Professional Vision; van Es & Sherin, 2002) zu schulen und so die Anwendung von theoretischem Wissen über Lehren und Lernen in einem praktischen Kontext zu erleichtern (Gaudin & Chalies, 2015). Allerdings ist der Einsatz solcher Videos nicht an sich effektiv. Entscheidend für den Lernerfolg ist die Einbettung der Videos in eine geeignete Lernumgebung (Seidel, Blomberg & Renkl, 2013; Blomberg, Renkl, Sherin, Borko & Seidel, 2013).

Die vorliegende Studie ist Teil des TEVI-Projekts („Teacher Education Video Improvement“), dessen Ziel es ist, evidenzbasierte Empfehlungen für den Einsatz von Videos zur Förderung der professionellen Unterrichtswahrnehmung zu geben. In dieser Studie wollten wir untersuchen, ob bereits ein kurzer thematischer Einführungstext Lehramtsstudierende dabei unterstützen kann, in einem Videobeispiel relevante Inhalte zu erkennen und zu erklären und ferner, ob solch ein Einführungstext sich positiv auf das Interesse und die kognitive Belastung auswirkt. Die Untersuchung wurde als 90-minütige Seminarsitzung konzipiert, in der Studierende in einer computergestützten Lernumgebung zunächst mithilfe eines Einführungstextes neues pädagogisch-psychologisches oder fachdidaktisches Wissen über die Lehr-Lernform Tutoring (hier: eine Lehrkraft betreut eine kleine Gruppe SchülerInnen) erwerben und dieses dann praktisch bei der Analyse von zwei Videobeispielen anwenden.

Insgesamt nahmen 87 Biologie-Lehramtsstudierende an der Untersuchung im Rahmen einer Sitzung eines Seminars zur Humanbiologie teil, in welchem fachwissenschaftliche sowie fachdidaktische Inhalte gelehrt wurden. Den Studierenden wurde zunächst zufällig eine von drei Versionen des Einführungstextes präsentiert (je ca. 1000 Wörter): In zwei Versionen wurden jeweils typische Verhaltensweisen einer Lehrkraft, die einem schülerzentrierten Tutoringstil entsprechen, solchen Verhaltensweisen gegenübergestellt, die man als wenig schülerzentriert bezeichnen würde. Ein Text fokussierte dabei fachübergreifende, generische pädagogisch-psychologische Aspekte (z.B. Gruppenmobilisierung); der andere Text erläuterte fachdidaktische Aspekte, insbesondere typische Alltagsvorstellungen von Schülerinnen und Schülern zum Thema Herz-Kreislauf-System und deren Adressierung. In einer Kontrollbedingung beinhaltete eine dritte Version des Einführungstextes allgemeine Hinweise zum Vorgehen bei der Analyse von Unterrichtsvideos sowie typische Beobachtungsfehler (z.B. voreilige Bewertung). Die anschließend präsentierten zwei Videobeispiele zeigten jeweils ca. 8-minütige Ausschnitte aus einer Tutoring-Sitzung mit vier SchülerInnen und einer Lehrkraft zur Einführung des Themas Herz-Kreislauf-System, in denen die Lehrkraft verschiedene mehr oder weniger schülerzentrierte Verhaltensweisen zeigte. Die Studierenden sahen die Videos jeweils einmal und hatten keine Möglichkeit, zu pausieren oder vor- und zurückzuspringen. Zudem konnten sie im Video Sequenzen markieren und anschließend kommentieren, warum ihnen diese Sequenzen relevant für den Lehr-Lernprozess zu sein schienen. Im Anschluss an jedes Video bewerteten sie die gesamte dargestellte Lernsituation auf Ratingskalen (angelehnt an das Projekt Observe; Seidel, Blomberg & Stürmer, 2010). Außerdem beantworteten die Studierenden während und nach der Bearbeitung der Videoaufgabe Fragebögen zu erlebter kognitiver Belastung und Situativem Interesse.

Die Studierenden in den Experimentalbedingungen, die eine der beiden inhaltlichen Versionen des Einführungstextes (entweder fachdidaktischer oder allgemein pädagogisch-psychologischer Fokus) gelesen hatten, berichteten signifikant höheres Situatives Interesse nach der Bearbeitung der Videobeispiele als diejenigen in der Kontrollbedingung, deren Einführungstext weniger konkrete Inhalte, sondern allgemein das professionelle Beobachten von Unterrichtsvideos thematisierte, η2 = .07. Außerdem erlebten sie eine höhere lernbezogene, also „produktive“ Belastung (Germane Cognitive Load; Sweller, van Merrienboer & Paas, 1998), η2 = .05 bei gleichzeitig geringerer „unproduktiver“ Belastung (Extraneous Cognitive Load), η2 = .04. Die Studierenden in den Experimentalbedingungen bewerteten die Videobeispiele auf den Ratingskalen treffender (Vergleich mit Expertenurteil), η2 = .05. Die Analyse der Kommentare zu den markierten Videosequenzen wird bis zur Tagung abgeschlossen sein. Die beiden Experimentalgruppen unterschieden sich insgesamt gesehen kaum, es zeigten sich jedoch teils deskriptive Vorteile der Bedingung mit dem fachdidaktischen Text. Die vorliegenden Ergebnisse deuten darauf hin, dass bereits kurze Einführungstexte über pädagogisch-psychologische oder fachdidaktische Aspekte des Tutoring den Blick „schärfen“ und die Lehramtsstudierenden dabei unterstützen können, relevante Ereignisse zu erkennen und fundiert zu beurteilen.



KI im Fach Geschichte – Wie künstliche Intelligenz bei der inhaltlichen und sprachlichen Beurteilung von Schülerantworten genutzt werden kann.

Christiane Bertram1, Ramon Ziai2, Zarah Weiss2, Lisa Henke2

1Universität Konstanz, Deutschland; 2Universität Tübingen, Deutschland

Historisches Denken ist mehr als eine Ansammlung chronologisch erzählter Daten und Fakten. Stattdessen sollen Schüler*innen im Geschichtsunterricht lernen, mit vorgegebenen Narrativen (z.B. in Schulbüchern) kritisch umzugehen (De-Konstruktion), sowie auf Fragen an die Vergangenheit quellen- und evidenzbasierte Antworten zu geben (Re-Konstruktion). Historisches Denken ist also untrennbar mit der Sprache verbunden. Zur Vermeidung einer construct underrepresentation (Messick, 1995) werden die Kompetenzen historischen Denkens daher häufig in offenen Aufgabenformaten erfasst (Barricelli, 2005; Handro & Schönemann, 2010; Hartung, 2013; Hodel et al., 2013; Mierwald & Brauch, 2015; Nitsche & Waldis, 2016; Smith, Breakstone & Wineburg, 2018; VanSledright, 2014). Um eine objektive, reliable und valide Beurteilung der Texte sicherzustellen, sollten diese von mindestens zwei Personen bewertet werden, ein Verfahren, das in groß angelegten Studien mit einem hohen Ressourcenaufwand verbunden ist.

In einem interdisziplinären Projekt von Geschichtsdidaktik, Computerlinguistik und Empirischer Bildungsforschung gingen wir deshalb der Frage nach, ob und wie künstliche Intelligenz in Form computerlinguistischer Methoden für die Auswertung von Schülerantworten im Fach Geschichte genutzt werden kann. Da mit Hilfe der computerlinguistischen Ansätze Automatic Content Assessment und Linguistic Complexity Assessment die inhaltliche Richtigkeit respektive die sprachliche Komplexität von Texten automatisiert bewertet werden kann, adressierten wir folgende Forschungsfragen:

(1) Kann mit Hilfe von Automatic Content Assessment die Richtigkeit von Schülerantworten automatisiert beurteilt werden?

(2) Kann mit Hilfe von Linguistic Complexity Assessment die sprachliche Komplexität der Schülerantwort, die der inhaltlichen Komplexität der Aufgabe entsprechen sollte, automatisiert beurteilt werden?

Die Studie nutzt die Daten einer Interventionsstudie (N = 962) im Geschichtsunterricht, in der Schüler*innen im Post-Test basierend auf drei historischen Dokumenten sieben offene Aufgaben bearbeiteten, die sich hinsichtlich ihrer Komplexität und des damit verbundenen inhaltlichen und sprachlichen Anspruchs substanziell voneinander unterschieden. Der verwendete Datensatz besteht aus N = 141 randomisiert ausgewählten Schülerantworten auf sieben Fragen, die von zwei Ratern beurteilt wurden. Die Interrater-Reliabilität war mit Werten von 0.75 < κ < 0.96 (Weighted Cohen’s Kappa) zufriedenstellend bis sehr gut.

Für die verwendeten computerlinguistischen Methoden gilt, dass ein Text anhand vordefinierter sprachlicher Merkmale quantifiziert wird, indem die Ausprägung dieser Merkmale in Zahlen übertragen wird. Diese werden in eine mathematische Relation zur menschlichen Bewertung gestellt, die als Gold Standard dient. Die so erlernte Relation erlaubt es, neue Texte automatisch auf Basis ihres Merkmalsvektors zu bewerten. Ob die automatisierte Vorhersage zutrifft, wird überprüft, indem die von Menschen annotierten Texte in Trainings- und Testdaten geteilt werden. Mit den Trainingsdaten lernt der Algorithmus die jeweils richtigen Muster, auf den Testdaten wird die Bewertung der Antworten automatisiert vorhergesagt und mit dem manuellen Rating verglichen.

Die Content Analysen wurde mit dem CoMiC-System (Comparing Meaning in Context, Meurers et al., 2011) berechnet. In den Aufgaben 1 und 5 stimmte der Computer mit beiden manuellen Ratings in einem fast perfekten Range (κ ≥.8) überein. Auch in den Aufgaben 6 und 7, in denen eigene Überlegungen angestellt und Schlussfolgerungen gezogen werden mussten, war die Übereinstimmung zwischen dem Computer und den Ratern substanziell hoch (A6: Interrater-Reliabilität: 0.83; CoMiC und Rater 1: 0.63; CoMiC und Rater 2: 0.68 / A7: Interrater-Reliabilität 0.88, CoMiC und Rater 1: 0.79; CoMiC und Rater 2: 0.66).

In den Komplexitätsanalysen wurde ein System mit 295 linguistische Merkmalen verwendet (Weiss & Meurers, 2018; Kühberger et al., 2019). Die automatisierte Vorhersage der Komplexität der Aufgabe durch die beobachtete sprachliche Komplexität der Schülerantwort entsprach der manuellen Klassifikation der Aufgabenkomplexität deutlich häufiger, als zufällig zu erwarten wäre: Mit 85,37% stimmte der Algorithmus mit der manuellen Klassifikation überein (34,12% wären zufällig richtig gewesen). Dabei spiegelten die zum Einsatz kommenden sprachlichen Merkmale die Komplexität der Aufgabe weitgehend wider.

Anhand der ermutigenden Ergebnisse werden die Potenziale und Grenzen der computerlinguistischen Methoden für die empirische Forschung in der Geschichtsdidaktik diskutiert.



Die Leistungserwartung von Grundschullehrkräften: Ihr komplexer Wirkungszusammenhang mit der Schülerinnen- und Schülerleistung im Fach Mathematik

Lena Hollenstein

Pädagogische Hochschule St.Gallen, Schweiz

Zum Erwartungseffekt im Klassenzimmer zeigt die empirische Forschung eine lange Forschungstradition (Rosenthal & Jacobson, 1968). Seit der ersten Experimentalstudie «Pygmalion in the classroom» von Rosenthal und Jacobson (1968) konnten beispielsweise mehrere Studien einen Erwartungseffekt im Klassenzimmer nachweisen (vgl. Rosenthal & Rubin, 1978; Jussim & Harber, 2005; Good, Sterzinger & Lavigne, 2018; Lorenz, 2018; Wang, Rubie-Davies & Meissel, 2018). In diesem Zusammenhang legen Forschungsbefunde dar, dass zukünftige Leistungen von Schülerinnen und Schülern durch Leistungserwartungen, die Lehrkräfte über ihre Schülerinnen und Schüler haben, beeinflusst werden können. Dabei wird von folgendem Wirkungszusammenhang ausgegangen: (1) Die Leistungserwartung von Lehrkräften beeinflusst ihr Handeln im Unterricht (z. B. die kognitive Aktivierung). (2) Das unterschiedliche Verhalten von Lehrpersonen im Unterricht fällt Schülerinnen und Schülern auf und sie interpretieren es (schülerinnen- und schülerperzipierte Leistungserwartung). (3) Die schülerinnen- und schülerperzipierte Leistungserwartung beeinflusst ihr Selbstkonzept und (4) letzteres hängt mit ihrer schulischen Leistung zusammen (Brophy & Good, 1970; West & Anderson, 1976; Brophy, 1983; Ludwig, 1991; McKown & Weinstein, 2008; Dubs, 2009). Zahlreiche Studien haben einzelne Zusammenhänge dieses komplexen Wirkungszusammenhangs untersucht, wie beispielsweise jenen zwischen der Leistungserwartung von Lehrkräften und ihrem Verhalten gegenüber den Schülerinnen und Schülern im Unterricht (Brophy & Good, 1970; Weinstein, 2002). Weitere Studien wurden zur schülerinnen- und schülerperzipierte Leistungserwartung als Mediator zwischen der Leistungserwartung von Lehrkräften und dem Selbstkonzept oder der Leistung von Schülerinnen und Schülern durchgeführt (Gill & Reynolds, 1999; Zhu, Urhahne & Rubie-Davies, 2018). Wenige Studien haben das Selbstkonzept als Mediator zwischen der Leistungserwartung von Lehrkräften und der Leistung von Schülerinnen und Schülern betrachtet (Friedrich, Flunger, Nagengast, Jonkmann & Trautwein, 2015). Es fehlen allerdings Studien, die den komplexen Wirkungszusammenhang im Gesamten untersuchen (Wang et al., 2018).

Der vorliegende Beitrag soll einen Versuch darstellen, diesen komplexen Wirkungszusammenhang empirisch zu prüfen. Dabei besteht nicht nur die Herausforderung, alle Komponenten des Wirkungszusammenhangs abzubilden, sondern auch den Erwartungseffekt beim Individuum getrennt von anderen (äusseren) Einflussfaktoren herauszukristallisieren (Good & Nichols, 2001).

Stellen die schülerinnen- und schülerperzipierte kognitive Aktivierung und die schülerinnen- und schülerperzipierte Leistungserwartung sowie ihr Selbstkonzept Mediatoren zwischen der Leistungserwartung von Lehrkräften und der Mathematikleistung von Schülerinnen und Schülern dar?

Die Analysen zur Beantwortung der Forschungsfrage basieren auf Daten, die im Rahmen einer vom Schweizer Nationalfonds unterstützen Längsschnittstudie WiL («Wirkungen der Lehrerausbildung auf professionelle Kompetenzen, Unterricht und Schülerleistung») erhoben wurden und stützen sich auf eine Stichprobe von 509 Schülerinnen und Schülern in 28 Grundschulklassen. Die Leistungserwartung von Lehrpersonen wurde über eine Punkteinschätzung der Lehrpersonen erfasst und mit Hilfe des Residuenansatzes von Madon, Jussim und Eccles (1997) gebildet. Die schülerinnen- und schülerperzipierte kognitive Aktivierung und Leistungserwartung sowie ihr Selbstkonzept wurde über einen Schülerinnen- und Schülerfragebogen und die Schülerinnen- und Schülerleistungen über einen standardisierten Mathematiktest erfasst. Die Analysen werden unter Kontrolle von folgenden Variablen durchgeführt: Alter, Geschlecht, soziale Herkunft, Vortestleistung von Schülerinnen und Schülern sowie Leistungserwartung ihrer Eltern.

Die Ergebnisse des spezifizierten Strukturgleichungsmodells zeigen zwar einen zufriedenstellenden Modell-Fit (RMSEA = .039, p = .657; CFI = .995; TLI = .975; SRMR = .019), können den komplexen angenommenen Wirkungszusammenhang allerdings nur teilweise bestätigen. Es zeigen sich zwar signifikante Zusammenhänge zwischen allen Komponenten des Wirkungszusammenhangs (Leistungserwartung von Lehrpersonen, schülerinnen- und schülerperzipierten kognitive Aktivierung, schülerinnen- und schülerperzipierten Leistungserwartung, Selbstkonzept und Leistung), allerdings wird zwischen der Leistungserwartung von Lehrpersonen und der schülerinnen- und schülerperzipierten Leistungserwartung ein signifikant negativer Zusammenhang deutlich. Die schülerinnen- und schülerperzipierte kognitive Aktivierung sowie ihre wahrgenommene Leistungserwartung stellen sich als eine Schlüsselstelle in diesem Wirkungszusammenhang heraus. Die Ergebnisse werden in Hinblick auf die Bedeutung für die Gestaltung von Bildungsangeboten für die individuellen Schülerinnen und Schüler diskutiert.