Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Ort: S13
Datum: Mittwoch, 25.03.2020
11:15 - 13:00M11–S13: Planungskompetenz
S13 
 

Lehre von heute für die Lehrkräfte von morgen. Die Förderung der Differenzierungsfähigkeit durch digitalisierte, heterogenitätssensible Lernangebote im Lehramtsstudium

Franziska Greiner, Nicole Kämpfe, Julia Dietrich, Dorit Weber-Liel, Bärbel Kracke

Friedrich-Schiller-Universität Jena, Deutschland

Universitäre Lehrveranstaltungen, vor allem Vorlesungen, sind meist im „One-size-fits-all“-Prinzip gestaltet. Die individuellen Lernvoraussetzungen der heterogenen Studierendenschaft bleiben dabei unberücksichtigt (Wild & Esdar, 2014), was sowohl die Lernprozesse als auch die Lernergebnisse beeinträchtigen kann. Aus dem Bestreben, eine bessere Passung von Lernangebot und Lernvoraussetzungen zu erreichen, ergibt sich ein großer Bedarf an konkreten Tools für eine heterogenitätssensible Hochschullehre. Dieser Bedarf steht aber einem Mangel an evidenzorientierten Konzepten gegenüber (ebd.), der umso schwerer wiegt, da angehende Lehrkräfte im Studium (erste) Kompetenzen für den professionellen Umgang mit Heterogenität der Schülerinnen und Schüler erwerben sollen (HRK & KMK, 2015). In ihrer zukünftigen Berufspraxis sind sie selbst in der Verantwortung, Lernangebote umzusetzen, die eine bessere Passung mit den individuellen Lernvoraussetzungen, bspw. durch Binnendifferenzierung, ermöglichen (Klafki & Stöcker, 1976). Obwohl Lehramtsstudierende dieser Aufgabe tendenziell positiv gegenüberstehen (Bosse & Spörer, 2014; Hellmich, Görel & Schwab, 2016), wird in der Schulpraxis selten binnendifferenzierter Unterricht umgesetzt (Helmke & Jäger, 2002; Kunze & Solzbacher, 2008). Überdies gibt es kaum empirische Befunde zur tatsächlichen Differenzierungsfähigkeit von (angehenden) Lehrkräften.

Eine Möglichkeit, den Studierenden in Form eines „pädagogischen Doppeldeckers“ (Wahl, 2002) binnendifferenzierte Lernangebote erfahrbar zu machen, stellt der Einsatz Digitaler Differenzierungsmatrizen (DiffM) dar (Greiner et al., 2019). Mit einer DiffM können die Lehramtsstudierenden an der FSU Jena ihr pädagogisch-psychologisches Fach-, Anwendungs- und Reflexionswissen selbstgesteuert und individualisiert aktivieren und vertiefen (Greiner & Kracke, 2018). Der Einsatz dieses hochschuldidaktischen Konzepts wurde von folgenden Forschungsfragen flankiert:

Wie gut können Lehramtsstudierende Aufgabenniveaus differenzieren?

In welchem Zusammenhang

  • stehen die Nutzung eines heterogenitätssensiblen Lernangebots (DiffM) mit der Fähigkeit zur Aufgabendifferenzierung,
  • mit der Fähigkeit pädagogisch-psychologisches Wissen fallspezifisch anzuwenden,
  • mit der Bereitschaft zum Einsatz binnendifferenzierter Lernangebote im zukünftigen Unterricht?

Der Einsatz der DiffM wurde im Sommersemester 2019 in einem quasi-experimentellen Längsschnitt evaluiert. Insgesamt wurden die Daten von 128 Studierenden des 4./5. Fachsemesters zu drei Messzeitpunkten (46.9 % weiblich, 23.4 Jahre) mit einer Kontrollgruppe (n = 45) und einer Interventionsgruppe, die das Lernangebot DiffM erhielten (davon 50 compliers, die die DiffM genutzt haben und 33 non-compliers, die die DiffM nicht bearbeitet haben), erfasst. Erhoben wurden a) die Fähigkeit, Anforderungsniveaus von Aufgaben differenzieren zu können, b) die Bereitschaft, eine DiffM im eigenen Unterricht einzusetzen und c) die Fähigkeit, pädagogisch-psychologisches Wissen fallspezifisch anwenden zu können.

Die Fähigkeit, Anforderungsniveaus differenzieren zu können, wurde gemessen, indem die Studierenden 15 Testaufgaben den drei Anforderungsniveaus Reproduktion, Transfer oder Reflexion zuordneten. Die Bereitschaft, eine DiffM im eigenen Unterricht einzusetzen, wurde mit einem Selbstberichtsmaß erfasst (4 Items, α = .80, fünfstufige Likert-Skala von „trifft nicht zu“ bis „trifft völlig zu“, Beispielitem: „Der Aufwand, eine Differenzierungsmatrix zu erstellen, ist mir zu groß.“). Die Fähigkeit, pädagogisch-psychologisches Wissen fallspezifisch anwenden zu können, wurde über die Seminarleistung, die eine theoretisch fundierte Fallanalyse umfasst, gemessen.

Erste deskriptive Analysen zeigen, dass die Lehramtsstudierenden im Mittel 10.95 (SD = 2.00) Aufgaben richtig zuordneten. Sowohl Kontrollgruppe als auch Interventionsgruppe konnten demnach gut zwischen den drei Anforderungsniveaus differenzieren. Studierende (der Interventionsgruppe), die mehr Aufgaben in der DiffM bearbeiteten, differenzierten besser zwischen den Anforderungsniveaus (r = .33*). Studierende, die die Anforderungsniveaus besser differenzierten, waren eher bereit, eine DiffM im eigenen Unterricht einzusetzen (r = .48**). In aktuellen Analysen werden u. a. die Kontrollgruppe, die Gruppe der non-compliers und der compliers miteinander verglichen, um die komplexen Zusammenhänge zwischen der Fähigkeit der Aufgabendifferenzierung, der Bereitschaft zum DiffM-Einsatz und der Fähigkeit, pädagogisch-psychologisches Wissen fallspezifisch anwenden zu können, zu untersuchen.

Die Ergebnisse werden vor dem Hintergrund der Herausforderungen in der Lehrkräfteprofessionalisierung sowie der Digitalisierung und Individualisierung von Hochschullehre diskutiert. Damit knüpft die Studie an den aktuellen Diskurs über den Erwerb psychologischer Kompetenzen in der Lehrkräftebildung unter Berücksichtigung hochschuldidaktischer Anforderungen an.



Berücksichtigen Mathematiklehrkräfte pädagogisch-psychologische Evidenz zur Theorie der kognitiven Belastung, wenn sie die Schwierigkeit von Mathematikaufgaben für Schüler(innen) beurteilen?

Salomé Wagner, Jasmin Bauersfeld, Matthias Nückles

Universität Freiburg, Deutschland

Theoretischer Hintergrund

Die Fähigkeit, die Schwierigkeit von Aufgaben für Schüler(innen) einschätzen zu können, ist eine wichtige Facette diagnostischer Kompetenz (Schrader, 2006). Lehrkräfte benötigen dazu einerseits fachdidaktisches Wissen über schwierigkeitsgenerierende Merkmale von Aufgaben (Ostermann, Leuders & Nückles, 2015). Andererseits sollten sie auch pädagogisch-psychologische Prinzipien zur didaktischen Gestaltung von Aufgaben heranziehen, wie sie aus der Theorie der Cognitive Load Theory (CLT) abgeleitet und vielfach empirisch belegt worden sind (Mayer, 2009; van Merriënboer & Sweller, 2005). Zu den bestuntersuchten CLT-Prinzipien zählen das integrierte Format (Ginns, 2006), der Lösungsbeispieleffekt (Renkl, 2014) sowie die Strukturierung von Aufgaben durch Zwischenziele (Kalyuga, Chandler & Sweller, 1998). Diese Prinzipien reduzieren die sachfremde (extrinsische) kognitive Belastung von Schüler(inne)n, sodass mehr kognitive Kapazität für das Verstehen der Tiefenstruktur der Aufgabe verfügbar ist.

Beziehen Mathematiklehrkräfte, wenn sie die Schwierigkeit von Aufgaben für Schüler(innen) beurteilen, die evidenzbasierten CLT-Prinzipien mit ein? Hellmann und Nückles (2015) führten dazu eine erste experimentelle Studie durch. Sie legten 22 Mathematiklehrkräften und 34 Lehramtsstudierenden nach CLT-Prinzipien optimierte (z.B. mit integriertem Format) und nicht optimierte Mathematikaufgaben (z.B. Split-Attention-Format) vor und baten die Teilnehmer(innen), die Lösungswahrscheinlichkeit für jede Aufgabe vorherzusagen. Die tatsächlichen Lösungswahrscheinlichkeiten wurden anhand 54 Neuntklässler(inne)n bestimmt. Es zeigte sich, dass die Lösungswahrscheinlichkeit für CLT-optimierte Aufgaben diejenige für nicht optimierte Aufgaben um 12% übertraf. Dessen ungeachtet schätzten Lehrkräfte und Studierende die Lösungswahrscheinlichkeit von nicht optimierten Aufgaben als ähnlich hoch ein wie die von CLT-optimierten Aufgaben.

Fragestellung

Ziel unserer Studie war die Replikation dieses Design-Insensitivitäts-Effekts von Hellmann und Nückles (2015) anhand einer substanziell größeren Stichprobe von Schüler(inne)n und Lehrkräften. Wir nahmen an, (1) dass Schüler(innen) der 9. Klassenstufe CLT-optimierte Aufgaben häufiger lösen würden als nicht optimierte Aufgaben und (2) dass Mathematiklehrkräfte und Lehramtsstudierende in ihren Schätzurteilen diesen Unterschied ignorieren würden.

Methode

204 Schüler(innen) der 9. Klassenstufe, 40 Mathematiklehrkräfte (M = 9.60 Jahre Berufserfahrung, SD = 8.29) sowie 33 Studierende (M = 7.58 Semester, SD = 2.73) mit Lehramt Mathematik nahmen teil. Auf Grundlage des Itempools von Hellmann und Nückles (2015) wurden 12 Aufgaben jeweils in einer nicht optimierten und einer CLT-optimierten Variante entwickelt. Anschließend wurden 4 verschiedene Versionen erstellt mit je 6 CLT-optimierten und 6 nicht optimierten Aufgaben, wobei in einer Version keine Aufgabe gleichzeitig in optimierter und nicht optimierter Form erschien. Schüler(innen), Lehrkräfte und Lehramtsstudierende erhielten randomisiert eine der Versionen und bearbeiteten jede der Aufgaben. Lehrkräfte und Studierende schätzten zusätzlich für jede Aufgabe ein, wie viele von 30 Schüler(innen) einer 9. Klasse in der Lage wären, diese zu lösen.

Ergebnisse und Diskussion

Wie angenommen, lösten die Schüler(innen) die CLT-optimierten Aufgaben mit einer um 14% höheren Lösungswahrscheinlichkeit als die nicht optimierten Aufgaben (MCLT-opt. = 0.50, SD = 0.25, Mnicht opt. = 0.36, SD = 0.23), t(203) = 8.19, p = .000, d = 0.58 (mittlerer Effekt). Ungeachtet dessen schätzten die Lehrkräfte beide Aufgabentypen als ähnlich schwierig ein (MschätzLehr. CLT-opt. = 0.48, SD = 0.17, MschätzLehr. nicht opt. = 0.50, SD = 0.14), weshalb sie die Lösungswahrscheinlichkeit nicht optimierter Aufgaben erheblich überschätzten, t(39) = 5.69, p = .000, d = 0.90 (großer Effekt). Die Studierenden schätzten beide Aufgabentypen ebenfalls als ähnlich schwierig ein (MschätzStud. CLT-opt. = 0.56, SD = 0.13, MschätzStud. nicht opt. = 0.54, SD = 0.13), wodurch wiederum eine starke Überschätzung der Lösungswahrscheinlichkeit nicht optimierter Aufgaben resultierte, t(32) = 7.29, p = .000, d = 1.85 (großer Effekt). Der von Hellmann und Nückles (2015) gefundene Design-Insensitivitäts-Effekt konnte also anhand einer deutlich größeren Stichprobe repliziert werden. Lehrkräfte und Lehramtsstudierende ignorieren offensichtlich die evidenzbasierten Design-Prinzipien der Cognitive Load Theory, wenn sie die Schwierigkeit von Mathematikaufgaben beurteilen. Angesichts der Lerneffekte, die durch diese Prinzipien nachgewiesenermaßen erzielt werden, sollte in der Aus- und Weiterbildung von Lehrkräften deren Vermittlung mehr Gewicht als bislang erhalten.



Allgemeindidaktische Kriterien zur Erfassung einer adaptiven Planungskompetenz im Umgang mit Heterogenität (AlPako): Validierung eines Testinstruments

Thomas Rey1, Valentin Unger2, Hendrik Lohse-Bossenz2

1Otto-Friedirch-Universität Bamberg, Deutschland; 2Pädagogische Hochschule Heidelberg, Deutschland

Zusammenfassung. Bislang liegen kaum Befunde zu Planungskompetenz bei angehenden Lehrkräften im Umgang mit heterogenen Lerngruppen in den einzelnen Phasen der Lehrerbildung vor. In diesem Zusammenhang wird eine adaptive Planungskompetenz, d. h. die Expertise zur Passung von fachunspezifischen Voraussetzungen und Bedürfnissen der Lernenden mit planerischen Unterrichtsentscheidungen als generische Anforderung, in diesem Beitrag fokussiert. Mit Hilfe des neu entwickelten Messinstrumentes AlPako soll die adaptive Planungskompetenz von Referendar*innen abgebildet werden. Hierzu werden schriftliche Unterrichtsentwürfe hinsichtlich allgemeindidaktischer und domänenübergreifender Kriterien analysiert, um die darin getroffenen Planungsentscheidungen der angehenden Lehrkräfte zu quantifizieren. Die Ergebnisse identifizieren den adäquaten Umgang mit Heterogenität als querschnittliche Dimension professioneller Lehrkompetenz unter Kontrolle schriftsprachlicher Oberflächenmerkmale. Die konfirmatorischen Faktorenanalysen weisen eine gute Modellpassung auf und konstatieren ein Strategie-Kategorien-Modell der adaptiven Planungskompetenz.

Theoretischer Hintergrund. Während bisherige Studien zur professionellen Kompetenz von Lehrkräften eher die Unterrichtsdurchführung in den Blick nehmen, scheint die Fähigkeit von Lehrkräften Unterrichtsverläufe zu planen, bislang in der empirischen Modellbildung weniger akzentuiert worden zu sein (Wernke & Zierer, 2017). Die wenigen aktuellen Forschungsbefunde zu Planungskompetenz bei angehenden Lehrkräften beziehen sich nahezu ausschließlich auf domänenspezifische bzw. fachdidaktische Untersuchungen (z. B. König, Buchholtz & Dohmen, 2015; Schröder, Vogelsang & Riese, 2019; Fladung & Bremerich-Vos, 2019). Im vorliegenden Beitrag wird adaptive Planungskompetenz aus einer allgemeindidaktischen und domänenübergreifenden Perspektive fokussiert, welche entlang dreier theoretisch begründeter Subfacetten des professionellen Handelns im Umgang mit Heterogenität konzeptualisiert wird: (1) In heterogenen Gruppen diagnostizieren können, (2) in heterogenen Gruppen differenzieren können und (3) Klassenführung in heterogenen Gruppen (Beck et al., 2010; Franz, Wacker & Heyl, 2018). Im Rahmen einer Pilotierungsstudie (Rey, Lohse-Bossenz, Wacker & Heyl, 2018) wurden spezifische Kriterien zur Messung der adaptiven Planungskompetenz im Umgang mit Heterogenität entwickelt und empirisch überprüft. Basierend auf diesen Ergebnissen wurden die allgemeindidaktischen Kriterien zur Erfassung adaptiver Planungskompetenz (AlPako) weiterentwickelt.

Fragestellungen. Die standardisierte Messung adaptiver Planungskompetenz angehender Lehrkräfte im Umgang mit Heterogenität stellt in dieser Untersuchung das zentrale Forschungsvorhaben dar. Vor diesem Hintergrund liegen diesem Beitrag einerseits die Validierung und Dimensionalitätsprüfung der modifizierten Kriterien zur Erfassung adaptiver Planungskompetenz (AlPako) zugrunde. Andererseits geht er der Frage nach, ob die Erfassung des Konstrukts in schriftlichen Unterrichtsentwürfen abhängig von schriftsprachlichen Oberflächenmerkmalen ist.

Methode. Datengrundlage dieser Validierungsstudie bilden 82 schriftliche Unterrichtsplanungen aus 23 Fächern und Fächerverbünden von Lehramtsanwärter*innen der Sekundarstufe I in Baden-Württemberg zu Beginn ihres Vorbereitungsdienstes. Ziel ist es, die darin enthaltenen Planungs­entscheidungen extrahieren und quantifizieren zu können. Als Übereinstimmungsmaß für den Kodiervorgang wird die Interrater-Reliabilität Cohens Kappa (κ) herangezogen. Ferner wird die Itemschwierigkeit der einzelnen Kriterien als auch die Dimensionalität der Datenstruktur sowie die Passung der einzelnen Kriterien überprüft. Zudem werden die schriftlichen Unterrichtsplanungen anhand schwierigkeitsgenerierender Faktoren auf der Textoberfläche des Lesbarkeitsindex (Lenhard & Lenhard, 2014-2017) klassifiziert als auch die Zeichenanzahl operationalisiert.

Ergebnisse. Die berechneten Kappa-Werte zur Überprüfung der Interrater-Reliabilität (M = 0.904) als auch die durchschnittliche Itemschwierigkeit der verbleibenden Kriterien (M = 0.573) zeigen akzeptable Werte. Zunächst erwartungswidrig weist ein zweidimensionales Modell zufriedenstellende Modellfitindizes auf: χ² (N = 82, df = 34) = 36.077, p = .371, χ²/df = 1.061, CFI = 0.953, RMSEA = .027, WRMR = 0.755. Auf Basis der Befunde hinsichtlich Dimensionalität der Datenstruktur wurde ein Strategie-Kategorien-Modell entwickelt, welches die Subfacetten (1 & 2) in heterogenen Gruppen diagnostizieren und differenzieren können als Primärstrategie und die Subfacette (3) Klassenführung in heterogenen Gruppen als Stützstrategie der adaptiven Planungskompetenz im Umgang mit Heterogenität identifiziert. Darüber hinaus konnte kein signifikanter Zusammenhang zwischen der gemessenen adaptiven Planungskompetenz und den schriftsprachlichen Oberflächenmerkmalen gezeigt werden. Die Analysekriterien des Testinstrumentes werden demnach nicht von der sprachlichen Komplexität oder der Zeichenanzahl der geschriebenen Unterrichtsentwürfe beeinflusst.



Die Unterrichtsplanung als Entscheidungssituation: Zu den Zusammenhängen zwischen Entscheidungsverhalten und Planungskompetenz angehender Lehrkräfte

Simon Küth, Daniel Scholl, Christoph Schüle

Universität Vechta, Deutschland

In einem Großteil der allgemeindidaktischen Theorien (s. zum Überblick Lüders, 2018; Scholl, 2018) und empirischen Studien zur Unterrichtsplanung (z.B. Clark & Peterson, 1986; Seifried, 2009; Shavelson & Stern, 1981) bzw. Planungskompetenz von Lehrpersonen (z.B. Beck et al., 2008; König et al., 2017a; König, Buchholtz & Dohmen, 2015; Rey, Lohse-Bossenz, Wacker & Heyl, 2018; Weingarten, 2019; Westerman, 1991) wird das Treffen von Entscheidungen als Grundoperation der Unterrichtsplanung beschrieben: Unter Berücksichtigung der situativen und individuellen Lernvoraussetzungen werden flexibel umsetzbare (Borko & Livingston, 1989; Seel, 1997) und voneinander abhängige (Duit, Gropengießer, Kattmann, Komorek & Parchmann, 2012; Heimann, Otto & Schulz, 1965; Taylor, 1970; Zahorik, 1975) Entscheidungen zu den Inhalten, Zielen, Methoden und Medien des Unterrichts getroffen (Haas, 1998; Tebrügge, 2001).

Diese Beschreibung lässt das unterrichtliche Entscheiden als begründete Wahl zwischen mehreren Optionen als einen Spezialfall des Treffens von alltäglichen Entscheidungen erscheinen (Hardmann, 2009). Deshalb wird in diesem Beitrag gefragt, inwiefern sich das generelle Entscheidungsverhalten im alltäglichen Leben auch in der unterrichtlichen Planungskompetenz wiederspiegelt (s. zu dieser Frage auch Göncz, 2017). So lässt sich zum Beispiel vermuten, dass insbesondere vigilantes Entscheiden (Vigilance, Janis & Mann, 1977; Mann, Burnett, Radford & Ford, 1997) in Form des sorgfältigen Umgangs mit einer Entscheidungssituation – etwa durch die angemessene Suche und Bewertung von Alternativen – einen positiven Zusammenhang mit der unterrichtlichen Planungskompetenz aufweist. Demgegenüber sollten kontraproduktive Entscheidungsverhaltensweisen, wie die Vermeidung von eigenverantwortlichen Entscheidungen (Buck-passing, beispielsweise das Abwälzen von Entscheidungen auf andere), der Aufschub von Entscheidungen (Procrastination, beispielsweise die Verschwendung von Ressourcen vor dem Treffen einer Entscheidung) sowie impulsiv-ängstliches Entscheidungsverhalten (Hypervigilance, beispielsweise Pessimismus und Konzentrationsprobleme in einer Entscheidungssituation) negativ mit der Planungskompetenz zusammenhängen.

Diese Annahmen werden in einer Längsschnittstudie mit zwei Messzeitpunkten, einem vor und einem im Anschluss an das Allgemeine Schulpraktikum, untersucht. Da sich die angehenden Lehrkräfte im begleitenden Seminar intensiv mit der Unterrichtsplanung auseinandersetzen und im Praktikum gezielt eigenen Unterricht planen, nimmt das Treffen von Planungsentscheidungen zu dieser Zeit einen zentralen Stellenwert für sie ein. Derzeit liegen Daten von insgesamt 110 Studierenden zum ersten Messzeitpunkt vor. Zur Operationalisierung der Planungskompetenz wird die Selbsteinschätzungsskala von König et al. (2017b), zur Erfassung des Entscheidungsverhaltens die Skalen von Mann et al. (1997) genutzt.

Die bisherigen Querschnittsergebnisse zeigen einen erwartungsgemäß signifikant positiven Zusammenhang zwischen der Planungskompetenz und dem vigilanten Entscheidungsverhalten. Demgegenüber erweisen sich die Zusammenhänge zwischen der Vermeidung von eigenverantwortlichem Entscheiden, dem Aufschub von Entscheidungen und dem impulsiv-ängstlichen Entscheiden mit der Planungskompetenz als tendenziell negativ, aber nicht signifikant. In Ergänzung der Daten des zweiten Erhebungszeitpunkts, die Ende Oktober 2019 vorliegen, werden die kausalen Zusammenhänge über die Zeit in einem Cross-Lagged-Panel-Design betrachtet.

 
14:30 - 16:15M14–S13: Klassenmanagement
S13 
 

Die Professionelle Wahrnehmung von Klassenmanagement in Videos von Frontalunterricht und Gruppenarbeit – Eine Eyetrackingstudie

Rebekka Stahnke1, Sigrid Blömeke2

1Humboldt-Universität zu Berlin, Deutschland; 2Centre for Educational Measurement, Norway

Die Professionelle Wahrnehmung von Klassenmanagement beschreibt die situierte und handlungsnahe Fähigkeit von Lehrpersonen, in für das Klassenmanagement relevanten Situationen selektiv wahrzunehmen, wissensbasiert zu interpretieren und Handlungsalternativen zu formulieren (Gold & Holodynski, 2017; Barth, 2017). Diese Fähigkeit erwies sich in einigen Studien als ein stärkerer Prädiktor von tatsächlichem Klassenmanagementverhalten als das allgemein-pädagogische Wissen von Lehrpersonen (König & Kramer, 2016). Über die spontane selektive (visuelle) Wahrnehmung als grundlegendem Aspekt der Professionellen Wahrnehmung von Lehrpersonen ist bisher wenig bekannt. Expert*innen scheinen ihren Blick mehr auf Schüler*innen als auf den Lehrer im Video zu fokussieren (McIntyre, Jarodzka & Klassen, 2019; Wolff, Jarodzka, van den Bogert & Boshuizen, 2016) sowie ihre Aufmerksamkeit mehr auf verschiedene Schüler*innen zu verteilen als Noviz*innen (van den Bogert, van Bruggen, Kostons & Jochems, 2014; Wolff et al., 2016). Inhaltlich heben Expert*innen eher das Schüler*innenlernen und Möglichkeiten dieses zu fördern hervor, während Noviz*innen eher auf Ordnung und Disziplin zu achten scheinen (Wolff, Jarodzka & Boshuizen, 2017). Die genannten Befunde gelten jedoch lediglich für das Fehlverhalten von Schüler*innen in Frontalunterrichtsszenen. Der vorliegende Beitrag untersucht vergleichend die Wahrnehmung von Klassenmanagement in Frontalunterricht und Gruppenarbeit und legt dabei ein breites Verständnis von Klassenmanagement zugrunde, das neben dem reaktiven Umgang mit Störungen auch präventive Maßnahmen einschließt (vgl. Piwowar, Thiel & Ophardt ,2013). Die leitende Forschungsfrage ist, wie sich Noviz*innen und Expert*innen in ihrer Wahrnehmung von Klassenmanagement in Form von visueller Aufmerksamkeitsverteilung sowie der Anzahl und Art von benannten, für sie relevanten Ereignissen unterscheiden.

Dazu wurden Daten von jeweils 20 Lehramtsmasterstudierenden (Noviz*innen) und 20 erfahrenen Lehrpersonen (Expert*innen, definiert über mindestens 5 Jahre Berufserfahrung und Tätigkeiten in der Lehramtsausbildung) erhoben. Die Proband*innen betrachteten zwei Unterrichtsauschnitte jeweils zweimal: Beim ersten Ansehen wurden die Blickbewegungen aufgezeichnet und die Proband*innen aufgefordert zu klicken, wenn ein für sie relevantes Klassenmanagementereignis erscheint. Beim zweiten Ansehen wurde das Video jeweils an den markierten Stellen pausiert und die Lehrpersonen instruiert zu erläutern, was ihnen an dieser Stelle aufgefallen ist. Für insgesamt 40 Proband*innen liegen umfangreiche Blickbewegungsdaten (erstes Ansehen) und transkribierte verbale Daten (zweites Ansehen) für jeweils zwei Videos vor. Der Auswahl der Videosegmente liegt ein Expert*innenrating zugrunde. Die Videoszenen zeigen eine Reihe von sowohl präventiven als auch reaktiven Klassenmanagementereignissen in einer Frontalunterrichts- und einer Gruppenarbeitsphase. Die Blickbewegungsdaten wurden hinsichtlich der visuellen Aufmerksamkeit auf Schüler*innengruppen und auf die im Video sichtbare Lehrperson ausgewertet. Weiterhin wurden die verbalen Daten hinsichtlich der konkret benannten Ereignisse kodiert (Interraterreliabilität für 10 % des Materials: 𝜅1 = 0.81 (92.31%) für Video 1 und 𝜅2 = 0.87 (94.17%) Video 2) und in Bezug auf Art und Anzahl der wahrgenommenen Ereignisse ausgewertet. Bei Verletzung der Normalverteilung wurden non-parametrische Varianzanalysen (R-Paket nparLD; Noguchi, Gel, Brunner & Konietschke, 2012) und Mittelwertsvergleiche herangezogen.

Hinsichtlich der visuellen Aufmerksamkeit zeigten sich vor allem für die Gruppenarbeitsszene Expertiseeffekte: Während Noviz*innen den Lehrer im Video signifikant mehr betrachteten als Expert*innen (U = 119, z =-2.19, p = 0.028, d = 0.74), beachteten Expert*innen die Schülergruppen jeweils rechts (U = 297.00, z = 2.62, p = 0.008, d = 0.72) und links im Klassenraum mehr als Noviz*innen (t (38) = 2.08; p = 0.044, d = 0.66). Expert*innen benennen mehr Ereignisse, die sich auf Schüler*innen-Lernen und Verhalten beziehen als Noviz*innen (FExpertise(1,38) = 6.95, p = 0.012, hp2 = 0.16). Bei Ereignissen, die sich auf den Lehrer im Video beziehen, zeigt sich ein Interaktionseffekt: Während Noviz*innen in der Frontalunterrichtsszene mehr solcher Ereignisse benennen, ist dies für Expert*innen in der Gruppenarbeitsphase der Fall (FVideo*Expertise(1,38) = 5.00, p = 0.031, hp2 = 0.12). Insgesamt zeigen die Ergebnisse einerseits mehr Expertiseeffekte für die Gruppenarbeitsphase und andererseits einige Interaktionseffekte. Der Sozialform des Unterrichts kommt demnach eine wichtige Bedeutung in der professionellen Wahrnehmung von Klassenmanagement zu.



Lehrkraft oder Klasse? Die simultane Schätzung von Klassen- und Lehrkrafteffekten auf Schülerleistungen mittels Multiple Membership Cross Classified Random-Effect-Modellen

Wolfgang Wagner1, Nicolas Hübner1, Waltraud Schreiber2, Benjamin Nagengast1, Ulrich Trautwein1

1Universität Tübingen, Deutschland; 2KU Eichstätt

Theoretischer Hintergrund. Zahlreiche empirische Befunde verweisen auf die wichtige Rolle bezüglich der Lehrkraft für die Leistungsentwicklung der von ihr unterrichteten Schülerinnen und Schüler (Scheerens & Bosker, 1997; Seidel & Shavelson, 2007). Typischerweise basieren entsprechende Studien allerdings nicht auf randomisierten Designs, da diese nur schwer im realen Schulumfeld umsetzbar sind. Ohne Randomisierung ist mit einer Konfundierung der Effekte auf Individualebene (z.B. unterschiedliche Leistungen von Schülerinnen und Schülern zu Beginn des Schuljahres), auf Klassenebene (Kompositionseffekte; Dumont, Neumann, Maaz, & Trautwein, 2013) sowie seitens der Lehrkraft zu rechnen. In solchen Fällen können Designs hilfreich sein, bei denen jeweils mehrere Klassen pro Lehrkraft erhoben werden. Leistungsunterschiede auf Klassenebene innerhalb von Lehrkräften lassen sich dabei als nicht auf stabile Lehrkrafteffekte zurückführbare Variabilität identifizieren. In längsschnittlich angelegten Designs ist es zudem möglich, die Persistenz (also carryover-Effekte auf nachfolgende Schuljahre; Everson, 2017) von Klassenzugehörigkeit und Lehrkraft zu untersuchen. Weiterhin können auf Klassenebene variierende Wachstumsraten geschätzt und im Sinne unterschiedlicher Klassenkompositionen bezüglich zeitstabiler leistungsbezogener Schülermerkmale interpretiert werden. Sind diese mit Klasseneffekten (hoch) korreliert, so spricht dies für das Vorliegen der häufig diskutierten Klassenkompositionseffekte, wohingegen geringe Korrelationen für „spontane“ Effekte des Klassenkontexts (in Interaktion mit der jeweiligen Lehrkraft) sprechen (z.B. gutes Klima in Klasse, günstige Uhrzeit des Unterrichts). Im Rahmen der vorliegenden Studie wurde ein Multiple Membership Cross Classified Random Effect-Modell (MM-CCREM; Cafri, Hedeker, & Aarons, 2015) entwickelt, mit dessen Hilfe sich – auf Basis von Längsschnittdaten mit mehreren Klassen pro Lehrkraft und bei (häufig) neu zusammengesetzten Klassen – schuljahrspezifische und zeitstabile Lehrkrafteffekte sowie klassenspezifische Effekte auf Schülerleistungen und deren carryover-Effekte ermitteln lassen.

Fragestellung. Wie – und unter welchen Annahmen – lassen sich anhand des entwickelten MM-CCREMs Schüler-, Klassen- und Lehrkrafteffekte auf die Leistungsentwicklung separieren? Neben der allgemeinen Vorstellung des Modells sollen anschließend empirische Ergebnisse basierend auf einem entsprechenden Datensatz bezüglich Historischer Kompetenzen (HK) von Schülerinnen und Schülern präsentiert werden. Dabei wurden Effektschätzungen zur besseren Interpretierbarkeit als modellbasiert zu erwartende Varianzanteile auf Schüler-, Klassen- und Lehrkraftebene ermittelt.

Methode. Es wird ein MM-CCREM mit folgenden Spezifikationen vorgestellt: Auf Ebene 1 werden Leistungszuwächse der Schülerinnen und Schüler als lineares Wachstum repräsentiert, wobei die Wachstumsraten als über Klassen (Ebene 2) hinweg variierend betrachtet werden. Auf der Ebene 2 werden zeitpunktspezifische Klasseneffekte sowie Lehrkrafteffekte mithilfe kreuzklassifizierter Zufallseffekte mit entsprechender Gewichtung für die gewünschte Zufallseffekt-Designmatrix (carryover-Effekte) modelliert. Zur Schätzung von zeitstabilen Lehrkrafteffekten auf Ebene 2 wird zudem ein Zufallseffekt auf Basis eines Multiple Membership-Modells mit der erforderlichen carryover-Gewichtungsmatrix implementiert. Für den empirischen Teil der Studie wurden Daten der vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Mehrkohorten-Längsschnittstudie "Erklärung der Kompetenzentwicklung im Fach Geschichte mithilfe von Indikatoren zur Quantität und Qualität der Nutzung eines elektronischen Schulbuchs" (QQM; Schreiber, Trautwein, Wagner & Brefeld, 2019) an Schulen der Deutschsprachigen Gemeinschaft Belgiens verwendet. Dabei konnte klassenstufenübergreifend (Klassenstufen 9-12) auf Leistungsdaten aus standardisierten Tests (der Kompetenztest basierte auf Pilotversionen des HiTCH-Tests; Trautwein et al., 2017) von N = 3706 Schülerinnen und Schülern, die von insgesamt N = 42 Lehrkräften unterrichtet wurden, zurückgegriffen werden. Zunächst wurde das vollständige Modell geschätzt, das anschließend schrittweise mit sparsameren Modellen verglichen wurde, um die Modellparameter auf statistische Signifikanz zu prüfen.

Ergebnisse. Hinsichtlich der Frage nach persistenten Klassen- und Lehrkrafteffekten ergaben sich im Rahmen der MM-CCREMs Hinweise auf carry over-Effekte für die Klasse (carryover: 0.75), nicht aber für die Lehrkraft. Die Leistungsvarianzaufklärung für die zeitpunktspezifischen Lehrkrafteffekte (die hier für jede Lehrkraft von Jahr zu Jahr variieren konnte) lag im Bereich von 0.7 % bis 1.7 %, wohingegen die zeitstabilen Lehrkrafteffekte nicht statistisch signifikant waren. Deutlich größere Effekte zeigten sich für die Klassenzugehörigkeit, wo 6.6 % bis 11.4 % der Leistungsvarianz aufgeklärt wurden. Die verwendeten Modelle sowie die Ergebnisse werden im Hinblick auf potentielle Forschungsperspektiven diskutiert.



Klassenführungstraining mit Unterrichtsvideovignetten: Steigerung der Lernwirksamkeit durch Scaffolding

Rijana van Bebber1, Gerlinde Lenske2, Theresa Dicke3, Detlev Leutner1

1Universität Duisburg-Essen, Deutschland; 2Universität Koblenz-Landau, Deutschland; 3Australian Catholic University, Brisbane, Queensland

Theoretischer Hintergrund

Videovignetten können Unterrichtssituationen komplex und authentisch abbilden (Syring et al., 2015), weshalb sie sich zur Darstellung von Klassenführungsaspekten für die Lehrerbildung eignen. Noviz*innen fühlen sich jedoch häufig von der Simultanität und Multidimensionalität des realen Unterrichtsgeschehens kognitiv überfordert (ebd.). Instruktionsprinzipien, wie „Signaling“ (Wichtiges hervorheben) und „Segmenting“ (einen komplexen Prozess in kleinere Einheiten zerlegen; Mayer, 2014), stellen hier ein vielversprechendes Mittel zur Reduktion der Videokomplexität dar, indem sie eine instruktionale Unterstützung beim Lernen mit Unterrichtsvideovignetten bieten. Bleibt eine instruktionale Unterstützung bei voranschreitendem Wissenserwerb der Lernenden jedoch unnötig erhalten, kann sich die kognitive Belastung bei Lernenden erhöhen, da bereits erworbene Schemata nicht mehr angemessen unterstützt werden („Expertise Reversal“-Effekt; Kalyuga et al., 2003). Eine Abnahme von instruktionaler Unterstützung (Prinzip des Scaffoldings) bei Unterrichtsvideovignetten kann daher bei voranschreitendem Wissenserwerb der Lernenden als kognitiv entlastend und somit gewinnbringend für den weiteren Wissenserwerb gesehen werden.

Fragestellung & Hypothese

Die vorliegende Studie widmet sich der Fragestellung, inwieweit Scaffolding im Hinblick auf Signaling und Segmenting zu einer verbesserten Lernwirksamkeit im Wissen um Klassenführung führt.

Die Studie geht folgender Hypothese nach: Je stärker das Scaffolding – also die Abnahme instruktionaler Unterstützung von Signaling und Segmenting, umso geringer fällt die kognitive Belastung bei Lehramtsnoviz*innen aus und umso größer ist die Steigerung im Klassenführungswissen.

Methode

Die Interventionsgruppen (N = 90, weiblich = 84,4%) und die Kontrollgruppe (N = 19, weiblich = 89,5%) bestanden aus Bachelor-Studierenden (Lehramt für Haupt-, Real- und Gesamtschule). Während die Kontrollgruppe (SoSe 2018) ein Training zum Thema „Lernstrategien“ erhielt, wurden die Interventionsgruppen (WiSe 2018/2019) mit Unterrichtsvideovignetten trainiert (6 Stunden). Zum Pretest war dabei das Klassenführungswissen der Kontrollgruppe mit dem Klassenführungswissen der Interventionsgruppen vergleichbar.

In einem 2x2-experimentellen Design mit den Faktoren Signaling (konstant/abnehmend) und Segmenting (konstant/abnehmend) wurden die Studierenden der Interventionsgruppen vier Vergleichsgruppen randomisiert zugeordnet und mit Videovignetten trainiert, wobei sie, entsprechend dem experimentellen Design bei ansonsten konstanten Trainingsbedingungen, unterschiedliche Grade an instruktionaler Unterstützung erhielten. Innerhalb eines Pre-Post-Designs wurde das Klassenführungswissen mithilfe einer Vorversion eines extern entwickelten Wissenstests durchgeführt. Ein Item zur empfundenen mentalen Anstrengung ergänzte das Erhebungsmaterial.

Ergebnisse

Erwartungskonform konnte bei den Interventionsgruppen mithilfe des Klassenführungstests ein Zuwachs im Klassenführungswissen festgestellt werden (t(89) = -4.932, p < .001, d = 0.58), jedoch nicht bei der Kontrollgruppe (t(18) = ‑0.236, p = .816). Eine zweifaktorielle ANOVA – mit Klassenführungswissen (Posttest) als abhängige Variable, Signaling (konstant/abnehmend) und Segmenting (konstant/abnehmend) als Faktoren sowie Klassenführungswissen (Pretest) als Kovariate – zeigt einen Interaktionseffekt von Signaling und Segmenting auf das Klassenführungswissen (F(1,85) = 6.241, p = .014, partielles η2 = .068). Die Ergebnisse belegen, dass die gemeinsame Implementation von abnehmendem Signaling und abnehmendem Segmenting zu einem Lernzuwachs im Klassenführungswissen führte, die alleinige Implementation von abnehmendem Signaling oder abnehmendem Segmenting jedoch nicht. Möglicherweise ist hier das Level des Scaffoldings ausschlaggebend, welches bei der gemeinsamen Implementation von abnehmendem Signaling und abnehmender Segmenting wesentlich höher ausfällt als bei der alleinigen Implementation.

Eine weitere zweifaktorielle ANOVA mit mentaler Anstrengung (Posttest) als abhängige Variable, Signaling (konstant/abnehmend) und Segmentierung (konstant/abnehmend) als Faktoren sowie mentaler Anstrengung (Pretest) als Kovariate zeigt einen signifikanten Effekt für Segmenting (F(1,79) = 5.295, p = .024, partielles η2 = .063). Die Ergebnisse deuten auf einen Vorteil für diejenigen Interventionsgruppen hin, die mit abnehmender Segmentierung trainiert wurden.

Limitationen

Eine Limitation der Studie ist die geringe Stichprobengröße. Zudem wurden die Daten der Kontrollgruppe ein Fachsemester vor den Daten der Interventionsgruppen erhoben, wodurch sich das Fachsemester voneinander unterscheidet. Eine weitere Limitation ist die relativ kurze Interventionsdauer. Bei einer längeren Intervention könnten demnach abweichende Effekte auftreten. Ferner ermöglicht die vorliegende Studie keine Aussagen über andere Formen des Scaffoldings. Hier bedarf es weiterer empirischer Studien.



Alltagswissen über Klassenführung aus der eigenen Schulzeit – Struktur und Auswirkungen auf das Lösen unterrichtstypischer Fälle bei Lehramtsstudierenden

Franziska Baier, Mareike Kunter

Goethe-Universität Frankfurt, Deutschland

Theoretischer Hintergrund

Fest verankerte intuitive Überzeugungen/Alltagwissen von (angehenden) Lehrkräften aus ihrer eigenen Schulzeit darüber, wie Unterricht abläuft und funktioniert, werden/wird häufig als relativ stabil und handlungsleitend, dabei aber gleichzeitig als hinderlich für den Erwerb und die Anwendung von wissenschaftlichen Theorien angenommen (Hoekstra & Korthagen, 2011; Rothland, 2013). Nur selten wird die inhaltliche Güte dieser Überzeugungen aus der eigenen Schulzeit allerdings systematisch betrachtet und darüber hinaus untersucht, ob diese Überzeugungen tatsächlich handlungsleitend sind, d.h. ob sie beim Lösen von komplexen Unterrichtssituationen genutzt werden.

Vor allem Erfahrungen mit und Überzeugungen über effektive Klassenführung aus der eigenen Schulzeit wurden bislang wenig systematisch beschrieben und beforscht. Da die praktische Umsetzung effektiver Klassenführung von (angehenden) Lehrkräften immer wieder als Herausforderung benannt wird (Dicke et al., 2014), erscheint die Beforschung des Alltagswissens über effektive Klassenführung aus der eigenen Schulzeit lohnenswert.

Fragestellungen

Zunächst sollen in Fragestellung 1 Alltagswissen aus der eigenen Schulzeit über Klassenführung im Vergleich zu entsprechendem (wissenschaftlich-fundiertem) Wissen aus dem Studium inhaltlich analysiert und systematisiert werden. In Fragestellung 2 soll untersucht werden, ob und inwiefern sich die Aktivierung (priming) dieses Alltagswissens im Vergleich zur Aktivierung (priming) von Wissen, das an der Universität erworben wurde, auf die angemessene Lösung von schriftlichen Problemsituationen aus dem Bereich der Klassenführung auswirkt. Zu erwarten wäre, dass die Gruppe Wissen aus dem Studium mehr wissenschaftlich-fundierte Lösungen nennt.

Methode

An der quasi-experimentellen Untersuchung nahmen 100 Lehramtsstudierende aus zwei parallelen universitären Seminaren (Kurs A/B) zu Beginn des Wintersemester 16/17 teil; 44 in der Gruppe Wissen aus dem Studium (Kurs A) und 56 in der Gruppe Erinnerung an die eigene Schulzeit (Kurs B). Die Studierenden der beiden Gruppen unterschieden sich nicht in Bezug auf ihr selbstberichtetes Vorwissen und sozio-demografische Variablen.

Zunächst sollten die Studierenden entweder auf ihr Wissen aus der eigenen Schulzeit (in Bezug auf eine konkrete Lehrkraft) oder auf ihr Wissen aus dem Studium zurückgreifen, um einen effektiven Klassenmanager und seinen/ihren Umgang mit Unterrichtsstörungen/Konflikten zu beschreiben (Manipulation). Anschließend sollten die Studierenden zu drei textbasierten Fallbeispielen, die Problemsituationen aus dem Klassenmanagement beschrieben, Handlungsmöglichkeiten generieren.

Die Beschreibungen der Studierenden eines effektiven Klassenmanagers wurden anhand einer Kombination von qualitativer und quantitativer Inhaltsanalyse ausgewertet (Mayring, 2001). Es wurden sowohl induktiv als auch deduktiv relevante Kategorien extrahiert und die Auftretenshäufigkeit der einzelnen Kategorien festgehalten. Die Handlungsmöglichkeiten zu den Fallbeispielen wurden anhand eines deduktiv entwickelten Kodierschemas analysiert (Interraterreliabilitäten: κ1=.79, κ2=.70, κ3=.91). Die Teilnehmenden erhielten Punkte für jede korrekte, das heißt, dem aktuellen Forschungsstand entsprechende, Antwort.

Ergebnisse

Fragestellung 1

Die folgenden Kategorien zur Beschreibung eines effektiven Klassenmanagers wurden identifiziert: (1)Präventives Handeln (2)Reaktives Handeln: Verbale Zurechtweisungen (3)Bestrafung (4)Verstärkung (5)Kooperatives Verhalten (6)Dominanz (7)Fairness/Transparenz (8)Laissez-Faire (9)Andere Maßnahmen (10)Unkonkret/Nicht-kodierbar. Bedeutsam hierbei ist, dass alle Kategorien in beiden Gruppen vorkamen, bis auf Kategorie 7 (Fairness und Transparenz), die nur in der Gruppe Wissen aus dem Studium genannt wurde. Eine multinomiale logistische Regression mit Kategorie 10 als Referenzkategorie zeigte, dass sich die beiden Gruppen des Weiteren signifikant in der Häufigkeit der Nennung verbaler Zurechtweisung (19% Schulzeit, 4% Studium) und Kooperativer Verhaltensweisen (3% Schulzeit, 14% Studium) unterschieden.

Insgesamt zeigen die Ergebnisse, dass eine effektive Klassenführung anhand überwiegend derselben Kategorien basierend auf Überzeugungen aus der eigenen Schulzeit und dem Wissen aus dem Studium beschrieben wird. Bedeutsame Unterschiede zeigen sich allerdings in der inhaltlichen Schwerpunktsetzung (z.B. Reaktives Handeln).

Fragestellung 2

Die Ergebnisse zeigen zunächst, dass die Gruppe Wissen aus dem Studium über die drei Fallbeispiele hinweg deskriptiv mehr Punkte erreichte als die Gruppe Wissen aus der Schulzeit. Der Unterschied ist allerdings nicht signifikant auf dem 5%-Niveau: t(96)=-1.83, p= .07. Weiterführende Analysen, inwiefern konkrete, in Fragestellung 1 genannte, Strategien zur Bearbeitung der Fälle aufgegriffen wurden, werden bis zur Konferenz durchgeführt. Theoretische und praktische Implikationen der Befunde werden ebenfalls diskutiert.

 
16:45 - 18:30M16∼S13: Nachwuchscafé mit dem GEBF-Vorstand
S13 

Datum: Donnerstag, 26.03.2020
9:00 - 10:45D9–S13: Beurteilung von Schülerleistung
S13 
 

Explizite und implizite Kriterien bei der Beurteilung einer ungewöhnlichen Schülerlösung

Christin Laschke, Bettina Rösken-Winter, Sven Schüler

Humboldt- Universität Berlin, Deutschland

Einleitung und theoretischer Hintergrund

Die Beurteilung von Schüler*innenprodukten durch Lehrkräfte ist eine wichtige Grundlage für Unterrichtsplanung, Leistungsfeststellung und letztlich Übergangsentscheidungen. Damit beeinflussen Beurteilungen Bildungskarrieren von Schüler*innen entscheidend und sollten objektiv, reliabel und valide sein.

Zukünftige Lehrkräfte zu befähigen, normative und objektive Beurteilungskriterien anzuwenden, ist ein wichtiger Aspekt im Lehramtsstudium. Dazu werden, fachliche und fachdidaktische Aspekte integrierend, Schüler*innenprodukte anhand von aufgabenspezifischen (konzeptuelle, prozessbezogene) als auch aufgabenunspezifischen (kompetenzorientierte, pädagogisch orientierte) Kriterien beurteilt, die sich durch Bildungsstandards legitimieren. Die Anwendung objektiver Beurteilungskriterien wird jedoch zur Herausforderung, wenn Lehrkräfte mit unerwarteten Situationen konfrontiert werden, die dazu führen, dass unbewusst auf implizite Persönlichkeitstheorien zurückgegriffen wird (Borko, Roberts & Shavelson, 2008).

Dahingehende Befunde zeigen, dass Beurteilungen von Lehrkräften durch implizite Kriterien beeinträchtigt sind, z. B. begründet durch Stereotype hinsichtlich sozialer oder ethnischer Herkunft, auf welche Lehrkräfte (Valdez, 2013; Holder & Kessels, 2017) und auch bereits angehende Lehrkräfte (Sprietsma, 2013) rekurrieren. Trotz einer Vielzahl empirischer Studien zur Kompetenz und speziell auch zu diagnostischer Kompetenz von Lehrkräften gibt es keine konsistente evidenzbasierte Theorie dazu, wie sich Beurteilungen durch Lehrkräfte begründen (Leuders, Dörfler, Leuders & Philipp, 2018).

Ziel und Fragestellungen

Mit der Studie wird untersucht, welche expliziten Kriterien angehende Primarlehrkräfte anwenden und ob implizite Beurteilungskriterien eine Rolle spielen. Dazu wurde eine ungewöhnliche Lösung zu einer Aufgabe aus dem Themenbereich Wahrscheinlichkeiten, kombiniert mit Vornamen, die entweder einen hohen bzw. niedrigen sozialen Status der Eltern oder einen türkischen bzw. vietnamesischen Migrationshintergrund implizieren, von angehenden Primarlehrkräften beurteilt.

Der Studie liegen die folgenden Fragestellungen zu Grunde:

  1. Auf welche expliziten Beurteilungskriterien greifen angehende Primarlehrkräfte zurück, wenn sie eine ungewöhnliche Schülerlösung beurteilen?
  2. Spielen implizite Beurteilungskriterien eine Rolle, wenn die ungewöhnliche Schülerlösung mit Vornamen, die einen hohen bzw. niedrigen sozialen Status oder türkischen bzw. vietnamesischen Migrationshintergrund implizieren, kombiniert wird?

Methodik

Die Studie wurde mit einer Gelegenheitsstichprobe von 112 angehenden Primarlehrkräften am Ende einer Vorlesung zum Thema Stochastik im 4. Bachelorsemester an der Humboldt-Universität zu Berlin durchgeführt. Die Studierenden wurden gebeten eine Aufgabe aus dem Bereich Wahrscheinlichkeit zu lösen und anschließend eine ungewöhnliche Schülerlösung dieser Aufgabe zu beurteilen sowie ihr Urteil zu begründen.

Eine Kombination aus induktivem und deduktivem Vorgehen wurde für die Beantwortung der ersten Fragestellung genutzt. Ausgehend von einer Auswahl an Begründungen wurden Kategorien identifiziert, anhand derer das gesamte Datenmaterial von zwei Forschenden (mit zufriedenstellender Intercoderübereinstimmung) kodiert wurde. Die zweite Fragestellung wurde untersucht, indem auf Unterschiede in den Beurteilungen zwischen den Gruppen mit unterschiedlichen Vornamen mittels Chi-Quadrat getestet wurde. Darüber hinaus wurden Logit-Loglinearanalysen durchgeführt, um den Effekt der Vornamen auf die Beurteilung - bei Kontrolle der Fähigkeit der Studierenden, die Aufgabe selbst lösen zu können - zu bestimmen.

Ergebnisse und Diskussion

Die angehenden Lehrkräfte verweisen in den Begründungen ihrer Beurteilung auf konzeptuelle Aspekte (43 %) wie die korrekte Erfassung des mathematischen Problems und die Entwicklung einer cleveren Lösungsstrategie und/oder auf prozedurale Aspekte (35 %), wie die (in-)korrekte Anwendung von Rechenwegen. Darüber hinaus wurde strukturbezogen argumentiert (15 % der Begründungen), würdigend, dass Grafik, Lösungsweg und Antwortsatz vorhanden sind sowie pädagogisch (7 %) mit Fokus auf die Anstrengungsbereitschaft.

Lösungen kombiniert mit einem Vornamen, der einen niedrigen sozialen Status impliziert, wurden schlechter bewertet als Lösungen kombiniert mit einem Vornamen, der einen hohen sozialen Status impliziert und auch als jene, die mit einem vietnamesischen Vornamen kombiniert wurden. Weitere Unterschiede nach ethnischer Herkunft zeigten sich nicht. Die Ergebnisse der Logit-Loglinareanalyse bestätigen die Ergebnisse der bivariaten Analysen.

Die angehenden Lehrkräfte nutzen also explizite, durch Bildungsstandards legitimierte, Beurteilungskriterien. Dennoch sprechen die Ergebnisse dafür, dass Beurteilungen beeinträchtigt werden von impliziten Kriterien, resultierend aus Stereotypen bezogen auf die soziale Herkunft. Im Rahmen des Studiums sollten angehende Lehrkräfte demzufolge sowohl für die Vielfalt von Lösungswegen als auch für die Existenz impliziter Beurteilungskriterien sensibilisiert werden.



Wissen, worauf es ankommt – Genügt Lehramtsstudierenden ein kurzer Einführungstext für eine kompetentere Analyse von Videobeispielen?

Monika Martin1, Meg Farrell2, Andreas Hetmanek2, Werner Rieß3, Tina Seidel2, Alexander Renkl1

1Albert-Ludwigs-Universität Freiburg, Deutschland; 2TUM School of Education, München; 3Pädagogische Hochschule Freiburg

Im Rahmen der Lehrkräfteausbildung werden zunehmend Videos von Unterrichtssituationen eingesetzt, um die professionelle Unterrichtsbeobachtung (Professional Vision; van Es & Sherin, 2002) zu schulen und so die Anwendung von theoretischem Wissen über Lehren und Lernen in einem praktischen Kontext zu erleichtern (Gaudin & Chalies, 2015). Allerdings ist der Einsatz solcher Videos nicht an sich effektiv. Entscheidend für den Lernerfolg ist die Einbettung der Videos in eine geeignete Lernumgebung (Seidel, Blomberg & Renkl, 2013; Blomberg, Renkl, Sherin, Borko & Seidel, 2013).

Die vorliegende Studie ist Teil des TEVI-Projekts („Teacher Education Video Improvement“), dessen Ziel es ist, evidenzbasierte Empfehlungen für den Einsatz von Videos zur Förderung der professionellen Unterrichtswahrnehmung zu geben. In dieser Studie wollten wir untersuchen, ob bereits ein kurzer thematischer Einführungstext Lehramtsstudierende dabei unterstützen kann, in einem Videobeispiel relevante Inhalte zu erkennen und zu erklären und ferner, ob solch ein Einführungstext sich positiv auf das Interesse und die kognitive Belastung auswirkt. Die Untersuchung wurde als 90-minütige Seminarsitzung konzipiert, in der Studierende in einer computergestützten Lernumgebung zunächst mithilfe eines Einführungstextes neues pädagogisch-psychologisches oder fachdidaktisches Wissen über die Lehr-Lernform Tutoring (hier: eine Lehrkraft betreut eine kleine Gruppe SchülerInnen) erwerben und dieses dann praktisch bei der Analyse von zwei Videobeispielen anwenden.

Insgesamt nahmen 87 Biologie-Lehramtsstudierende an der Untersuchung im Rahmen einer Sitzung eines Seminars zur Humanbiologie teil, in welchem fachwissenschaftliche sowie fachdidaktische Inhalte gelehrt wurden. Den Studierenden wurde zunächst zufällig eine von drei Versionen des Einführungstextes präsentiert (je ca. 1000 Wörter): In zwei Versionen wurden jeweils typische Verhaltensweisen einer Lehrkraft, die einem schülerzentrierten Tutoringstil entsprechen, solchen Verhaltensweisen gegenübergestellt, die man als wenig schülerzentriert bezeichnen würde. Ein Text fokussierte dabei fachübergreifende, generische pädagogisch-psychologische Aspekte (z.B. Gruppenmobilisierung); der andere Text erläuterte fachdidaktische Aspekte, insbesondere typische Alltagsvorstellungen von Schülerinnen und Schülern zum Thema Herz-Kreislauf-System und deren Adressierung. In einer Kontrollbedingung beinhaltete eine dritte Version des Einführungstextes allgemeine Hinweise zum Vorgehen bei der Analyse von Unterrichtsvideos sowie typische Beobachtungsfehler (z.B. voreilige Bewertung). Die anschließend präsentierten zwei Videobeispiele zeigten jeweils ca. 8-minütige Ausschnitte aus einer Tutoring-Sitzung mit vier SchülerInnen und einer Lehrkraft zur Einführung des Themas Herz-Kreislauf-System, in denen die Lehrkraft verschiedene mehr oder weniger schülerzentrierte Verhaltensweisen zeigte. Die Studierenden sahen die Videos jeweils einmal und hatten keine Möglichkeit, zu pausieren oder vor- und zurückzuspringen. Zudem konnten sie im Video Sequenzen markieren und anschließend kommentieren, warum ihnen diese Sequenzen relevant für den Lehr-Lernprozess zu sein schienen. Im Anschluss an jedes Video bewerteten sie die gesamte dargestellte Lernsituation auf Ratingskalen (angelehnt an das Projekt Observe; Seidel, Blomberg & Stürmer, 2010). Außerdem beantworteten die Studierenden während und nach der Bearbeitung der Videoaufgabe Fragebögen zu erlebter kognitiver Belastung und Situativem Interesse.

Die Studierenden in den Experimentalbedingungen, die eine der beiden inhaltlichen Versionen des Einführungstextes (entweder fachdidaktischer oder allgemein pädagogisch-psychologischer Fokus) gelesen hatten, berichteten signifikant höheres Situatives Interesse nach der Bearbeitung der Videobeispiele als diejenigen in der Kontrollbedingung, deren Einführungstext weniger konkrete Inhalte, sondern allgemein das professionelle Beobachten von Unterrichtsvideos thematisierte, η2 = .07. Außerdem erlebten sie eine höhere lernbezogene, also „produktive“ Belastung (Germane Cognitive Load; Sweller, van Merrienboer & Paas, 1998), η2 = .05 bei gleichzeitig geringerer „unproduktiver“ Belastung (Extraneous Cognitive Load), η2 = .04. Die Studierenden in den Experimentalbedingungen bewerteten die Videobeispiele auf den Ratingskalen treffender (Vergleich mit Expertenurteil), η2 = .05. Die Analyse der Kommentare zu den markierten Videosequenzen wird bis zur Tagung abgeschlossen sein. Die beiden Experimentalgruppen unterschieden sich insgesamt gesehen kaum, es zeigten sich jedoch teils deskriptive Vorteile der Bedingung mit dem fachdidaktischen Text. Die vorliegenden Ergebnisse deuten darauf hin, dass bereits kurze Einführungstexte über pädagogisch-psychologische oder fachdidaktische Aspekte des Tutoring den Blick „schärfen“ und die Lehramtsstudierenden dabei unterstützen können, relevante Ereignisse zu erkennen und fundiert zu beurteilen.



KI im Fach Geschichte – Wie künstliche Intelligenz bei der inhaltlichen und sprachlichen Beurteilung von Schülerantworten genutzt werden kann.

Christiane Bertram1, Ramon Ziai2, Zarah Weiss2, Lisa Henke2

1Universität Konstanz, Deutschland; 2Universität Tübingen, Deutschland

Historisches Denken ist mehr als eine Ansammlung chronologisch erzählter Daten und Fakten. Stattdessen sollen Schüler*innen im Geschichtsunterricht lernen, mit vorgegebenen Narrativen (z.B. in Schulbüchern) kritisch umzugehen (De-Konstruktion), sowie auf Fragen an die Vergangenheit quellen- und evidenzbasierte Antworten zu geben (Re-Konstruktion). Historisches Denken ist also untrennbar mit der Sprache verbunden. Zur Vermeidung einer construct underrepresentation (Messick, 1995) werden die Kompetenzen historischen Denkens daher häufig in offenen Aufgabenformaten erfasst (Barricelli, 2005; Handro & Schönemann, 2010; Hartung, 2013; Hodel et al., 2013; Mierwald & Brauch, 2015; Nitsche & Waldis, 2016; Smith, Breakstone & Wineburg, 2018; VanSledright, 2014). Um eine objektive, reliable und valide Beurteilung der Texte sicherzustellen, sollten diese von mindestens zwei Personen bewertet werden, ein Verfahren, das in groß angelegten Studien mit einem hohen Ressourcenaufwand verbunden ist.

In einem interdisziplinären Projekt von Geschichtsdidaktik, Computerlinguistik und Empirischer Bildungsforschung gingen wir deshalb der Frage nach, ob und wie künstliche Intelligenz in Form computerlinguistischer Methoden für die Auswertung von Schülerantworten im Fach Geschichte genutzt werden kann. Da mit Hilfe der computerlinguistischen Ansätze Automatic Content Assessment und Linguistic Complexity Assessment die inhaltliche Richtigkeit respektive die sprachliche Komplexität von Texten automatisiert bewertet werden kann, adressierten wir folgende Forschungsfragen:

(1) Kann mit Hilfe von Automatic Content Assessment die Richtigkeit von Schülerantworten automatisiert beurteilt werden?

(2) Kann mit Hilfe von Linguistic Complexity Assessment die sprachliche Komplexität der Schülerantwort, die der inhaltlichen Komplexität der Aufgabe entsprechen sollte, automatisiert beurteilt werden?

Die Studie nutzt die Daten einer Interventionsstudie (N = 962) im Geschichtsunterricht, in der Schüler*innen im Post-Test basierend auf drei historischen Dokumenten sieben offene Aufgaben bearbeiteten, die sich hinsichtlich ihrer Komplexität und des damit verbundenen inhaltlichen und sprachlichen Anspruchs substanziell voneinander unterschieden. Der verwendete Datensatz besteht aus N = 141 randomisiert ausgewählten Schülerantworten auf sieben Fragen, die von zwei Ratern beurteilt wurden. Die Interrater-Reliabilität war mit Werten von 0.75 < κ < 0.96 (Weighted Cohen’s Kappa) zufriedenstellend bis sehr gut.

Für die verwendeten computerlinguistischen Methoden gilt, dass ein Text anhand vordefinierter sprachlicher Merkmale quantifiziert wird, indem die Ausprägung dieser Merkmale in Zahlen übertragen wird. Diese werden in eine mathematische Relation zur menschlichen Bewertung gestellt, die als Gold Standard dient. Die so erlernte Relation erlaubt es, neue Texte automatisch auf Basis ihres Merkmalsvektors zu bewerten. Ob die automatisierte Vorhersage zutrifft, wird überprüft, indem die von Menschen annotierten Texte in Trainings- und Testdaten geteilt werden. Mit den Trainingsdaten lernt der Algorithmus die jeweils richtigen Muster, auf den Testdaten wird die Bewertung der Antworten automatisiert vorhergesagt und mit dem manuellen Rating verglichen.

Die Content Analysen wurde mit dem CoMiC-System (Comparing Meaning in Context, Meurers et al., 2011) berechnet. In den Aufgaben 1 und 5 stimmte der Computer mit beiden manuellen Ratings in einem fast perfekten Range (κ ≥.8) überein. Auch in den Aufgaben 6 und 7, in denen eigene Überlegungen angestellt und Schlussfolgerungen gezogen werden mussten, war die Übereinstimmung zwischen dem Computer und den Ratern substanziell hoch (A6: Interrater-Reliabilität: 0.83; CoMiC und Rater 1: 0.63; CoMiC und Rater 2: 0.68 / A7: Interrater-Reliabilität 0.88, CoMiC und Rater 1: 0.79; CoMiC und Rater 2: 0.66).

In den Komplexitätsanalysen wurde ein System mit 295 linguistische Merkmalen verwendet (Weiss & Meurers, 2018; Kühberger et al., 2019). Die automatisierte Vorhersage der Komplexität der Aufgabe durch die beobachtete sprachliche Komplexität der Schülerantwort entsprach der manuellen Klassifikation der Aufgabenkomplexität deutlich häufiger, als zufällig zu erwarten wäre: Mit 85,37% stimmte der Algorithmus mit der manuellen Klassifikation überein (34,12% wären zufällig richtig gewesen). Dabei spiegelten die zum Einsatz kommenden sprachlichen Merkmale die Komplexität der Aufgabe weitgehend wider.

Anhand der ermutigenden Ergebnisse werden die Potenziale und Grenzen der computerlinguistischen Methoden für die empirische Forschung in der Geschichtsdidaktik diskutiert.



Die Leistungserwartung von Grundschullehrkräften: Ihr komplexer Wirkungszusammenhang mit der Schülerinnen- und Schülerleistung im Fach Mathematik

Lena Hollenstein

Pädagogische Hochschule St.Gallen, Schweiz

Zum Erwartungseffekt im Klassenzimmer zeigt die empirische Forschung eine lange Forschungstradition (Rosenthal & Jacobson, 1968). Seit der ersten Experimentalstudie «Pygmalion in the classroom» von Rosenthal und Jacobson (1968) konnten beispielsweise mehrere Studien einen Erwartungseffekt im Klassenzimmer nachweisen (vgl. Rosenthal & Rubin, 1978; Jussim & Harber, 2005; Good, Sterzinger & Lavigne, 2018; Lorenz, 2018; Wang, Rubie-Davies & Meissel, 2018). In diesem Zusammenhang legen Forschungsbefunde dar, dass zukünftige Leistungen von Schülerinnen und Schülern durch Leistungserwartungen, die Lehrkräfte über ihre Schülerinnen und Schüler haben, beeinflusst werden können. Dabei wird von folgendem Wirkungszusammenhang ausgegangen: (1) Die Leistungserwartung von Lehrkräften beeinflusst ihr Handeln im Unterricht (z. B. die kognitive Aktivierung). (2) Das unterschiedliche Verhalten von Lehrpersonen im Unterricht fällt Schülerinnen und Schülern auf und sie interpretieren es (schülerinnen- und schülerperzipierte Leistungserwartung). (3) Die schülerinnen- und schülerperzipierte Leistungserwartung beeinflusst ihr Selbstkonzept und (4) letzteres hängt mit ihrer schulischen Leistung zusammen (Brophy & Good, 1970; West & Anderson, 1976; Brophy, 1983; Ludwig, 1991; McKown & Weinstein, 2008; Dubs, 2009). Zahlreiche Studien haben einzelne Zusammenhänge dieses komplexen Wirkungszusammenhangs untersucht, wie beispielsweise jenen zwischen der Leistungserwartung von Lehrkräften und ihrem Verhalten gegenüber den Schülerinnen und Schülern im Unterricht (Brophy & Good, 1970; Weinstein, 2002). Weitere Studien wurden zur schülerinnen- und schülerperzipierte Leistungserwartung als Mediator zwischen der Leistungserwartung von Lehrkräften und dem Selbstkonzept oder der Leistung von Schülerinnen und Schülern durchgeführt (Gill & Reynolds, 1999; Zhu, Urhahne & Rubie-Davies, 2018). Wenige Studien haben das Selbstkonzept als Mediator zwischen der Leistungserwartung von Lehrkräften und der Leistung von Schülerinnen und Schülern betrachtet (Friedrich, Flunger, Nagengast, Jonkmann & Trautwein, 2015). Es fehlen allerdings Studien, die den komplexen Wirkungszusammenhang im Gesamten untersuchen (Wang et al., 2018).

Der vorliegende Beitrag soll einen Versuch darstellen, diesen komplexen Wirkungszusammenhang empirisch zu prüfen. Dabei besteht nicht nur die Herausforderung, alle Komponenten des Wirkungszusammenhangs abzubilden, sondern auch den Erwartungseffekt beim Individuum getrennt von anderen (äusseren) Einflussfaktoren herauszukristallisieren (Good & Nichols, 2001).

Stellen die schülerinnen- und schülerperzipierte kognitive Aktivierung und die schülerinnen- und schülerperzipierte Leistungserwartung sowie ihr Selbstkonzept Mediatoren zwischen der Leistungserwartung von Lehrkräften und der Mathematikleistung von Schülerinnen und Schülern dar?

Die Analysen zur Beantwortung der Forschungsfrage basieren auf Daten, die im Rahmen einer vom Schweizer Nationalfonds unterstützen Längsschnittstudie WiL («Wirkungen der Lehrerausbildung auf professionelle Kompetenzen, Unterricht und Schülerleistung») erhoben wurden und stützen sich auf eine Stichprobe von 509 Schülerinnen und Schülern in 28 Grundschulklassen. Die Leistungserwartung von Lehrpersonen wurde über eine Punkteinschätzung der Lehrpersonen erfasst und mit Hilfe des Residuenansatzes von Madon, Jussim und Eccles (1997) gebildet. Die schülerinnen- und schülerperzipierte kognitive Aktivierung und Leistungserwartung sowie ihr Selbstkonzept wurde über einen Schülerinnen- und Schülerfragebogen und die Schülerinnen- und Schülerleistungen über einen standardisierten Mathematiktest erfasst. Die Analysen werden unter Kontrolle von folgenden Variablen durchgeführt: Alter, Geschlecht, soziale Herkunft, Vortestleistung von Schülerinnen und Schülern sowie Leistungserwartung ihrer Eltern.

Die Ergebnisse des spezifizierten Strukturgleichungsmodells zeigen zwar einen zufriedenstellenden Modell-Fit (RMSEA = .039, p = .657; CFI = .995; TLI = .975; SRMR = .019), können den komplexen angenommenen Wirkungszusammenhang allerdings nur teilweise bestätigen. Es zeigen sich zwar signifikante Zusammenhänge zwischen allen Komponenten des Wirkungszusammenhangs (Leistungserwartung von Lehrpersonen, schülerinnen- und schülerperzipierten kognitive Aktivierung, schülerinnen- und schülerperzipierten Leistungserwartung, Selbstkonzept und Leistung), allerdings wird zwischen der Leistungserwartung von Lehrpersonen und der schülerinnen- und schülerperzipierten Leistungserwartung ein signifikant negativer Zusammenhang deutlich. Die schülerinnen- und schülerperzipierte kognitive Aktivierung sowie ihre wahrgenommene Leistungserwartung stellen sich als eine Schlüsselstelle in diesem Wirkungszusammenhang heraus. Die Ergebnisse werden in Hinblick auf die Bedeutung für die Gestaltung von Bildungsangeboten für die individuellen Schülerinnen und Schüler diskutiert.

 
11:15 - 13:00D11–S13: Unterrichtsqualität
S13 
 

Zum Rückgang des Interesses an Physik in der Sekundarstufe: Welche Rolle spielt der Unterricht?

Lena Steidtmann1, Thilo Kleickmann2, Mirjam Steffensky1

1IPN - Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, Deutschland; 2CAU - Christian-Albrechts-Universität zu Kiel

Theoretischer Hintergrund

Interesse an schulischen Inhalten zu steigern oder zumindest zu erhalten ist ein wichtiges Bildungsziel, zumal es die Qualität des Lernens verbessert und im Zusammenhang mit Berufswahlentscheidungen steht (z.B. Frenzel et al., 2012). Allerdings sinkt das Interesse an schulischen Inhalten im Verlauf der Schulzeit deutlich ab (z.B. Anderhag et al., 2016). Dieser Trend ist in den mathematisch-naturwissenschaftlichen Fächern besonders stark ausgeprägt, insbesondere in den Fächern Physik und Chemie (Cheung, 2018; Krapp & Prenzel, 2011). Mädchen scheinen insbesondere ab der Sekundarstufe ein geringeres naturwissenschaftliches Interesse aufzuweisen als Jungen (Jocz et al., 2014).

Weitgehend unklar ist die Rolle des naturwissenschaftlichen Unterrichts für den Rückgang des Interesses an Physik in der Phase nach dem Schulübergang. Einige Befunde deuten darauf hin, dass die Qualität des Physikunterrichts in der Übergangsphase eine Rolle spielt (z.B. Tröbst et al., 2016). Gemäß des (fachübergreifenden) Ansatzes der Basisdimensionen von Unterrichtsqualität ist davon auszugehen, dass Schülerorientierung und Klassenführung positive Effekte auf die Entwicklung von Interessen haben sollten (Praetorius et al., 2018). Die Befundlage ist allerdings nicht konsistent (z.B. Fauth et al., 2014; Förtsch et al., 2017). Zudem fehlen Studien zum Physikunterricht, die mit längsschnittlichen Designs die Phase nach dem Schulübergang untersuchen.

Fragestellungen

Vor diesem Hintergrund untersuchten wir drei Fragestellungen: (1.) Wie entwickelt sich das Interesse an Physik bei Schüler*innen von der fünften bis siebten Jahrgangsstufe und gibt es unterschiedliche Verläufe bei Jungen und Mädchen? (2.) Welche Rolle spielt die Teilnahme am Physikunterricht für die Entwicklung des Interesses? (3.) Welche Rolle spielt die Unterrichtsqualität (Basisdimensionen) für die Interessensentwicklung?

Methoden

An der Studie nahmen 4.692 Sekundarschüler*innen teil (50 % weiblich, 55 % Gymnasium, 171 Schulklassen). Die Schüler*innen wurden am Ende der Jahrgangsstufen 5, 6 und 7 u.a. zu ihrem Interesse an Physik und zur Unterrichtsqualität befragt. Das Interesse an Physik wurde mit einer Skala aus fünf Items, die Unterrichtsqualität entlang von vier Basisdimensionen (kognitive Aktivierung, kognitive Unterstützung, motivationale Unterstützung, Klassenführung) mit insgesamt 20 Items erfasst (Kleickmann, Steffensky, & Praetorius, in press).

Die Entwicklung des Interesses sowie die Einflüsse des Unterrichts wurden mit latenten Differenzwert-Modellen auf within- und between-Ebene untersucht. Dieser Beitrag fokussiert die between-Ebene (Unterschiede zwischen Klassen). Zur Untersuchung der Fragestellung 2 nutzten wir ein natürliches quasi-experimentelles Design: Die 171 Klassen unterschieden sich darin, ob sie in den Jahrgangsstufen 6 und 7 jeweils Physikunterricht erhielten oder nicht.

Ergebnisse

Bezüglich Fragestellung 1 zeigte sich, dass das Interesse am Ende von Jahrgangsstufe 5 (Ausgangsniveau) bei durchschnittlich 1.84 Punkten (Skala von 1 bis 4 Punkten) lag. Vom Ende der Jahrgangsstufe 5 bis zum Ende der Jahrgangsstufe 6 sank das Interesse um 0.23 Punkte (0.31 SD), vom Ende der Jahrgangsstufe 6 bis zum Ende der Jahrgangsstufe 7 um weitere 0.11 Punkte (0.15 SD). Mädchen zeigten ein signifikant niedrigeres Ausgangsniveau im Interesse und tendenziell stärkeren Interessenrückgang als Jungen (allerdings nur von Jgst. 5 nach 6).

Hinsichtlich Fragestellung 2 zeigte sich, dass Klassen, die in Jahrgngsstufe 6 Physikunterricht erhielten, einen stärkeren Rückgang des Interesses von Jahrgangsstufe 5 nach 6 hatten als Klassen ohne Physikunterricht. Von Jgst. 6 nach 7 zeigte sich kein entsprechender Effekt.

Bezüglich Fragestellung 3 zeigte sich, dass die Unterrichtsqualität in den Jahrgangsstufen 6 und 7 im Zusammenhang mit der Entwicklung des Interesses im jeweiligen Schuljahr stand. Wie erwartet zeigten sich positive Effekte von kognitiver und emotionaler Unterstützung auf die Interessensentwicklung. Klassenführung hatte nur einen kleinen positiven Effekt in Jahrgangsstufe 6. Anders als erwartet zeigte sich in beiden Jahrgangsstufen ein positiver Effekt von kognitiver Aktivierung. Die Befunde geben somit Hinweise, wie der Rückgang des Interesses an Physik in der Sekundarstufe verringert werden kann.



Wer sieht am meisten? Unterschiede zwischen intuitiven Einschätzungen der Unterrichtsqualität von Studierenden, Schüler*innen und Bildungsexpert*innen

Lukas Begrich

Goethe Universität Frankfurt am Main, Deutschland

Im vorliegenden Beitrag werden Thin-Slices-Ratings für die videobasierte Erfassung der Unterrichtsqualität validiert. Thin-Slices Ratings sind Einschätzungen hinsichtlich persönlicher Eigenschaften, Verhaltenstendenzen oder Interaktionsmerkmalen von Zielpersonen, die auf ersten Eindrücken ungeschulter Beobachter*innen beruhen (Ambady, Bernieri, & Richeson, 2000). Zahlreiche Studien belegen sowohl die Reliabilität solcher Einschätzungen im Sinne hoher Übereinstimmungen zwischen verschiedenen Beobachter*innen als auch ihre Validität im Sinne bedeutsamer Zusammenhänge mit Kriterien wie etwa Selbstberichten der eingeschätzten Zielpersonen (z.B. Ambady et al., 2000; Wood, 2014). In vorangegangenen Studien konnte bereits nachgewiesen werden, dass sich auch die Qualität von Unterricht anhand von Einschätzungen ungeschulter Beobachter*innen, die auf Grundlage 30-sekündiger, zufällig ausgewählter Ausschnitte aus vollständigen Unterrichtsvideos abgegeben wurden, reliabel und valide erfassen lässt (Begrich, Fauth, Kunter, & Klieme, 2017; Begrich, Kuger, Klieme, & Kunter, 2019). Dabei zeigten sich durchweg sowohl hohe Übereinstimmungen zwischen den Einschätzungen verschiedener Beobachter*innen als auch signifikante Zusammenhänge mit Einschätzungen, die von geschulten Ratern auf Grundlage vollständiger Unterrichtsvideos abgegeben worden waren. Zudem konnte gezeigt werden, dass die Thin-Slices Ratings eine Differenzierung zwischen verschiedenen grundlegenden Dimensionen der Unterrichtsqualität erlauben (Begrich et al., 2019). Schließlich deuten erste Befunde darauf hin, dass sich Thin-Slices Ratings der Unterrichtsqualität auch als Prädiktoren des Lernerfolgs von Schülerinnen und Schülern eignen (Begrich et al., 2017). Somit scheinen sich Thin-Slices Ratings bei der Erfassung der Unterrichtsqualität als eine ökonomische Alternative zu den klassischen, zeit- und kostenintensiven Videoratings anzubieten.

Die Frage stellt sich jedoch, ob mit Hilfe von Thin-Slices-Ratings etwas erfasst werden kann, das spezifisch für die Unterrichtsqualität ist oder ob ihnen eher globale Persönlichkeitsurteile zugrunde liegen. Aus der Forschung ist bekannt, dass die Akkuratheit intuitiver Urteile, zu denen auch Thin-Slices-Ratings gerechnet werden können (Ambady, 2010), sowohl von einer gewissen Einstimmung auf relevante Hinweisreize aufgrund emotionaler Involviertheit (Ambady, 2010; Ambady et al., 2000) als auch von bereichsspezifischem Wissen auf Seiten der Beurteiler*innen (z.B. Dane & Pratt, 2007; Dane, Rockmann, & Pratt, 2012) profitieren. Aus diesem Grund sollten Thin-Slices Ratings der Unterrichtsqualität – sofern sie etwas erfassen können, dass spezifisch für die Unterrichtsqualität ist – eine inkrementelle Validität (vgl. Sechrest, 1963) aufweisen, wenn sie von Beurteiler*innen abgegeben werden, die über ein hohes Maß an bereichsspezifischen Wissen verfügen oder besonders auf das Decodieren unterrichtsbezogene Hinweisreize eingestimmt sind. Die hier vorgestellte Studie prüft daher, inwieweit sich Thin-Slices Ratings der Unterrichtsqualität von Psychologiestudierenden, Mittelstufenschüler*innen und Bildungsexpert*innen hinsichtlich ihrer prädiktiven Kraft bei der Vorhersage des Lernerfolgs von Schüler*innen unterscheiden.

Als Datengrundlage dienten Unterrichtsvideos und Schülerdaten aus der IGEL-Studie (Hardy et al., 2011). Als Rater nahmen 8 Psychologiestudierende, eine neunte Klasse eines Gymnasiums (n =24) sowie 8 Unterrichtsforscher an der Untersuchung teil. Alle Versuchspersonen schätzten auf Grundlage 30-sekündiger Ausschnitte aus den IGEL-Unterrichtsvideos die Unterrichtsqualität der gezeigten Lehrkräfte entlang der Basisdimensionen der Unterrichtsqualität auf je zwei Items ein (vgl. z.B. Praetorius, Klieme, Herbert, & Pinger, 2018). Diese Einschätzungen stimmten innerhalb Stichproben in hohem Maße überein und können damit als hoch reliabel gelten. In Mehrebenen-Regressionsanalysen konnte ferner festgestellt werden, dass die Thin-Slices Ratings der Unterrichtsqualität in allen Stichproben den Lernerfolg der Schüler*innen signifikant vorhersagen. Um eine mögliche inkrementelle Validität der Thin-Slices Ratings aus den einzelnen Stichproben zu prüfen, wurden in drei weiteren Mehrebenen-Regressionsmodellen die Ratings jeweils einer Basisdimension aus allen drei Stichproben simultan als Prädiktoren auf Klassenebene eingeführt. Dabei zeigte sich, dass die Thin-Slices Ratings der konstruktiven Unterstützung, die von Mittelstufenschüler*innen abgegeben worden waren, einen zusätzlichen Varianzanteil in den Testwerten der Schüler*innen erklären. Das gleiche gilt für Thin-Slices Ratings der Klassenführung, die von den Bildungsexpert*innen abgegeben worden waren. Dieser Befund deutet darauf hin, dass eine Einstimmung auf relevante Hinweisreize sowie reichhaltiges Wissen über relevante Aspekte des Unterrichtens zu genaueren intuitiven Einschätzungen der Unterrichtsqualität führen.



Wie (komplex) rezipieren Lehrkräfte Rückmeldungen von Vergleichsarbeiten?

Sarah Bez, Samuel Merk, Thorsten Bohl

Eberhard Karls Universität Tübingen

Im Zuge der Neuen Steuerung wurden länderübergreifend Vergleichsarbeiten (VERA) eingeführt, die unter anderem zu evidenzbasierter Schul- und Unterrichtsentwicklung führen sollen (KMK, 2006). Helmke und Hosenfeld (Helmke & Hosenfeld, 2005) beschreiben hierfür in ihrem Modell zur Nutzung von Evaluationsdaten in der Schule die Schritte Rezeption, Reflexion und Aktion, welche jeweils durch schulische und individuelle Faktoren beeinflusst werden. Dabei kommt der Rezeption der Ergebnisse besondere Bedeutung zu: Das adäquate Rezipieren, d.h. Verstehen der statistischen Informationen, ist eine notwendige Voraussetzung für die korrekte Reflexion der Ergebnisse unter Berücksichtigung von Kontextinformationen und für die Ableitung geeigneter Unterrichtsmaßnahmen.

Bisherige Studien zu VERA untersuchten hauptsächlich in retrospektiven Selbstauskünften von Lehrkräften die wahrgenommene Nützlichkeit, die Verständlichkeit, die Informativität der und den Umgang mit den Ergebnissen (Dedering, 2011; Altrichter, Moosbrugger, & Zuber, 2016). Alternative Datenquellen und Forschungsdesigns wie Beobachtungen und Prozessdaten gelten hingegen als Desiderat (Dedering, 2011; Altrichter et al., 2016). Einige Ergebnisse der seltenen Studien zur Datenkompetenz bei Lehrkräften und zum Verstehen der Rückmeldedaten von VERA weisen darauf hin, dass es Lehrpersonen eher schwerfällt, statistische Informationen korrekt zu rezipieren, obwohl sie sie als verständlich einschätzen (Koch, 2013; Zimmer-Müller, Hosenfeld, & Koch, 2014).

Der vorliegende Beitrag fokussiert vor diesem Hintergrund Rezeptionsprozesse von Rückmeldedaten nach VERA auf der Ebene einzelner Lehrkräfte mit folgenden leitenden Forschungsfragen:

  1. Welche Komplexität zeigen Lehrkräfte bei der Rezeption und Reflexion von Rückmeldungen zu Vergleichsarbeiten?
  2. Welche Bezugsnormen adressieren Lehrpersonen bei der Rezeption und Reflexion der Rückmeldungen?
  3. Inwiefern zeigen datenkompetente Lehrpersonen komplexere Elaborationen bei der Rezeption der Rückmeldungen von Vergleichsarbeiten?

Dazu wurde bei einer Gelegenheitsstichprobe von 25 Lehrpersonen eine Think-Aloud-Studie durchgeführt, um mündliche verbale Daten bezüglich der Rezeptionsprozesse zu generieren (van Someren, Barnard, & Sandberg, 1994). Zunächst wurden die Lehrkräfte gebeten, ihre Gedanken beim Betrachten zweier Grafiken ihrer VERA-Rückmeldungen laut zu äußern und dabei auf die adressierten Stellen in den Grafiken zu zeigen. Danach bearbeiteten sie einen Datenkompetenztest (adaptiert nach Koch, 2011). Die aufgezeichneten Äußerungen der Lehrkräfte wurden sekundengenau anhand der Think-Aloud-Protokolle hinsichtlich verschiedener Niveaustufen von Datenkompetenz (reading the data, reading between the data, reading beyond the data; Friel, Curcio, & Bright, 2001) sowie der verwendeten Bezugsnorm (sozial, kriterial, individuell) mithilfe eines deduktiv-induktiv entwickelten Schemas unabhängig von zwei geschulten Raterinnen geratet. Die Interraterreliabilität wurde mit Krippendorffs α (Hayes & Krippendorff, 2007) geschätzt und ergab befriedigende bis sehr gute Werte (.65 ≤ α ≤ .96). Alle Nicht-Übereinstimmungen wurden in Konsensurteile überführt. Die Länge der Think-Aloud-Protokolle betrug im Mittel 6.0 Minuten (Min = 2.4, Max = 14.0 min).

Zur Beantwortung der beiden ersten Forschungsfragen wurden die zeitlichen Anteile der Datenkompetenzstufen und der Bezugsnormen in den Think-Aloud-Protokollen berechnet (summierte Ratings im Verhältnis zur Gesamtdauer pro Think-Aloud-Protokoll). Hierbei zeigten sich für die Stufen der Datenkompetenz folgende deskriptive Werte: reading the data: Md= 1.94% (IQR[.00%-5.26%]), reading beetween the data: Md = 32.69% (IQR[17.54%-39.10%]), reading beyond the data: Md = 6.76% (IQR[1.09%-10.41%]), sowie für die Bezugsnormen kriterial: Md = 15.6% (IQR[4.82%-24.14%]), sozial: Md = 26.91% (IQR[15.47%-39.32%]), ipsativ: Md = 0.00% (IQR[0.00%-3.82%]). Damit weisen die Lehrkräfte in der Tendenz eine mittlere Komplexität bei der Rezeption auf und adressieren hauptsächlich die soziale Bezugsnorm. Zur Beantwortung der dritten Forschungsfrage wurden die Ratings mit den Ergebnissen der Datenkompetenztests korreliert. Hierbei ergab sich entgegen den Erwartungen keine signifikante positive Korrelation zwischen dem Anteil reading beyond the data und den Datenkompetenzscores (Kendalls τ = -0.01; p = 0.955) sowie keine negative Korrelation zwischen dem Anteil reading the data und den Datenkompetenzscores (Kendalls τ= 0.18; p = 0.296). Allerdings weisen datenkompetentere Lehrpersonen deskriptiv erwartungsgemäß höhere Anteile an Datenkompetenzstufen im Verhältnis zur Gesamtzeit der Think-Aloud-Protokolle auf (Kendalls τ = 0.22; p = 0.173).



Prädiktoren für gelungenen inklusiven Naturwissenschaftsunterricht – ein systematisches Literaturreview

Sarah Brauns, Daniela Egger, Simone Abels

Leuphana Universität Lüneburg, Deutschland

Ziel des inklusiven naturwissenschaftlichen Unterrichts ist es, allen Schüler*innen Partizipation an fachspezifischen Lernprozessen und die Entwicklung einer naturwissenschaftlichen Grundbildung zu ermöglichen (Menthe et al., 2017). Um inklusiven Unterricht auch wirklich fachbezogen gestalten zu können, müssen die spezifischen Aspekte naturwissenschaftlichen Unterrichts (z.B. Experimente, Phänomene, Schüler*innenvorstellungen, …) mit den Gelingensbedingungen inklusiven Unterrichts (Wertschätzung von Diversität, Minimierung von Barrieren, Ermöglichung von Partizipation) zusammengedacht werden (Stinken-Rösner et al., submitted).

Das BMBF Projekt Nawi-In (Naturwissenschaftlichen Unterricht inklusiv gestalten) geht zunächst einmal der Frage nach, entlang welcher lehrer*innenbezogenen Prädiktoren sich das Gelingen inklusiven naturwissenschaftlichen Unterrichts beschreiben lässt, um daraus ein Analyseraster für das weitere Forschungsvorgehen aufzustellen. In der weiterführenden Forschung soll die professionelle Kompetenzentwicklung von Studierenden bzgl. inklusivem naturwissenschaftlichen Unterrichts mithilfe des Rasters analysiert werden. Die professionelle Kompetenzentwicklung wird erhoben, indem Masterstudierende inklusiv naturwissenschaftliche Momente in Videoausschnitten zu drei Messzeitpunkten reflektieren, Unterricht in diesem Sinne zu zwei Zeitpunkten, zu Beginn und am Ende eines Langzeitpraktikums, selbst gestalten und videographieren. Um die audiographierten Reflexionen und die Videos zu analysieren, werden Kategorien inklusiven naturwissenschaftlichen Unterrichts benötigt. Diese Kategorien werden mithilfe eines systematischen Literaturreviews (SLR) aus theoretischen und empirischen Arbeiten aus dem Bereich des inklusiven naturwissenschaftlichen Unterrichts mit der Qualitativen Inhaltsanalyse induktiv ermittelt (Kuckartz, 2016). Die Auswahl der Literatur wurde in deutschen sowie internationalen Datenbanken, die jeweils einschlägig für bildungswissenschaftliche und fachdidaktische Publikationen sind, durchgeführt. Die an die Datenbanken angepassten Suchstränge wurden aus einer Kombination von Begriffsgruppen der inklusiven Pädagogik und des naturwissenschaftlichen Unterrichts gebildet (Bsp.: inklusiv* UND naturwissenschaftlich* UND Unterricht). Die Stichprobe von n=10787 Titeln wurde in einem Titel-Abstract-Screening auf eine finale Stichprobe von n=265 reduziert. Gesucht wurden Publikationen, die peer-reviewed sind, sich inhaltlich konkret auf den inklusiven naturwissenschaftlichen Unterricht fokussieren, auf Deutsch oder Englisch verfasst wurden, sich auf die Primar- oder Sekundarstufe I beziehen und bis Dezember 2018 veröffentlicht wurden.

Die deskriptive Darstellung der Stichprobe zeigt, dass zwei Drittel der Arbeiten theoretisch und nur ein Drittel empirisch erstellt wurden. Besonders seit dem Jahr 2010 ist die Anzahl der Publikationen im Bereich des inklusiv naturwissenschaftlichen Unterrichts stark gestiegen. Der Schwerpunkt der Stichprobe liegt mit 72% auf Literatur, die sich mit der Sekundarstufe I auseinandersetzt, 28% der Titel kommen aus dem naturwissenschaftlichen Sachunterricht. Besonders prägnant ist, dass in nur 5% der Arbeiten die Studierenden im Fokus liegen, der andere Teil bezieht sich auf Schüler*innen, Lehrkräfte oder sonstiges, wie Unterrichtsmaterialien.

Die inhaltsanalytische Auswertung der Stichprobe führte zu Kategorien, die von den Charakteristika des naturwissenschaftlichen Unterrichts ausgehen und mit Inklusion zusammendenken. Wie das Kategoriensystem aufgebaut ist, wird hier an einem Beispiel aufgezeigt. Für Experimente inklusiv gestalten wurden in der Stichprobe Codes zu folgenden Subkategorien zusammengefasst: Verschiedene Zugänge zu Experimenten anbieten, für Experimente verschiedene Niveaus berücksichtigen, für Experimente verschiedene Grade der Offenheit anbieten, für Experimente eine variable Lernzeit zur Verfügung stellen, verschiedene Ziele für Experimente planen, verschiedene Hilfen für Experimente anbieten, Experimente in Fachteams planen. Das Heranziehen der textnahen Ebene der Codes spezifiziert die Subkategorien, sodass Fragen, auf welche Weise z.B. verschiedene Zugänge zu Experimenten geschaffen werden, dargestellt und genauer erläutert werden können.

Insgesamt zeigt die Auswertung der Stichprobe diverse Forschungslücken im Bereich des inklusiven naturwissenschaftlichen Unterrichts auf und fasst zum ersten Mal Prädiktoren inklusivem naturwissenschaftlichen Unterrichts zusammen. Dieses bietet die Grundlage zur Erstellung eines Analyserasters, um im oben genannten Forschungsvorhaben die in der Literatur normativ formulierten und zum Teil empirisch belegten Prädiktoren inklusiven naturwissenschaftlichen Unterrichts auf Audio- und Videodaten sowie auf die Praxis anzuwenden.

 

Datum: Freitag, 27.03.2020
9:00 - 10:45F9–S13: Selbstkonzept, Feedback und Integration
S13 
 

„Kinder mögen Kinder, von denen die meisten Kinder denken, dass die Lehrerin sie mag“ – Eine em-pirische Studie zum Zusammenhang zwischen der Wahrnehmung von Lehrkraftrückmeldungen durch Grundschulklassen und der sozialen Integration von Grundschüler*innen.

Christian Huber, Philipp Nicolay, Simone Schulze

Bergische Universität Wuppertal

Die schwache soziale Partizipation von Schüler*innen mit Lern- und Verhaltensproblemen ist ein häufig replizierter Befund der Inklusionspädagogik (Bless, 2007; Krawinkel, Südkamp, Lange & Troster, 2017). Diese Studie bezieht sich auf die soziale Akzeptanz als ein Teilaspekt der sozialen Partizipation (Koster, Nakken, Pijl & van Houten, 2009). Unklar ist bislang, wie man soziale Akzeptanz beeinflussen kann. Grundsätzlich wird in dieser Studie die Hypothese verfolgt, dass das Lehrkraftfeedback diesen Zusammenhang moderieren könnte. Theoretische Grundlage ist dabei die soziale Referenzierungstheorie (Feinman, 1992; Huber, 2019). Dabei wird angenommen, dass positives Lehrkraftfeedback die Chance auf eine positive soziale Akzeptanz in der Klasse erhöht und negatives Lehrkraftfeedback die Chance auf eine gute soziale Akzeptanz verringert. Entscheidend für die Wirkrichtung ist weniger die von den Lehrkräften intendierte Valenz ihres Feedbacks, sondern wie dieses von den Schüler*innen wahrgenommene wird. Erste Studien konnten moderate bis hohe Effekte der Valenz des Lehrkraftfeedbacks auf die soziale Akzeptanz zeigen (z.B. Huber, Gerullis, Gebhardt & Schwab, 2018; White & Jones, 2000). Die vorliegenden Studien beruhen jedoch bislang oft auf Experimentaldesigns und berücksichtigen mehrheitlich nicht die von den Schüler*innen wahrgenommene Valenz des Lehrkraftfeedbacks. In der hier eingereichten Studie zielt genau auf diese Forschungslücke ab.

Die Studie wurde als Querschnittsstudie an 45 Grundschulklassen in Nordrhein-Westfalen durchgeführt. Die Stichprobe besteht aus insgesamt N = 930 Kindern der Klassen 3 und 4. Als abhängige Variable (AV) wurde der individuelle soziometrische Status der Schüler*innen durch einen Wahl- (AV1: WST) und einen Ablehnungsstatus (AV2: AST) nach Moreno (1974) gemessen. Zusätzlich wurde für alle Schüler*innen der Förderbedarf im Bereich Lernen (UV1: LE) und Bereich Verhalten (UV2: VE) als Proxy erhoben. Als zentrale UV wurde das von den Schüler*innen wahrgenommene positive und negative Lehrkraftfeedback gegenüber jedem anderen Kind der Klasse erhoben (Skala 1-5: wie häufig lobt Deine Lehrerin Schüler*in X). Das wahrgenommene Feedback wurde für jedes Kind auf Klassenebene aggregiert, sodass sich daraus für alle Kinder ein Durchschnittswert für den Erhalt von positivem (UV3: FB+) und negativem Lehrkraftfeedback (UV4: FB-) ergab. Das Geschlecht und das Klassensystem (1,2, 3, 4 getrennt, 1+2 / 3+4 gemeinsam, 1-4 gemeinsam) flossen als Kontrollvariablen in die Auswertung ein. Die Datenanalyse erfolgte durch zwei Mehrebenen-Regressionsmodelle. Es wurde grundlegend angenommen, dass es (HYP1) einen signifikanten Effekt der beiden Förderbedarfe auf den Wahl- und den Ablehnungsstatus der Schüler*innen gibt. Im Rahmen der für die Studie zentralen Hypothesen wird vermutet, dass

  • es einen signifikanten Zusammenhang zwischen FB+/FB- und WST und AST gibt (HYP2).
  • einen Interaktionseffekt zwischen FB+/FB- und dem Einfluss des Förderbedarfs LE und VE auf den AST und den WST eines Kindes gibt (HYP3).
  • es einen Zusammenhang zwischen dem Niveau des von Schüler*innen wahrgenommenen Feedback auf Klassenebene auf das Ausmaß von sozialen Wahlen und sozialen Ablehnung gibt in der Klasse (HYP4).

Die Ergebnisse zeigen sich weitgehend in der vorhergesagten Weise. Der bereits häufig replizierte Zusammenhang zwischen Förderbedarf LE und VE und der sozialen Akzeptanz war replizierbar (HYP1). Weiter zeigte sich ein signifikanter Effekt von FB+ (b=-6.39, p<.001) und FB- (b=9.26, p<.001) auf den Ablehnungsstatus und von FE+ auf den Wahlstatus (b=9.55, p<.001) (HYP2). Ebenso zeigten sich signifikante Interaktionseffekte zwischen FB+ und FB- und dem Einfluss der Förderbedarfe LE und VE auf den AST in der vorhergesagten Richtung. Für den WST war hier lediglich ein abschwächender (Interaktions-) Effekt von FB+ auf die Wirkung von VE nachweisbar (HYP3). Ferner zeigte sich, dass Klassen, in denen die Schüler*innen auf Klassenebene viel positives Feedback ihrer Lehrkräfte wahrnahmen im Durchschnitt prozentual weniger Kinder abgelehnt wurden (r=.37; p=.02) (HYP 4). Im Beitrag sollen der theoretische Hintergrund sowie die Ergebnisse der Studie vor dem Hintergrund des Tagungsthemas diskutiert werden. Besonderen Stellenwert wird dabei die Frage erhalten, wie Lehrkräfte soziale Teilhabeprozesse und in der Schule beeinflussen können.



Wie Schulleistung und Lehrkraftfeedback die soziale Integration beeinflussen

Philipp Nicolay, Christian Huber

Bergische Universität Wuppertal, Deutschland

Nationale und internationale Befunde zeigen, dass die soziale Integration von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf im Gemeinsamen Unterricht ungünstiger verläuft als gewünscht (u.a. Kavale & Forness, 1996; Huber & Wilbert, 2012). Auf der Ebene der Variablen von Schülerinnen und Schülern ist besonders der Zusammenhang zwischen Schulleistung und sozialer Integration ein häufig replizierter Befund. Es ist bislang allerdings unklar, ob die schwächere soziometrische Stellung schulleistungsschwacher Kinder eine direkte Folge von schwachen Schulleistungen oder die ungünstigen Schulleistungen eine Folge der sozialen Position sind. Unklar ist bislang auch, wie die soziale Integration von Schülerinnen und Schülern mit Schulleistungsproblemen gefördert werden kann. Einige Forschungsgruppen verweisen in diesem Zusammenhang auf das öffentliche Feedbackverhalten einer Lehrkraft (White & Jones, 2000; McAuliffe, Hubbard & Romano, 2009; Chang, 2003; 2004). Grundlage für diese Vermutung ist die Theorie sozialer Referenzierungsprozesse (Feinman, 1992). Dabei wird angenommen, dass sich Schülerinnen und Schüler bei der Wahl ihrer Sozialkontakte an ihren Lehrkräften orientieren (Webster & Forchi, 1992; White & Jones, 2000). Schulkinder, die von ihrer Lehrkraft positives Feedback erhalten, hätten demnach eine höhere Chance auf eine günstige soziale Integration als Kinder, die negatives Feedback von der Lehrkraft erhalten. Bisherige Studien geben erste Hinweise auf diesen Effekt (u.a. Huber et al., 2018). Eine Limitation der bislang vorliegenden Studien ist allerdings ihre vergleichsweise schwache ökologische Validität und unklare Erkenntnisse zu Ursache und Wirkung des Effekts.

Die hier dargestellte Studie knüpft an diese Forschungslücken an und untersucht drei Forschungsfragen: 1.) Lässt sich die soziale Akzeptanz eines Kindes durch seine Schulleistung erklären? 2.) Lässt sich die soziale Akzeptanz eines Kindes durch die Valenz des Lehrkraftfeedbacks erklären? 3.) Wird der Effekt der Feedback-Valenz auf die soziale Akzeptanz durch den Feedback-Fokus moderiert?

Zur Beantwortung dieser Fragestellungen wurde ein Experiment mit N = 737 Grundschulkindern durchgeführt. Hierfür wurde den Kindern zunächst ein fiktives Grundschulkind in einem Experimentalvideo vorgestellt. In einem Pretest wurde die spontane soziale Akzeptanz gegenüber diesem Kind gemessen. Die Messung der sozialen Akzeptanz erfolgte mit einer an die Soziometrie angelehnten Skala (AV1; αpre = .78, αpost = .86) und der CATCH-Skala (AV2; Schwab, 2015). In der darauffolgenden experimentellen Manipulation sahen die teilnehmenden Kinder Szenen aus einem Schultag des fiktiven Grundschulkindes. Diese Szenen variierten dabei sowohl die gezeigte Schulleistung (UV1: dreifach gestuft, gut/ mittel/ schwach) als auch das Feedback der Lehrkraft (UV2 & UV3) als Between-Subjekt-Faktor variiert. Die Variation des Lehrkraftfeedbacks erfolgte in Anlehnung an Hattie und Timperly (2007) getrennt für Valenz (UV2: zweifach gestuft, postiv/ negativ) und Fokus (UV3: zweifach gestuft: Person/ Aufgabe). Am Ende des Experiments erfolgte jeweils eine Posttestmessung der sozialen Akzeptanz. Das Experiment entspricht damit einem 3x2x2 Versuchsplan.

Die Datenanaylse erfolgte mit einer 3x2x2x2 MANOVA mit Messwiederholung. Als Zwischensubjektfaktoren floßen Leistungstyp, Valenz und Fokus des Lehrkraftfeedbacks sowie Geschlecht in die Auswertung ein.

Die Ergebnisse zeigen einen signifikanten Effekt von Messzeitpunkt * Leistungstyp, F(4, 1222) = 17.34, p < .001**, η2p = .054 und Messzeitpunkt * Valenz des Lehrkraftfeedback, F(2, 610) = 22.73, p < .001**, η2p = .069 auf die soziale Akzeptanz des fiktiven Schulkindes. Univariate Tests bestätigen diese Effekte für beide abhängigen Variablen. Die soziale Akzeptanz gegenüber dem fiktiven Schulkind war bei einer schwachen Schulleistung signfikant geringer als bei einer guten oder mittleren Schulleistung. Negatives Lehrkraftfeedback führte zu einer signfikant negativeren Veränderung der sozialen Akzeptanz als ein positives Lehrkraft Feedback.

Ein signifikanter Effekt von Messzeitpunkt * Valenz des Lehrkraftfeedback * Fokus des Lehrkraftfeedbacks auf die soziale Akzeptanz des fiktiven Schulkindes konnte nicht gefunden werden, F(2, 610) = 1.87, p = .155, η2p = .006. Der Fokus des Lehrkraftfeedbacks scheint den Effekt der Valenz des Lehrkraftfeedback nicht zu moderieren. Die Befunde der Experimente sollen vorgestellt und diskutiert werden.



Das Zusammenspiel kognitiver Fähigkeiten und Gewissenhaftigkeit bei der Vorhersage von Schulleistungen

Jennifer Meyer1, Fabian T.C. Schmidt2, Johanna Fleckenstein1, Ulrich Trautwein3, Olaf Köller1

1IPN Kiel, Deutschland; 2Universität Hamburg; 3Universität Tübingen

Kognitive Fähigkeiten und Persönlichkeitseigenschaften, insbesondere Gewissenhaftigkeit, gehören zu den wichtigsten Prädiktoren von Schulleistungen. Bisher wurden diese Effekte hauptsächlich inkrementell untersucht (Poropat, 2009; Spengler et al., 2013; Meyer et al., 2019). Über diese additiven Effekte hinaus kann ein synergistischer Interaktionseffekt angenommen werden, der bereits in älteren Theorien im Kontext der Organisationspsychologie beschrieben wurde (siehe Campbell, 1976, Maier, 1965). Eine solche Interaktion bedeutet, dass durch Gewissenhaftigkeit der Effekt kognitiver Fähigkeiten auf die Leistung verstärkt werden kann, und umgekehrt. Diese Sichtweise umfasst ein potentielles Zusammenspiel kognitiver und nicht-kognitiver Fähigkeiten (z.B. Persönlichkeitseigenschaften), welches kritisch diskutiert wird (siehe DeYoung, 2011). Einige empirische Untersuchungen zu potentiellen Interaktionen dieser Konstrukte wurden im Kontext beruflicher Leistungen durchgeführt (Mount, et al., 1999; van Iddekinge et al., 2018; Perry et al., 2010), einige auch im Bereich von Schulleistungen (Di Dominenco & Fournier, 2015; Bergold & Steinmayr, 2018; Zhang & Ziegler, 2015; Ziegler et al., 2009). Diese empirischen Untersuchungen zeigten teilweise inkonsistente Befunde. Ein Grund für diese eher inkonsistenten Befunde ist die Schwierigkeit, Interaktionen aufgrund der geringen Effektstärke und der Messfehlerbehaftung der Instrumente aufzudecken (siehe Nagengast et al., 2011). Somit sind weitere systematische Untersuchen im Large-Scale notwendig. Im Hinblick auf domänenspezifische und leistungsmaßspezifische Befunde zu den Effekten von Gewissenhaftigkeit und kognitiven Fähigkeiten (Meyer et al., 2019; Spengler et al., 2013) sollten diese bei der Untersuchung potentieller Interaktionseffekte differenziert betrachtet werden. Es lässt sich annehmen, dass sich synergistische Interaktionen besonders in den Domänen und Leistungsmaßen zeigen, bei denen die Relevanz des Lernverhaltens hoch ist (d.h. schulbasierte Maße in lernintensiven Domänen, z.B. Mathe). Dasselbe gilt für kumulative Leistungen, wie beispielweise die Abiturdurchschnittsnote, die konsistentes Lernverhalten in besonderem Maße widerspiegelt.

Ziel dieser Studie war es, potentielle Interaktionseffekte von Gewissenhaftigkeit und kognitiven Fähigkeiten auf Schulleistungen in der Oberstufe sowohl für unterschiedliche Leistungsoutcomes domänenspezifisch zu untersuchen. Auch die Abiturdurchschnittsnote als domänenübergreifendes wichtiges Leistungsoutcomes mit hoher Relevanz für die akademische Laufbahn der Schülerinnen und Schüler wurde einbezogen.

Methode

Zur Untersuchung der Fragestellung wurden Sekundäranalysen auf Basis von vier Large-Scale Datensätze (TOSCA: N = 4709, Köller et al., 2004; TOSCA-R: N = 4912, Trautwein et al., 2007; LAU: N = 5241, Trautwein et al., 2007; LISA: N = 3775, Leucht et al., 2016) aus unterschiedlichen deutschen Bundesländern mit Schülerinnen und Schülern der 13. Klasse durchgeführt. Die Analysen wurden soweit möglich über die Stichproben konstant gehalten. Kovariaten waren die Schulform (allgemeines vs. berufliches Gymnasium), sozioökonomischer Status, und Geschlecht sowie die anderen vier Persönlichkeitseigenschaften. Zur Messung der kognitiven Fähigkeiten wurden Untertests des KFT4-12R (Heller & Perleth, 2004) eingesetzt. Die Modellierung des Interaktionseffekts erfolgte latent (LMS; Klein & Moosbrugger, 2001), um die Messfehler des Interaktionsterms zu reduzieren. Noten und Prüfungsergebnisse lagen in den Domänen Mathematik, Deutsch und Englisch vor. Standardisierte Testergebnisse waren für Mathematik und Englisch verfügbar.

Die Ergebnisse zeigen über alle vier Studien hinweg einen konsistenten synergistischen Interaktionseffekt kognitiver Fähigkeiten mit Gewissenhaftigkeit auf die Abiturdurchschnittsnote. Weiterhin zeigte sich der Interaktionseffekt konsistent für die Mathe-Domäne, mit tendenziell konsistenteren Effekten für die schulbasierten Leistungsmaße (Noten, Abiturprüfungen) im Vergleich mit standardisierten Leistungstests. Die Effekte für die sprachlichen Domänen (Deutsch, Englisch) waren inkonsistent über die Studien hinweg. Die gefundenen Effektstärken variierten zwischen β=.04 und β=.12 und lassen sich als klein bezeichnen. Die Größe des Interaktionseffekts lässt jedoch keine Schlüsse über dessen Bedeutung zu (Busemeyer & Jones, 1983).

Die Befunde werden im Hinblick auf mögliche Unterschiede zwischen den Studien diskutiert. Ein weiterer Diskussionspunkt sind Implikationen des Interaktionseffekts für die Bedeutung kognitiver und nicht-kognitiver Konstrukte bei der Vorhersage von Schulleistungen. Die Ergebnisse verdeutlichen weiterhin die Relevanz der domänenspezifischen Betrachtung von Schulleistungen und beleuchten die Rolle unterschiedlicher Leistungsmaße.

 
11:15 - 13:00F11–S13: Lernprozesse zum Lesen und Schreiben
S13 
 

The Power of Intrinsic Reading Motivation – Eye Movement Analyses

Anja Rettig, Ulrich Schiefele

Universität Potsdam, Deutschland

Reading motivation is conceptualized as a multidimensional construct (Wigfield & Guthrie, 1997). This conceptualiation is based on the idea that various motives may initiate reading activities (Wigfield, 1997). Intrinsic reading motivation refers to motives that are closely related to the reading activity or object of reading itself; extrinsic reading motivation refers to motives that are more external and not reading specific. Reading motivation, especially intrinsic reading motivation, plays an important role in reading acquisition as it determines the amount and breath of reading which affect in turn reading comprehension (for a review, Schiefele, Schaffner, Möller, Wigfield, 2012).

Despite numerous research in this domain, there are still some blind spots that demand our attention. First,we know pretty little about the importance of reading motivation in early elementary grades (i.e., below grade 4). Second, the analysis of causal relations demands longitudinal studies, but most results are based on cross-sectional data. Third, while we know a lot about effects on higher-level cognitive processes like comprehension, very little is known about effects on basic reading processes. It is assumable that reading motivation not only affects reading comprehension via an increase of reading amount, but that it also facilitates basic text processing by increasing students’ readiness for reading.

We aim to fill in this gap of research by presenting longitudinal reading-motivation and eye-movement data that inform us about the development of basics reading processes. These data were collected for German elementary-school students in grades 1-4 in two successive years (n= 141). Data on self-reported habitual intrinsic and extrinsic reading motivation were collected at school by means of the Reading Motivation Questionnaire for Elementary Students (RMQ-E; Stutz, Schaffner, & Schiefele, 2017). The instruction as well as all items were read aloud by the researcher. For supporting children with the four-point rating format, in addition to verbal labels differently sized circles were presented. Furthermore, items were expressed as questions for first and second graders to increase comprehensibility. Eye movements were recorded in a separate individual experimental session. Children read a corpus of single age-appropriate as well as first-grade-level (n= 24) sentences on a computer screen. The number of age-appropriate sentences was smaller in grade one (n = 32) than in grades 2–4 (n= 48) to avoid exhaustion of beginning readers. The here presented results are based on age-appropriate material only as comparability of reading difficulty weights higher than comparability of text characteristics when examining effects of reading motivation on text processing.

In both years, intrinsic but not extrinsic reading motivation was significantly related to various eye-movement measures. Higher scores of intrinsic reading motivation were related to shorter fixations, longer saccades, fewer refixations, and larger perceptual spans. This resulted in an increased reading rate (words per minute). While the correlations between extrinsic reading motivation and different eye-movement measures were close to zero in year one, the pattern of correlations was consistently reverse to the one of intrinsic reading motivation in year two. Longitudinally, year-one intrinsic reading motivation effected year-two gaze duration, total reading time, refixation probability, and perceptual span in the expected way. Path analyses revealed that intrinsic reading motivation positively affects basic reading processes but not vice versa. These results shed a first light onto the importance of intrinsic reading motivation for the development of basic reading processes. Furthermore, our results confirm extrinsic reading motivation as an opponent to intrinsic reading motivation.



Textverständnis und die Entwicklung lexikalischen Zugriffs beim Hörverstehen im Grundschulalter

Patrick Dahdah1, Johannes Naumann1, Tobias Richter2, Maj-Britt Haffmanns3, Julia Schindler2

1Bergische Universität Wuppertal; 2Julius-Maximilians-Universität Würzburg; 3Universität Kassel

Laut der lexical quality hypothesis (Perfetti & Hart, 2001) hängt Leseverstehen von dem effektiven Zugriff auf lexikalische Repräsentationen ab, welche sich aus den orthografischen, phonologischen und bedeutungsbezogenen Komponenten eines Wortes zusammensetzen. Besonders die Repräsentation von Wortbedeutungen scheint eine prädiktive und mediierende Rolle bei erfolgreichem Leseverstehen einzunehmen, und zwar unabhängig von lesespezifischen Dekodierprozessen (Richter, Isberner, Naumann, & Neeb, 2013; Nouwens, Groen, Kleemans, & Verhoeven, 2018). Ein ineffizienter Zugriff auf lexikalische Repräsentationen führt zu einer größeren Auslastung des Arbeitsgedächtnisses und folglich zu schlechteren Leistungen höherer Verstehensprozesse, wie etwa dem Bilden von Inferenzen (Perfetti, 1985).

Fragestellung

Die aktuelle Studie befasst sich mit der Entwicklung des Zugriffs auf Wortbedeutungen im Verlauf der Grundschulzeit sowie mit der Frage, ob der Zugriff auf Wortbedeutungen beim Hörverstehen ähnlich wie beim Leseverstehen einen prädiktiven Zusammenhang mit Textverständnis aufweist. Es wird vermutet, dass die Entwicklung des Zugriffs auf Wortbedeutungen nicht durchgängig linear, sondern zum Ende der Grundschulzeit hin abgeflacht verläuft (vgl. Hill et al., 2008).

Methode

Zwei Kohorten mit insgesamt 1114 Grundschulkindern aus Frankfurt am Main und Kassel nahmen jeweils zu fünf verschiedenen Zeitpunkten an einer längsschnittlichen Untersuchung teil. Die erste Erhebung fand zu Beginn der ersten Klasse statt, mit weiteren Erhebungen jeweils am Ende der ersten bis vierten Klasse. Für die Erfassung des Zugriffs auf Wortbedeutungen wurde eine Kategorisierungsaufgabe aus dem ProDi-H (dem noch unveröffentlichten auditiven Äquivalent zu ProDi-L – Prozessbasierte Diagnostik von Lesefähigkeiten bei Grundschulkindern; Richter, Naumann, Isberner, Neeb, & Knoepke, 2017), ein computergestütztes Verfahren zur Erfassung einzelner Teilprozesse des Hörverstehens, verwendet. Hierbei bekamen die Teilnehmer und Teilnehmerinnen Wörter (z.B. Apfel) über Kopfhörer präsentiert und sollten dann entscheiden, ob das jeweilige Wort einer zuvor genannten Kategorie (z.B. Obst) zuzuordnen sei. Des Weiteren wurde an den letzten drei Zeitpunkten der Untertest Textverständnis aus dem ELFE 1-6 (computergestützte Version, Lenhard & Schneider, 2006) vorgelegt.

Ergebnisse

Für die Untersuchung des Entwicklungsverlaufs des lexikalischen Zugriffs während der Grundschulzeit wurde ein bayesianisches latentes Wachstumskurvenmodell (latent growth curve model) berechnet, in dem sowohl eine lineare als auch eine quadratische Komponente integriert wurden. Als Kriteriumsvariable wurde das Textverständnis am Ende der zweiten und der vierten Klasse betrachtet. Die Analyse erfolgte mit der Statistik-Software Mplus (Version 8.3; Muthén & Muthén, 2017). Das resultierende Modell zeigte einen guten Fit (ppp = .55). Der Mittelwert der Kategorisierungsaufgabe betrug MI = 293.40 (95% CI [288.67, 298.15]), es wurden sowohl ein linearer (ML = 52.44, 95% CI [47.82, 56.92]) als auch ein quadratischer Trend (MQ = -3.18, 95% CI [-4.19, -2.13]) gefunden. Weiterhin wurden Kovarianzen für den Entwicklungsverlauf zwischen dem Interzept und dem quadratischen Trend (Cov(I ,Q) = -88.86, 95% CI [-113.93, -52.82]), sowie zwischen dem linearen und dem quadratischen Trend (Cov(L, Q) = -49.77, 95% CI [-80.85, -29.44]) gefunden. Der Interzept zeigte einen prädiktiven Zusammenhang mit Textverständnis am Ende der zweiten Klasse (β0 = .04, 95% CI [.02, .08]), der lineare Trend prädizierte hingegen Textverständnis am Ende der vierten Klasse (β1 = .20, 95% CI [.09, .42]). Gleichzeitig sagte das Textverständnis am Ende der zweiten Klasse das Textverständnis am Ende der vierten Klasse voraus (β1 = .44, 95% CI [.18, .80]).

Die Ergebnisse sprechen dafür, dass die bedeutungsbezogene Komponente lexikalischer Repräsentationen beim Hörverstehen ähnlich wie beim Leseverstehen einen prädiktiven Zusammenhang mit Textverstehen aufweist. Während das Textverständnis am Ende der zweiten Klasse noch vom Niveau des lexikalischen Zugriffs zu Beginn der Grundschule abhängt, wird das Textverständnis am Ende der vierten Klasse von der Entwicklung des Zugriffs im Laufe der Grundschulzeit beeinflusst. Dies spricht dafür, dass negative Auswirkungen eines ineffizienten Zugriffs zu Beginn der Schulzeit auf das Textverständnis vermieden werden können, wenn Defizite beim Zugriff auf Wortbedeutungen im Laufe der Grundschulzeit beseitigt werden.



Konzessive literale Prozeduren beim argumentativen Schreiben in der Grundschule. Ergebnisse einer Studie in Jahrgangsstufe 4

Veronika Österbauer1, Antonia Bachinger1, Gabriele von Eichhorn1, Michael Krelle2

1Bundesinstitut für Bildungsforschung, Innovation und Entwicklung des österreichischen Schulwesens, Österreich; 2Technische Universität Chemnitz

„Literale Prozeduren“ bzw. „Textroutinen“ gelten im deutschsprachigen Raum als wesentlicher Aspekt der Schreibkompetenz (Feilke 2012, Steinhoff 2007). International wird eine vergleichbare Diskussion entlang der Begriffe „patterns“ bzw. „frame-markers“ und „writing skills“ geführt (Hempel & Degand, 2008; Smith, 2003). Prozeduren sind so gesehen sprachliche Form-Funktionseinheiten in schriftlichen Texten, die ausdrucksseitig eine saliente Gestalt aufweisen und rekurrente kommunikative Aufgaben beim Schreiben erfüllen. Sie liegen zwischen der Satzebene und der globalen Ebene eines Textes und fokussieren unter anderem auf lexikalische, grammatische und textstrukturelle Aspekte (Feilke, 2012, pp. 7-11, 17-18).

Eine besondere Bedeutung beim argumentativen Schreiben wird sog. „konzessiven (literalen) Prozeduren“ zugeschrieben (Feilke 2010). Sie zählen zu den textbildenden Prozeduren. So gilt etwa die zweiteilige konzessive Prozedur „zwar ... aber“ als satzübergreifendes Werkzeug des Argumentierens, mit dem „mögliche Gegenargumente oder Einstellungen vorweggenommen werden, und gleich anschließend den so bereiteten textlichen ‚Sympathieboden‘ für ein eigenes Gegenargument zu nutzen [...]“ (Feilke 2010, p. 11). Insgesamt liegen zu solchen Prozeduren allerdings nur wenige Studien vor, die sich zudem auf die Sekundarstufen oder auf erwachsene Schreiberinnen und Schreiber beziehen (Petersen 2013, Steinhoff 2007). Es stehen deshalb zwei Forschungsfragen im Mittelpunkt:

  • Über welche konzessiven Prozeduren verfügen Schülerinnen und Schüler am Ende der Primarstufe?
  • Sind Prozeduren ein zentraler Indikator für die Schreibkompetenz?

Grundlage der Studie sind Viertklässlerinnen und Viertklässler aus allen österreichischen Bundesländern. Die repräsentativen Daten wurden 2015 im Rahmen der nationalen Bildungsstandardüberprüfung (BIST-Ü) erhoben. Im Rahmen eines komplexen Testdesigns wurde eine Reihe Schreibaufgaben eingesetzt. In der Studie werden die Daten zu zwei argumentativen Schreibaufgaben analysiert (1860 Texte).

Zur Beantwortung der ersten Forschungsfrage wurden die bei u.a. Feilke ausgewiesenen konzessiven Prozeduren durch verschiedene Raterinnen und Rater kodiert. Die Ergebnisse geben Auskunft über Vorkommenshäufigkeiten sowie Grade der richtigen und angemessenen Verwendung der Prozeduren. Es zeigt sich, dass Schülerinnen und Schülern in der vierten Jahrgangsstufe bereits über ein breites Repertoire an textbildenden Prozeduren verfügen.

Zur Beantwortung der zweiten Forschungsfrage wurde die Häufigkeit konzessiver Prozeduren mit Leistungsdaten zum Schreiben aus der nationalen Bildungsstandardüberprüfung in Beziehung gesetzt. Die Schreibkompetenz wurde dort in Dimensionen in Anlehnung an das National Assessment of Educational Progress (NAEP) operationalisiert (Persky/Daane/Jin, 2003ff.). Die Ergebnisse zeigen, dass es moderate Zusammenhänge zwischen Aspekten der Schreibkompetenz und konzessiven Prozeduren gibt. Vor diesem Hintergrund wird eine schreibdidaktische Diskussion über den Stellenwert konzessiver Prozeduren angestoßen.



Bedeutungsvolles Lernen lernen – Effekte unterschiedlicher Trainingsmethoden im Concept Mapping

Lukas Becker1, Virginia Welter1, Ellen Aschermann1, Steffen Tröbst2, Jörg Großschedl1

1Universität zu Köln, Deutschland; 2Christian-Albrechts-Universität zu Kiel

Theoretischer Hintergrund

Wenn Lernende neue Lernmethoden einsetzen, führt dies oft zu unzureichendem Lernerfolg (Produktionsdefizit; Bannert, 2003), da die Nutzung der neuen Methode kognitive Ressourcen bindet. Lernende bedürften daher zusätzlicher instruktionaler Unterstützung, z. B. in Form von Trainingsmaßnahmen, um Lernmethoden wie das Concept Mapping so einzusetzen, dass bedeutungsvolles Lernen erfolgen kann. Concept Maps sind Diagramme, in denen Sachverhalte durch vernetzte Begriffe dargestellt werden. Die Vernetzung erfolgt über beschriftete Pfeile, wobei die Pfeilbeschriftung die semantische Beziehung eines Begriffspaars kennzeichnet, während die Pfeilrichtung die Leserichtung anzeigt (Novak & Cañas, 2008). Bisherige Studien legen nahe, dass durch den Einsatz der Lernmethode, aufgrund der mit ihrer Praxis verbundenen kognitiven Elaborations- und Organisationprozesse, das Lernen erleichtert werden kann (z. B. Cañas, 2003). Elaborations- und Organisationprozessen wird wiederum besondere Relevanz beim Erwerb konzeptuellen Wissens durch die Erstellung sinnstiftender Verbindungen zugeschrieben (Großschedl & Tröbst, 2018). Für einen lerneffektiven Einsatz muss Concept Mapping trainiert werden, doch bezüglich Intensität und Dauer eines Trainings im Concept Mapping herrscht Uneinigkeit (Arnaudin & Mintzes, 1985; Mintzes, Wandersee und Novak, 2001).

Fragestellung

In der vorliegenden quasi-experimentellen Interventionsstudie soll Folgendes geprüft werden: Inwieweit haben Art und Intensität eines Trainings mit Concept Mapping

  • Einfluss auf die Qualität der Concept Maps und die empfundene kognitive Belastung?
  • Einfluss auf den Erwerb von Faktenwissen und konzeptuellem Wissen?

Methode

Die sechswöchige Studie stützt sich auf drei Untersuchungsgruppen, in denen die Art und Intensität eines Concept Mapping-Trainings variiert wurde. Die Stichprobe bestand aus N = 73 Studierenden (Alter: M = 22.6 Jahre, weiblich: 78 %) diverser Studiengänge. Für alle Gruppen gliederte sich die Studie in eine Trainings-, eine Lern- und eine Testphase.

In der dreiwöchigen Trainingsphase erarbeiteten sich die Gruppen kognitionspsychologische Inhalte mithilfe von Lerntexten. Zwei Gruppen erhielten wöchentlich einen Kurzvortrag zum Concept Mapping, wobei die erste Gruppe zusätzlich zu den Vorträgen Scaffolding und Feedback zu den erstellten Concept Maps erhielt. Das Scaffolding bestand aus metakognitiven Promptingmaßnahmen und z. B. Begriffssets für die Erstellung von Concept Maps. Die Concept Maps wurden jede Woche den Teilnehmer*innen korrigiert zurückgegeben. Die zweite Gruppe übte frei das Concept Mapping nach den Kurzvorträgen. Die dritte Gruppe erhielt ein unspezifisches Kontrolltraining (z. B. Kleingruppendiskussionen und Stationenlernen) mit wöchentlichen Kurzvorträgen zur jeweiligen Lernmethode und der Bereitstellung metakognitiver Promptingmaßnahmen.

In der Lernphase (Woche 4) erhielten alle Gruppen zuerst eine Kurzeinführung in die Lernmethode des Concept Mappings und erstellten anschließend Concept Maps zu den Lerninhalten, die aus der Zellbiologie stammten. Danach wurde die subjektive kognitive Belastung mit einem adaptierten Fragebogen nach Klepsch, Schmitz und Seufert (2017) [α = .69] gemessen. Die Concept Maps der Lernphase wurden nach Concept Map-Fehlern (z. B. fehlender Pfeilkopf) und nach ihrer Propositionsgüte gemäß dem Bewertungsschema von McClure, Sonak und Suen (1999) bewertet. Der Lernerfolg (Faktenwissen, konzeptuelles Wissen, Concept Map-Fehler, Concept Map-Propositionsgüte) wurde in der Testphase (Wochen 5 und 6) erhoben, wobei über schriftliche Befragungen das Faktenwissen [28 Items, α = .80] und das konzeptuelle Verständnis [15 Items, α = .79] erhoben wurden.

Ergebnisse und Diskussion

Zur Beantwortung der Forschungsfrage wurden einfaktorielle Varianzanalysen zur kognitiven Belastung und zu den Qualitätsmaßen der Concept Maps aus der Lern- und Testphase durchgeführt. Es ergaben sich in der Lernphase signifikante Haupteffekte für die Propositionsgüte der Concept Maps zugunsten der Gruppe mit freiem Üben ohne Scaffolding und Feedback (F[2, 70] = 3.33, p = .042). Ein Jonckheere-Terpstra Test (Jonckheere, 1954; Terpstra, 1952) zeigt einen signifikanten Trend zugunsten der Gruppen mit Concept Mapping-Training bezüglich der Anzahl an Concept Map-Fehlern, J = 1323.0, z = 4.56, p < .001, r = .533. Hinsichtlich der kognitiven Belastung ergeben sich keine signifikanten Unterschiede zwischen den Gruppen (F[2, 70] = 2.55, p = .080).

Die Studienergebnisse zur Testphase werden auf der Tagung vorgestellt.