Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Ort: H02
Datum: Dienstag, 24.03.2020
9:30 - 10:00NWT-Eröffnung: Nachwuchstag: Eröffnung
Chair der Sitzung: Rebecca Lazarides
H02 
14:00 - 15:30NWT‒Panel: Nachwuchstag: Panel
Chair der Sitzung: Rebecca Lazarides
Chair der Sitzung: Lena Keller
Chair der Sitzung: Saskia Opalinski
H02 

Datum: Mittwoch, 25.03.2020
11:15 - 13:00M11‒H02: Inklusion in der Sekundarstufe
H02 
 

Inklusion in der Sekundarstufe

Chair(s): Michel Knigge (Universität Potsdam, Deutschland)

DiskutantIn(nen): Hans Anand Pant (Humboldt-Universität zu Berlin)

Gemeinsames Lernen findet in Deutschland spätestens seit der Verabschiedung der UN-Behindertenrechtskonvention (United Nations, 2006) immer häufiger statt (Klemm, 2018). Die grundsätzliche Einführung einer gemeinsamen Beschulung von SuSn (SuS) mit und ohne zugeschriebenem sonderpädagogischen Unterstützungsbedarf (SPF) reicht aber deutlich weiter zurück (vgl. Knigge & Kollosche, 2019, Schnell 2003, Böhm et al. 2018). Während zumindest einige Bundesländer im Primarstufenbereich einer Situation nahe kommen, dass die inklusive Schule den Regelfall darstellt, sind die Schulen der Sekundarstufe in den meisten Bundesländern weit davon entfernt (Amrhein, 2011; Kiel, 2015). Zwar gibt es sehr promintente Beispiele auch im Sekundarstufenbereich, wie beispielsweise die Schulen, die mit dem Jakob-Muth-Preis ausgezeichnet wurden. Diese sind jedoch im Vergleich zur Masse der Schulen bisher eher als Pioniere denn als Regelfall zu sehen.

Ähnlich verhält es sich im Bereich der Forschung. Während im Primarstufenbereich mehrere auch längsschnittliche Forschungsprojekte bereit umfangreiche Ergebnisse geliefert haben (z. B. der Pilotversuch inklusive Grundschule (Spörer et al., 2015) oder das Rügener Inklusionsmodell (Voß et al., 2014)), liegen für die Sekundarstufe bisher nur wenige Befunde und Studien vor (vgl. Knigge & Kollosche, 2019, Wagner-Willi u.a. 2018). Entsprechend stellt es ein bedeutsames Forschungsdesiderat dar, mehr empirische Befunde für den Sekundarstufenbereich zu generieren.

Ziel des zusammengestellten Symposiums „Inklusion in der Sekundarstufe“ ist es, Befunde aus relevanten laufenden Studien zu Inklusion bzw. gemeinsamen Lernen im Sekundarstufenbereich zu bündeln. Es besteht aus drei Beiträgen und einem übergreifenden Diskussionsbeitrag:

Der erste Beitrag von Alexander Kocaij, Poldi Kuhl und Petra Stanat beschäftigt sich anhand von Daten aus dem Bildungstrend Sekundarstufe mit der bedeutsamen Frage, ob sich Effekte des gemeinsamen Unterrichts auf die Kompetenzentwicklung von SuS ohne SPF in der neunten Jahrgangsstufe zeigen lassen. Es werden Befunde aus der Primarstufe berichtet, die keine solchen Effekte gemeinsamen Lernens zeigen. Mit Rückgriff auf theoretische Annahmen werden für die neunte Jahrgangsstufe eigene Analysen berichtet, die für SuS ohne SPF im gemeinsamen Unterricht geringere schulische Kompetenzen zeigen als bei SuS ohne Mit-SuS mit SPF, wobei die Effektstärken gering ausfallen und sich Effekte des gemeinsamen Unterrichts zwischen den Schularten in der Sekundarstufe I unterscheiden. Die Ergebnisse werden in den Forschungsstand eingeordnet und Implikationen für die Umsetzung und Erforschung schulischer Inklusion diskutiert.

Im zweiten Beitrag berichten Cornelia Gresch, Monja Schmitt & Lena Külker über Ergebnisse zu überfachlichen Kompetenzen bei SuS mit und ohne SPF in inklusiven Schulen der Sekundarstufe mit Daten aus dem bundesweiten INSIDE-Projekt. Mit Rückgriff auf Theorien und Befunde aus dem Hamburger Eibisch-Projekts werden Daten von 231 unterschiedlichen Schulformen der Sekundarstufe zur Frage analysiert, wie gut der Erwerb überfachlicher Kompetenzen von SuS mit SPF an Regelschulen gelingt. Entsprechend des Kompetenzmodells von Lehmann & Nieke (2000) werden überfachliche Kompetenzen als „Selbstkompetenzen“, „Sozial-kommunikative Kompetenzen“ und „Lernmethodische Kompetenzen“ beschrieben. Es wird überprüft, zu welchem Grad schulische Rahmenbedingungen mit dem Erwerb überfachlicher Kompetenzen korrespondieren.

Im dritten Beitrag stellen Anne Hartmann, Michel Knigge, Jenny Lenkeit, Antje Ehlert & Nadine Spörer Ergebnisse aus der laufenden Evaluation von Schulen des gemeinsamen Lernens und Schulzentren in Brandenburg zur wahrgenommenen sozialen Partizipation von SuS mit SPF in einem Vergleich von SuS der zweiten und dritten Klasse sowie den höheren Jahrgängen der sechsten und siebten Klasse vor. Dieser Vergleich ist von Interesse, da die Majorität der Erkenntnisse zur sozialen Partizipation von SuS im Kontext des gemeinsamen Lernens aus dem Primarstufenbereich stammt, während in der Sekundarstufe derzeit nur wenige Forschungsbefunde vorliegen. Bisherige Studien zur sozialen Partizipation in inklusiven Grundschulen zeigen, dass SuS mit einem SPF stärker von Ausgrenzung bedroht sind (Huber & Wilbert, 2012; Spörer, Schründer-Lenzen, Vock & Maaz, 2015). Es zeigen sich ähnliche Ergebnisse und Effektstärken bei den jüngeren und den älteren SuS.

Hans-Anand Pant wird die Beiträge in einer übergreifenden Diskussion einordnen und besprechen.

 

Beiträge des Symposiums

 

Effekte des gemeinsamen Unterrichts auf Schüler*innen ohne sonderpädagogischen Förderbedarf in der neunten Jahrgangsstufe

Aleksander Kocjai1, Poldi Kuhl2, Petra Stanat1
1Institut zur Qualitätsentwicklung im Bildungswesen, 2Leuphana Universität Lündeburg

Schüler*innen mit sonderpädagogischem Förderbedarf (SPF) werden auch in der Sekundarstufe zunehmend gemeinsam mit Schüler*innen ohne SPF unterrichtet (Autorengruppe Bildungsberichterstattung, 2016). Dabei stellt sich die Frage, wie der gemeinsame Unterricht mit den schulischen Kompetenzen, Merkmalen der schulischen Motivation und dem schulischen Wohlbefinden von Schüler*innen ohne SPF zusammenhängt. Einerseits wird befürchtet, dass Schüler*innen ohne SPF durch die Anwesenheit von Heranwachsenden mit SPF in der Klasse in ihrer schulischen Entwicklung gebremst werden könnten. So würden Schüler*innen mit SPF erhöhte Aufmerksamkeit durch Lehrkräfte benötigen, wodurch Mitschüler*innen ohne SPF weniger Unterstützung erhielten (Gottfried, 2014). Außerdem könnten Verhaltensauffälligkeiten von Schüler*innen mit SPF Mitschüler*innen ohne SPF ablenken und zu einem weniger anregenden und unterstützenden Lernklima führen (Ruijs et al., 2010). Andererseits setzen Lehrkräfte im gemeinsamen Unterricht möglicherweise verstärkt binnendifferenzierende Unterrichtsmethoden sowie kooperative Lernformen ein, von denen auch Schüler*innen ohne SPF profitieren sollten (Szumski et al., 2017). Zudem könnte eine inklusive Schulkultur dazu beitragen, dass die sozialen Kompetenzen und das schulische Wohlbefinden aller Schüler*innen gefördert werden (Szumski et al., 2017). Für den Primarbereich zeigten Studien bislang mehrheitlich keine Effekte des gemeinsamen Unterrichts auf Kinder ohne SPF (Kalambouka et al., 2007; Szumski et al., 2017). In der Sekundarstufe ist der Forschungsstand hingegen noch nicht sehr umfangreich (Gebhardt et al., 2015).

Mit einem Blick in die neunte Jahrgangsstufe wird daher in dieser Studie der Frage nachgegangen, wie sich der gemeinsame Unterricht auf Schüler*innen ohne SPF auswirkt und ob sich differenzielle Zusammenhänge für den gemeinsamen Unterricht von Mitschüler*innen mit dem Förderschwerpunkt Lernen zeigen. Datengrundlage war der IQB-Bildungstrend 2015 (Stanat et al., 2018) am Ende der neunten Jahrgangsstufe. Dabei wurde Schüler*innen mit Mitschüler*innen ohne SPF (N = 23495 aus n = 1103 Klassen, durchschnittliches Alter: 15.43 Jahre, 51.3% Mädchen) mit Schüler*innen mit Mitschüler*innen mit SPF (N = 5301 aus n = 306 Klassen, durchschnittliches Alter: 15.55 Jahre, 47.4% Mädchen) hinsichtlich schulischer Kompetenzen (Fach Deutsch: Lesen, Zuhören & Orthografie; Fach Englisch: Lesen & Zuhören) sowie verschiedener Merkmale der schulischen Motivation (akademisches Selbstkonzept, Interesse & Langeweile) und des schulischen Wohlbefindens miteinander verglichen. Die Schätzung möglicher Effekte des gemeinsamen Unterrichts auf Schüler*innen ohne SPF erfolgte mit Mehrebenenanalysen unter Kontrolle von Kovariaten auf der Schüler*innen- und Klassenebene.

Erste Analysen weisen darauf hin, dass Schüler*innen ohne SPF im gemeinsamen Unterricht geringere schulische Kompetenzen aufwiesen als Schüler*innen ohne Mitschüler*innen mit SPF. Diese Unterschiede waren für Mitschüler*innen mit dem Förderschwerpunkt Lernen etwas stärker ausgeprägt als für die Schüler*innengruppe mit SPF. Die Effektstärken waren jedoch überwiegend gering. Für die Merkmale der schulischen Motivation und des schulischen Wohlbefindens zeigten sich keine bedeutsamen Zusammenhänge mit dem gemeinsamen Unterricht von Mitschüler*innen mit SPF. Ergänzende Mehrgruppenmodelle weisen zudem darauf hin, dass sich Effekte des gemeinsamen Unterrichts zwischen den Schularten in der Sekundarstufe I unterscheiden. Die Ergebnisse werden in den Forschungsstand eingeordnet und Implikationen für die Umsetzung und Erforschung schulischer Inklusion diskutiert.

 

Überfachliche Kompetenzen in inklusiven Klassen: Die Rolle organisationaler und individueller Faktoren bei Schüler*innen der 6. Klassenstufe

Cornelia Gresch1, Monja Schmitt2, Lena Külker2
1Institut zur Qualitätsentwicklung im Bildungswesen, 2Leibniz-Institut für Bildungsverläufe

Theoretischer Hintergrund

Neben akademischen Basiskompetenzen wird bei Jugendlichen mit sonderpädagogischem Förderbedarf (SPF) immer wieder die Bedeutung überfachlicher Kompetenzen (auch „berufsrelevante Kompetenzen“ oder „Schlüsselqualifikationen“) betont (vgl. z. B. Eckert & Schmitt 2007; Hofmann-Lun 2011; Niehaus 2009; Stein & Stummbaum 2010). Hierbei handelt es sich nach Pohlmann und Heckt (2011) um „Fähigkeiten, Fertigkeiten und Einstellungen, die zur Teilhabe am gesellschaftlichen Leben und zur Aneignung von fachlichem Wissen notwendig sind.“ (ebd., S. 36). Unzureichende überfachliche Kompetenzen werden u. a. als eine der Ursachen der großen Schwierigkeiten von Schüler*innen von Förderschulen benannt, den Übergang von der Schule in die Berufsausbildung erfolgreich zu meistern (vgl. z. B. Niehaus 2009).

Wie gut der Erwerb überfachlicher Kompetenzen von Schüler*innen mit SPF an Regelschulen (im Folgenden „Schüler*innen in inklusiven Klassen“) gelingt, ist bislang kaum untersucht. Eine Ausnahme bildet EiBiSch, eine Längsschnittstudie in Hamburg (vgl. Schuck, Rauer & Prinz 2018). Hier wurden entsprechend des Kompetenzmodells von Lehmann & Nieke (2000) als überfachliche Kompetenzen „Selbstkompetenzen“, „Sozial-kommunikative Kompetenzen“ und „Lernmethodische Kompetenzen“ identifiziert. Die Autor*innen beschreiben, wie sich Schüler*innen mit SPF von Kindern ohne SPF unterscheiden, inwiefern sich hier Unterschiede über die Zeit abzeichnen und für einzelne individuelle und klassenbezogene Merkmale, wie diese mit den überfachlichen Kompetenzeinschätzungen zusammenhängen. Die Ergebnisse zeigen u. a., dass Schüler*innen mit SPF niedrigere Kompetenzausprägungen aufweisen als diejenigen ohne SPF. Zudem kann ein erheblicher Anteil der Unterschiede auf Varianz zwischen den Klassen zurückgeführt werden, wobei aggregierte Merkmale auf Klassenebene im Vergleich zu den Merkmalen der Kinder selbst eine untergeordnete Rolle einnehmen. Welche Merkmale auf Schul- bzw. Klassenebene letztlich für die Unterschiede zwischen den Schüler*innen relevant sind, wird in EiBiSch nicht geprüft.

Fragestellung

Vor diesem Hintergrund untersucht der geplante Beitrag, inwiefern individuelle Merkmale und schulische Rahmenbedingungen mit dem Erwerb überfachlicher Kompetenzen korrespondieren:

1. Lassen sich die bei EiBiSch identifizierten Dimensionen der überfachlichen Kompetenzen bundesweit und mit einem im Umfang reduzierten Instrument replizieren?

2. Welche schulischen Rahmenbedingungen erweisen sich zur Erklärung überfachlicher Kompetenzen als bedeutsam mit besonderem Fokus auf Schüler*innen mit SPF?

3. Lassen sich schulische Rahmenbedingungen identifizieren, die Unterschiede zwischen Schüler*innen kompensieren?

Methode

Datengrundlage bildet der erste Erhebungszeitpunkt einer Teilstudie des Projekts „Inklusion in der Sekundarstufe I in Deutschland – INSIDE“. Hierbei handelt es sich um ein vom Bundesministerium für Bildung und Forschung gefördertes Kooperationsprojekt des Leibniz‐Instituts für Bildungsverläufe (LIfBi), des Instituts zur Qualitätsentwicklung im Bildungswesen (IQB), der Bergischen Universität Wuppertal (BUW) und der Universität Potsdam (UP) in dessen Mittelpunkt die Frage steht unter welchen Bedingungen gemeinsames Lernen in der Sekundarstufe I in Deutschland gelingen kann.

In der INSIDE-Studie wurden die Lehrkräfte u. a. gebeten, für die einzelnen Schüler*innen jeweils einzuschätzen, wie verschiedene „überfachliche Kompetenzen“ bei ihnen ausgeprägt sind. Bei diesem Instrument handelt es sich um eine überarbeitete und gekürzte Fassung des bei EiBiSch eingesetzten Instruments (vgl. Helm et al. 2012). SPF (konkret: ob Schüler*innen einen festgestellten SPF aufweisen oder unabhängig davon sonderpädagogisch gefördert werden (vgl. hierzu auch Gresch, Kölm & Kocaj 2017)) wird über eine vor der eigentlichen Erhebung administrierten Liste erfasst. Angaben zur Klasse werden ebenfalls über eine solche Liste oder über Angaben der Lehrkräfte und Eltern erfasst.

Ergebnisse

Insgesamt liegen Informationen für 231 Schulen vor: 43 Hauptschulen, 78 Schulen mit mehreren Bildungsgängen, 24 Realschulen, 75 integrierte Gesamtschulen und 11 Gymnasien. Von den 3.900 teilnahmebereiten Schüler*innen nahmen knapp 94 Prozent an den Tests teil oder füllten einen Fragebogen aus. Für knapp 3.400 Schüler*innen liegen darüber hinaus Einschätzungen durch die Klassenlehrkraft vor. Erste Faktorenanalysen bestätigen die drei theoretisch angenommenen Dimensionen. Da die Daten erst seit Anfang Oktober verfügbar sind, werden umfassende Ergebnisse zum Zeitraum des Vortrags berichtet. Durch den Vortrag soll ein Beitrag zur Diskussion über die Spielräume von Schulen angeregt werden, den Erwerb solcher überfachlichen Kompetenzen zu unterstützen.

 

Soziale Partizipation in Schulen des gemeinsamen Lernens

Anne Theresa Hartmann, Michel Knigge, Jenny Lenkeit, Antje Ehlert, Nadine Spörer
Universität Potsdam

Die Zugehörigkeit zu einer sozialen Gruppe ist nach Baumeister und Leary (1995) ein menschliches Grundbedürfnis. Besonders in der Adoleszenz besteht der Wunsch nach Akzeptanz und sozialer Integration in die Altersgruppe (Fend, 2003). Nach Koster, Nakken, Pijl und Houten (2009) umfasst die soziale Partizipation vier zentrale Facetten: Freundschaften, Interaktionen, Selbstwahrnehmung und Akzeptanz durch die Mitschüler.

Die Majorität der Erkenntnisse zur sozialen Partizipation von Schülerinnen und Schülern im Kontext des gemeinsamen Lernens stammt aus dem Primarstufenbereich. In der Sekundarstufe liegen zurzeit nur wenige Forschungsbefunde zur sozialen Integration von Jugendlichen mit einem sonderpädagogischen Förderbedarf (SPF) im Klassenverband vor. Bisherige Studien zur sozialen Partizipation in inklusiven Grundschulen zeigen, dass Schülerinnen und Schüler mit einem SPF stärker von Ausgrenzung bedroht sind (Huber & Wilbert, 2012). Sie fühlen sich im Vergleich zu ihren Mitschülerinnen und Mitschülern ohne SPF weniger gut in ihre Klasse integriert (Spörer, Schründer-Lenzen, Vock & Maaz, 2015).

Daraus ergeben sich folgende Fragestellungen: Wie gut fühlen sich Schülerinnen und Schüler höherer Jahrgänge mit vermutetem oder festgestelltem SPF im Vergleich zu Schülerinnen und Schülern unterer Jahrgänge in ihre Klasse integriert? Zeigen sich Unterschiede zwischen Schülerinnen und Schülern mit und ohne SPF sowohl in unteren als auch in höheren Jahrgängen?

Die Grundlage der quantitativen Untersuchung bilden die Daten der „Evaluation des Gemeinsamen Lernens und Schulzentren im Land Brandenburg“. Im Beitrag werden Daten des ersten Messzeitpunktes (Schuljahresanfang 2018/19) für die Analysen herangezogen. Die Gesamtstichprobe umfasst N = 1964 Schülerinnen und Schüler an 52 inklusiven Schulen in Brandenburg. In den unteren Jahrgängen wurden N = 1089 Schülerinnen und Schüler der zweiten und dritten Klasse befragt. In den höheren Jahrgängen N = 875 Schülerinnen und Schüler der sechsten und siebten Klasse. Bei insgesamt N = 369 (20,9 %) Schülerinnen und Schülern wurde durch die Klassenleitung mindestens ein vermuteter oder festgestellter SPF angegeben (untere Jahrgänge N = 203, 21,1 %; höhere Jahrgänge N = 166, 20,8 %).

Im Rahmen einer umfangreichen Fragebogenerhebung wurde die soziale Partizipation in Anlehnung an die Skala Soziale Integration von Rauer und Schuck (2003) mittels sechs Items auf einer vierstufigen Likert-Skala erfasst. Die Skala misst, wie gut sich Schülerinnen und Schüler in ihrer Klasse als sozial eingebunden wahrnehmen. Ein SPF wurde durch die Einschätzung der Klassenleitung erfasst. Es sollte jeweils angegeben werden, ob ein festgestellter oder vermuteter Förderbedarf vorliegt.

Erste Analysen zeigen, dass sich bei Berücksichtigung aller Schülerinnen und Schüler diejenigen in höheren Jahrgängen als signifikant besser integriert wahrnehmen als diejenigen in unteren Jahrgängen (Cohen´s d = 0.26). Schülerinnen und Schüler mit SPF nehmen sich in allen betrachteten Jahrgängen signifikant weniger gut in ihre Klasse integriert war als ihre Mitschülerinnen und Mitschüler ohne SPF. Sowohl in den höheren als auch in den unteren Jahrgängen zeigen sich mittlere Effektstärken zwischen Schülerinnen und Schülern mit und ohne SPF (Cohen´s d = 0.45 bzw. Cohen´s d = 0.49). Das Ergebnis der Varianzanalyse zeigen dazu passend keine signifikante Interaktion zwischen den Jahrgängen und dem Förderstatus. Es werden noch weitere Ergebnisse berichtet, ob verschiedene Förderschwerpunkte, zum Beispiel im Bereich emotionale und soziale Entwicklung oder Lernen, zu differentiellen Ergebnissen führen.

 
14:30 - 16:15M14‒H02: Herausforderunge soziale Partizipation? Differenzielle Ergebnisse und innovative Erhebungsmethoden
H02 
 

Herausforderung soziale Partizipation? Differenzielle Ergebnisse und innovative Erhebungsmethoden

Chair(s): Carmen Zurbriggen (Universität Bielefeld, Deutschland)

DiskutantIn(nen): Christian Huber (Bergische Universität Wuppertal)

Soziale Partizipation stellt eines der Schlüsselthemen in heterogenen Lerngemeinschaften dar. Kinder und Jugendliche, die in gewissen Heterogenitätsdimensionen wie z.B. Leistung oder Verhalten nicht der Norm entsprechen, sind im Allgemeinen einem erhöhten Risiko von Ausgrenzungsprozessen innerhalb ihrer Klassengemeinschaft ausgesetzt, verfügen über weniger Freundschaften und werden von ihren Peers oftmals weniger beachtet oder weniger gut akzeptiert (z.B. Bossaert et al., 2015; Henke et al., 2017). Gleichzeitig unterstreichen mehrere empirische Studien die Bedeutung von sozialer Partizipation für die schulische und sozial-emotionale Entwicklung von Kindern und Jugendlichen. So ist soziale Partizipation beispielsweise verknüpft mit schulischem Engagement und Schulleistung (Delgado et al., 2018), dem Selbstwertgefühl (Maunder & Monks, 2019), dem emotionalen Wohlbefinden (Zurbriggen &Venetz, 2016) sowie psychosomatischen Beschwerden (Låftman & Östberg, 2006).
Im Zuge von Inklusion ist die soziale Partizipation von Schülerinnen und Schülern deshalb zunehmend ins Zentrum des Forschungsinteresses gerückt. Die bisherige Befundlage zeigt bei näherer Betrachtung jedoch ein eher heterogenes Bild (Avramidis et al., 2018; Garrote et al., 2017; Zurbriggen & Venetz, 2016). Mögliche Erklärungen hierfür sind unterschiedliche Operationalisierungen und verschiedene methodische Zugänge oder Perspektiven, aber auch grundsätzliche Schwierigkeiten der Erfassung von sozialer Partizipation, die sich insbesondere durch die Breite des Konstrukts ergeben (Koster et al., 2009). So vermögen etwa soziometrische Nominationsverfahren – als die bisher am häufigsten eingesetzte Methodengruppe zu diesem Konstrukt – nur bestimmte Bereiche sozialer Partizipation zu erfassen.

Die vier Beiträge dieses Symposiums widmen sich diesem Themenkomplex und untersuchen die Frage nach der sozialen Partizipation von Schülergruppen, die dem Risiko erschwerter Partizipation ausgesetzt sind, mit einem jeweils spezifischen Fokus anhand vier verschiedener innovativer Verfahren. Während die ersten beiden Beiträge soziale Netzwerke und Statusgruppen in den Blick nehmen, konzentrieren sich die beiden letzten Beiträge auf soziale Interaktionen im Unterricht. Zu deren Erfassung wurden zwei unterschiedliche digitale Techniken genutzt, deren Potenzial und Herausforderung im Rahmen der Beiträge untersucht und diskutiert werden.

Der erste Beitrag nimmt sich die widersprüchlichen Ergebnisse zur sozialen Position von Kindern mit internalisierendem bzw. ängstlich-depressivem Verhalten zum Anlass, den Problembereich anhand fünf unterschiedlicher soziometrischer Klassifizierungsmethoden zu analysieren. Die Befunde unterstreichen unter anderem die Notwendigkeit einer genaueren Operationalisierung und Erfassung des Merkmals soziometrische Vernachlässigung.
Im zweiten Beitrag werden mittels partizipativen Ego-Netzwerk-Analysen die sozialen Netzwerke von Schülerinnen und Schülern mit individuellen Entwicklungsplänen (IEP) mit jenen ihrer Mitschülerinnen und Mitschüler ohne IEP vergleichen. Die Ergebnisse unterstützen im Allgemeinen die bisherige Befundlage. Das angewendete Mixed-Method-Design ermöglicht aber gleichzeitig detailliertere Erkenntnisse zu den individuellen Netzwerken.
Im Zentrum des dritten Beitrags steht die Frage, wie Schülerinnen und Schüler mit Peerproblemen oder emotionalen Problemen soziale Interaktionen mit ihren Peers im Unterricht erleben. Das emotionale Erleben und der soziale Kontext wurden mittels der Experience Sampling Methode im konkreten Unterricht erfasst. Die Analysen dieser in situ-Messungen zeigen ein differenziertes Bild zur subjektiven Qualität sozialer Interaktionen.
Der vierte Beitrag geht der Frage nach, inwiefern Radiofrequency Identification (RFID)-Sensoren im Klassenraum zur Erfassung von sozialen Interaktionen einsetzbar sind. Die ersten Analysen der in Echtzeit erhobenen Verhaltensdaten verweisen darauf, dass die Spezifität und Sensitivität in Bezug auf die Messung von Kontakten in schultypischen Situationen eingeschränkt sind.

Gesamthaft betrachtet liefern die Beiträge dieses Symposiums neue Erkenntnisse zum Themenkomplex soziale Partizipation und innovative Möglichkeiten zu dessen Erfassung. Die Befunde der vier Beiträge werden von einem Diskutanten zusammenfassend in inhaltlicher und methodischer Hinsicht kritisch diskutiert, um daran anknüpfend weiterführende Forschungsfragen aufzuzeigen.

 

Beiträge des Symposiums

 

Der Zusammenhang zwischen ängstlich-depressivem Verhalten und soziometrischer Vernachlässigung: Führt die Anwendung unterschiedlicher soziometrischer Klassifizierungsmethoden zu widersprüchlichen Ergebnissen?

Pawel R. Kulawiak1, Karolina Urton2, Johanna Krull2, Thomas Hennemann2, Jürgen Wilbert1
1Universität Potsdam, 2Universität zu Köln

Theoretischer Hintergrund

Soziometrisch vernachlässigte Kinder werden von ihren Peers kaum beachtet, d.h. sie erfahren innerhalb ihrer Klassengemeinschaften wenig Ablehnung und wenig Zuneigung (Brown, 2015). Bisher wurde kritisch darüber diskutiert, ob Kinder mit internalisierenden Verhaltensproblemen eine Risikogruppe für soziometrische Vernachlässigung darstellen (Howe, 2010; Rubin et al., 1989). Bisherige Forschungsergebnisse sprechen sowohl für (La Greca & Stone, 1993) als auch gegen (Rytioja et al., 2019) den Zusammenhang zwischen Vernachlässigung und internalisierenden Verhaltensweisen. Die Bandbreite unterschiedlicher Klassifizierungsmethoden wird als eine Ursache für die widersprüchlichen Evidenzen diskutiert (Rubin et al., 1989). Kritisiert wird, dass die unterschiedlichen Methoden willkürliche Kriterien zur Identifizierung vernachlässigter Kinder anwenden (Kulawiak & Wilbert, 2019).

Fragestellung

Die vorliegende Studie untersucht, ob die Anwendung unterschiedlicher soziometrischer Klassifizierungsmethoden zu widersprüchlichen Ergebnissen hinsichtlich des internalisierenden Verhaltens soziometrisch vernachlässigter Kinder führt. Zu diesem Zweck erfolgt eine Analyse des Zusammenhangs zwischen den soziometrischen Statusgruppen und dem ängstlich-depressiven Verhalten (als eine Dimension internalisierender Verhaltensprobleme).

Methode

Die Stichprobe umfasst 2334 Grundschulkinder (Alter in Jahren: M = 8.81, SD = 1.20; 52% Jungen) in 112 Klassen (10 Schulen; Jahrgangsstufen 1 bis 4). Soziometrische Daten wurden mit der Peer-Nominierungsmethode erhoben. Fünf unterschiedliche Klassifizierungsmethoden (Coie & Dodge, 1983; French & Waas, 1985; Hubbard, 2001; Kulawiak & Wilbert, 2019; Schaughency et al., 1992) wurden zur Bestimmung der soziometrischen Statusgruppen (beliebte, unbeliebte, vernachlässigte, kontroverse und durchschnittliche Kinder) genutzt. Ängstlich-depressives Verhalten wurde von den Lehrkräften mit der Integrated Teacher Report Form erfasst (Volpe et al., under review). Das ängstlich-depressive Verhalten wird auf die soziometrischen Statusgruppen regressiert (multilevel Modell: Kinder in Schulklassen; Dummykodierung: durchschnittliche Statusgruppe bildet die Referenzgruppe). Das ängstlich-depressive Verhalten ist standardisiert (M = 0, SD = 1). Die Regressionsparameter sind daher als standardisierte Regressionskoeffizienten zu interpretieren (standardisierte Differenz zwischen soziometrischer Referenzgruppe „durchschnittlich“ und anderer soziometrischer Gruppe, z.B. „vernachlässigt“).

Ergebnisse

Unbeliebte Kinder zeigen das höchste (z.B. B = 0.40), beliebte Kinder das niedrigste (z.B. B = -0.18) und durchschnittliche Kinder ein durchschnittliches Niveau (z.B. B = 0.00) an ängstlich-depressiven Verhaltensweisen. Dieser Befund ist konsistent mit Hinblick auf die unterschiedlichen soziometrischen Klassifizierungsmethoden. Die unterschiedlichen Methoden zeigen jedoch widersprüchliche Ergebnisse in Hinsicht auf die Frage, ob vernachlässigte Kinder überdurchschnittlich ängstlich-depressiv sind. Bei zwei Methoden zeigt sich für die vernachlässigten Kinder ein erhöhtes Niveau (B = 0.18 und B = 0.11) an ängstlich-depressivem Verhalten. Bei den anderen drei Methoden ist das Ausmaß des ängstlich-depressiven Verhaltens kaum überdurchschnittlich ausgeprägt (B = 0.02, B = 0.09, B = 0.06). Widersprüchliche Ergebnisse ergeben sich auch mit Bezug zu der Frage, ob vernachlässigte oder kontroverse Kinder stärker von ängstlich-depressivem Verhalten betroffen sind. Eine Methode suggeriert, dass sich vernachlässigte und kontroverse Kinder hinsichtlich des ängstlich-depressiven Verhaltens kaum unterscheiden (Bvernachlässigt = 0.18; Bkontrovers = 0.16). Bei zwei Methoden zeigt sich für die vernachlässigten Kinder eine höhere Ausprägung des ängstlich-depressiven Verhaltens (Bvernachlässigt = 0.09; Bkontrovers = -0.02). Eine Methode führt zum gegensätzlichen Befund, dass nämlich kontroverse Kinder ein höheres Niveau an ängstlich-depressivem Verhalten aufzeigen (Bvernachlässigt = 0.02; Bkontrovers = 0.25).

Die unterschiedlichen Befunde sprechen sowohl für als auch gegen den Zusammenhang zwischen soziometrischer Vernachlässigung und internalisierenden Verhaltensweisen. Zudem sind die Ergebnisse mehrdeutig mit Hinblick auf die Frage, ob vernachlässigte oder kontroverse Kinder stärker von internalisierenden Verhaltensweisen betroffen sind. Diese Ergebnisse stützen daher die Annahme, dass die Anwendung unterschiedlicher soziometrischer Klassifizierungsmethoden ein Grund für die bisher widersprüchlichen Ergebnisse sein könnte. Die unterschiedlichen Klassifizierungsmethoden nutzen willkürlich festgelegte Klassifizierungsregeln. Somit herrscht zwischen den Methoden keine vollständige Übereinstimmung in der Bestimmung der soziometrischen Statusgruppen. Dies verdeutlicht auch die Notwendigkeit das Merkmal „soziometrische Vernachlässigung“ genauer zu spezifizieren. Eine genauere Operationalisierung und Messung soziometrischer Vernachlässigung könnte die Validität zukünftiger Ergebnisse steigern.

 

Exploring students’ personal social support networks through participatory ego-net analysis

Giovanna Hartmann Schaelli1, Christoforos Mamas2, Lambri Trisokka3, Alan J. Daly2
1University of Zurich, Switzerland, 2University of California, San Diego, USA, 3Cyprus Ministry of Education and Culture, Cyprus

Theoretical framework

Aspects of social capital theory underpin this work. Particularly, we examine the social support networks of students as a function of their social capital. According to Scott (2013), social networks are a particular form of social capital that individuals can employ to enhance their advantages or opportunities. A notion of social capital is that social relationships provide access to resources that can be exchanged, borrowed and leveraged to facilitate achieving goals (Moolenaar, et al., 2012). One important function of social relationships may be the provision of social capital in terms of social support (Dumont, & Provost, 1999). We focus on two main dimensions: socio-emotional and academic support.

Research objectives

The overall aim of this paper is to explore the personal social support networks of students with Individualized Education Plans (IEPs) and their peers without IEPs. In doing so, we have implemented ego-net analysis and collected data from 23 elementary and secondary school students through a participatory visual mapping technique across four schools in Southern California to achieve two specific research objectives. The first objective was to quantitatively examine the structure of the ego-net of each student and compare the ego-nets of students with IEPs and their peers without. The second objective was to qualitatively explore the meaning and importance attributed to their personal support network.

Methods

The mode of inquiry used was ego-net analysis. An ego-net is the network, which is formed around an actor, in our case a student. As it is a network, it involves other actors or ‘alters’ with whom the student or ‘ego’ forms relational ties. A relational tie may reflect a ‘connection’ between individuals through which ‘resources’ may flow (Lin, 2002). Ego-net analysis in education research presents an innovative set of tools to explore under-served students’ voice through examining the relational structure of their personal social support networks inside and outside of school.

We employed a participatory visual mapping technique with a follow-up interview (Crossley, et al., 2015). In analyzing the ego-net data we calculated tie central tendency or degree which shows the network size of each student (Halgin, & Borgatti, 2012; Mamas, et al., 2019a). Additionally, we employed grounded theory (Corbin, & Strauss, 1990) to analyze the interviews with students.

In total, 23 student participants from grades 3, 4, 5 and 8 in four schools were asked to create their ego-network by writing and/or drawing their alters within three concentric circles. This is advantageous as they can provide insights into the quality of ties, by asking students to place contacts within the three different rings, with those closest to them at the center. Our sample consisted of 15 girls and 8 boys of whom 4 students had a specific learning disability IEP (2 girls/2 boys).

Results

Our initial results show that students with IEPs had a smaller network size (degree/central tendency) which may inhibit access to social support, such as socio-emotional and academic support. On average students with IEPs had 14.75 (alter closeness: 7+5.25+2.5) alters on their personal networks whereas students without IEPs had 21.35 (alter closeness: 10.87+7.48+3). The most important sources of social support for all students were found to be family, close friends, and less so teachers.

It seems that there is convergence between the ego-net quantitative results and the interview qualitative results. The inherent mixed-methods nature of the participatory visual mapping technique allowed us to explore in more depth our specific research objectives. In line with other studies (Bossaert, et al., 2015; Mamas, et al., 2019b) we found that students with IEPs are more likely to maintain a lower social participation status compared to their peers without IEPs.

 

Qualität sozialer Interaktionen von Jugendlichen mit emotionalen Problemen oder Problemen im Umgang mit Peers im Unterricht – Eine Pilotstudie mit der Experience Sampling Method

Margarita Knickenberg, Carmen Zurbriggen
Universität Bielefeld

Theoretischer Hintergrund

In der Adoleszenz nehmen Peers im Leben von Jugendlichen eine große Relevanz ein (Rubin, Bukowski & Parker, 2006). Für den Kontext Schule wird dies durch Befunde deutlich, die positive Effekte gemeinsamer Lernaktivitäten mit Peers auf das emotionale Erleben von Jugendlichen aufzeigen (Zurbriggen & Venetz, 2016; Zurbriggen, Venetz & Hinni, 2018). Da Jugendliche mit emotionalen Problemen das Knüpfen und Aufrechterhalten von Peerkontakten häufig als herausfordernd empfinden und einem höheren Risiko der sozialen Ausgrenzung ausgesetzt sind (Bosacki, Dane, Marini & YLC-CURA, 2007; Lüdeke, 2018), stellt sich die Frage, wie sie Peerinteraktionen im Unterricht erleben. Zudem treten emotionale Probleme in der frühen Adoleszenz – insbesondere bei Mädchen – zunehmend auf (Bilz, 2008). Um das emotionale Erleben situativ und zugleich simultan mit der jeweiligen sozialen Interaktion zu erfassen, eignet sich die Experience Sampling Method (ESM; Hektner, Schmidt & Csikszentmihalyi, 2007). Mit dieser Methode können zeitlich fluktuierende Person- und Kontextmerkmale mehrmals täglich in situ und über einen längeren Zeitraum erfasst werden. Das emotionale Erleben, das während verschiedener sozialer Interaktionen im Unterricht fluktuiert, gibt dabei Aufschluss über die Qualität von Peerkontakten.

Fragestellung

Vor diesem Hintergrund wird im Rahmen des Beitrags zunächst der Frage nachgegangen, wie Schülerinnen und Schüler verschiedene Unterrichtssituationen im Allgemeinen erleben. Die Hauptfragestellung gilt schließlich der Qualität sozialer Interaktionen im Unterricht von Jugendlichen mit emotionalen oder damit zusammenhängenden Peerproblemen unter Berücksichtigung des Geschlechts.

Methode

Im Rahmen einer Pilotstudie gaben insgesamt N=145 Schülerinnen und Schüler (MAlter=10,98; SD=0,87 Jahre) der fünften Jahrgangsstufe mittels ESM an fünf aufeinanderfolgenden Schultagen mehrmals täglich Auskunft zu ihrem emotionalen Erleben und dem aktuellen sozialen Kontext („Wie arbeitest du gerade?“ – u.a. „allein“, „zu zweit“ oder „in der Gruppe“). Die ESM-Fragebögen beantworteten die Jugendlichen unmittelbar im Unterricht mit Hilfe einer App auf Tablets, die per randomisiert programmiertem Signal auf die anstehende Befragung hinwies. Die Bearbeitung eines ESM-Fragebogens nahm jeweils 3–4 Minuten in Anspruch. Insgesamt wurden auf diese Weise 3099 „Momentaufnahmen“ des Unterrichts erhoben. Die Operationalisierung des emotionalen Erlebens („Wie fühlst du dich gerade?“) erfolgte anhand der beiden Skalen positive Aktivierung (PA; z.B. „lustlos“ vs. „hochmotiviert“; M=4,68, SD=1,60, ωwithin=.64, ωbetween=.87) und negative Aktivierung (NA; z.B. „entspannt“ vs. „gestresst“; M=2,66, SD=1,47, ωwithin=.72, ωbetween=.91) mit jeweils vier Items (Schallberger, 2005). Die Jugendlichen machten mittels SDQ (Strengths and Difficulties Questionnaire; Goodman, 1997) Angaben sowohl zu ihrem subjektiv eingeschätzten emotionalen Problemverhalten als auch zu möglichen Problemen mit ihren Peers.

Zur Untersuchung der Zusammenhänge zwischen sozialen Interaktionen im Unterricht und dem emotionalen Erleben wurde unter Berücksichtigung moderierender Geschlechtseffekte

ein Mehrebenen-Strukturgleichungsmodell (MSEM) in Mplus (Muthén & Muthén, 1998–2017) spezifiziert.

Ergebnisse

Die deskriptiven Ergebnisse deuten auf eine Kontextabhängigkeit des emotionalen Erlebens hin: Im Vergleich zu Einzelarbeitsphasen (41,7% aller Zeitpunkte) sind die Jugendlichen in Gruppenarbeitsphasen (15,4%) motivierter (PA+). In Unterrichtssituationen, in denen sie ihren Lehrkräften zuhören (4,5%), fühlen sie sich lustlos (PA-), gleichzeitig aber auch gestresst (NA+). Eine hohe positive und gleichzeitig eine niedrige negative Aktivierung berichten die Jugendlichen, wenn sie in den jeweiligen Unterrichtssituationen ausreichend Zeit (57,1%) und Hilfestellungen (56,8%) zur Bearbeitung von Aufgaben haben.

Die MSEM-Analysen zeigen, dass die Jugendlichen, die ihrer subjektiven Einschätzung zufolge Probleme mit ihren Peers haben, von sozialen Interaktionen im Unterricht (z.B. Gruppen- oder Partnerarbeiten) hinsichtlich ihres emotionalen Erlebens (β=11, p<.05) profitieren. So sind sie im Vergleich zu ihren Peers, die keine oder geringe Peer-Probleme haben, motivierter, wenn sie mit ihren Mitschülerinnen und -schülern zusammenarbeiten als in Einzelarbeitssituationen. Bei Jugendlichen mit emotionalen Problemen ist ein solcher Effekt von sozialen Interaktionen auf das emotionale Erleben nicht zu beobachten. Allerdings zeigt sich ein moderierender Geschlechtseffekt: Mädchen erleben soziale Interaktionen weniger positiv als Jungen.

Anhand der empirischen Ergebnisse zur Qualität sozialer Interaktionen im Unterricht sollen zudem Vorteile, Herausforderungen und Limitationen der ESM diskutiert werden.

 

Erfassung von sozialen Interaktionen mittels RFID-Sensoren

Nadine Spörer1, Thorsten Henke2, Julia Eberle3
1Universität Potsdam, 2Leibniz-Universität Hannover, 3Ruhr-Universität Bochum

Hintergrund

Eine Analyse unterrichtsbezogener Wirkmechanismen setzt eine reliable und valide Erfassung des Unterrichtsgeschehens voraus (Praetorius, Pauli, Reusser, Rakoczy, & Klieme, 2014). Die Erfassung von sozialen Interaktionen als zentrales Element des Unterrichts stellt dabei eine besondere Herausforderung dar (Göllner, Wagner, Klieme, Lüdtke, Nagengast & Trautwein, 2016). So griffen umfangreiche Schulleistungserhebungen bislang in der Regel auf Selbstberichte von Lehrkräften und Schülerinnen und Schülern zur Erfassung des Unterrichtsgeschehens zurück. Die hierbei eingesetzten Fragebögen ermöglichen jedoch wegen des häufig sozial erwünschten Antwortverhaltens nur bedingt Rückschlüsse auf den konkreten Unterricht, weshalb häufig Videostudien zur prozessnahen Erfassung des Unterrichtsgeschehens komplementär eingesetzt werden (Göllner et al., 2016). Die transsituative Konsistenz des damit erfassten Unterrichtsverhaltens ist jedoch ungeklärt. Zudem sind Videostudien in der Regel sehr personalaufwendig und das nur teilweise Vorliegen von Einverständnissen zur Datenaufzeichnung stellt große Herausforderungen an den Prozess der Datengewinnung (Cattuto, Van den Broeck, Barrat, Colizza, Pinton & Vespignani, 2010; Elmer, Chaitanya, Purwar, & Stadtfeld, 2019). Es stellt sich somit die Frage, inwiefern andere methodische Zugänge das Ausmaß und die Art der sozialen Interaktionen im schulischen Kontext erfassen können.

Das vorliegende Forschungsvorhaben zielt auf dieses Desiderat ab und versucht, soziale Interaktionen im Unterricht auf der Grundlage von Echtzeitverhaltensdaten zu erfassen. Diese Verhaltensdaten sind Face-to-Face-Kontakte, die mittels Radiofrequency Identification (RFID)-Sensoren erhoben werden. Wenngleich erste Berichte zur Erfassung von Kontaktmustern im schulischen (Fournet & Barrat, 2014) und wissenschaftlichen Kontext (Eberle, Stegmann, Fisher, Barrat & Lund, 2017) mittels RFID-Sensoren vorliegen, so fehlen umfassende Analysen zur Prüfung der Reliabilität und Validität der RFID-basierten Messungen. Bislang betrachteten lediglich Elmer et al. (2019) die Validität der Sensoren in einem nicht-schulischen Setting. Im Vergleich zu Videodaten der sozialen Interaktionen zeigte sich, dass RFID-Sensoren eine hohe Spezifität aufwiesen (Nicht-Interaktionen wurden zu 97% korrekt identifiziert), die Sensitivität jedoch geringer ausfiel (Interaktionen wurden zu 66% korrekt identifiziert).

Fragestellung

Aus dem Stand der Forschung ergeben sich offene Fragen bezüglich der Einsetzbarkeit von RFID-Sensoren im schulischen Kontext. Aufgrund der räumlichen Nähe der interagierenden Personen im Klassenraum kann vermutet werden, dass die Spezifität eingeschränkt ist. Konkret soll daher untersucht werden, wie hoch die Übereinstimmung zwischen RFID-Sensoren und Videodaten bezogen auf unterschiedliche schultypische Interaktionsformen ist. Insbesondere stellen sich hierbei zwei Fragen:

1. In welchem Ausmaß werden im Klassenraumkontext Kontakte aufgezeichnet, obwohl keine soziale Interaktion stattgefunden hat?

2. Inwiefern werden soziale Interaktionen zwischen Personen aufgezeichnet, die nebeneinander sitzen und daher nicht Face-to-Face interagieren?

Methode

Untersuchungsdesign

Zur Prüfung der Validität von RFID-Sensoren wurden in einer Laborstudie mithilfe von 13 Probanden (12 Lernende, 1 Lehrkraft) eine Folge von schultypischen Interaktionssituationen hergestellt: Still- und Partnerarbeit in frontaler Tischanordnung sowie Still-, Partner- und Gruppenarbeit an Vierer-Gruppentischen. Durch diese Anordnung kann sowohl die Sensitivität als auch die Spezifität geprüft werden. Jeder Proband trug auf Brusthöhe einen RFID-Sensor. Die gesamte Sequenz wurde zur Abgrenzbarkeit der unterschiedlichen Interaktionssituationen mittels einer Videokamera aufgenommen.

Das Messinstrument

Ein RFID-Sensor ist ein Chip, der Informationen über die Anwesenheit anderer Sensoren innerhalb einer definierten Zeit und eines definierten Radius‘ sammelt (Cattuto et al., 2010). Auf Grundlage dieser basalen 1/0-Messung (Kontakt vs. kein Kontakt) können sodann das Ausmaß (z.B. Gesamtdauer) und die Struktur der Kontakte (z.B. Anzahl der Interaktionspartner, kürzere vs. längere Kontakte) bestimmt werden.

Ergebnisse und Diskussion

Erste Analysen zeigen, dass wie vermutet sowohl die Spezifität als auch die Sensitivität der RFID-Sensoren bezogen auf die Messung von Kontakten in schultypischen Situationen eingeschränkt ist. So wurden insbesondere während der Still- und Partnerarbeit an den Gruppentischen mehr Kontakte erfasst als tatsächlich stattfanden. Auf der Grundlage detaillierter Analysen, die derzeit durchgeführt werden, soll die Nutzbarkeit der RFID-Sensoren kritisch reflektiert und die Notwendigkeit der Unterscheidung von sozialer Interaktion vs. räumlicher Nähe bezogen auf RFID-basierte Messungen diskutiert werden.

 
16:45 - 18:30M16‒H02: Gliederung des Schulsystems und Schulstrukturreformen: Ihre Bedeutung für die Zusammensetzung der Schülerschaft und für Lernerfolg
H02 
 

Gliederung des Schulsystems und Schulstrukturreformen: Ihre Bedeutung für die Zusammensetzung der Schülerschaft und für Lernerfolg

Chair(s): Camilla Rjosk (Institut zur Qualitätsentwicklung im Bildungswesen (IQB), Humboldt-Universität zu Berlin, Deutschland), Petra Stanat (Institut zur Qualitätsentwicklung im Bildungswesen (IQB), Humboldt-Universität zu Berlin, Deutschland)

DiskutantIn(nen): Rita Nikolai (Humboldt-Universität zu Berlin, Deutschland)

Der Lernerfolg Heranwachsender wird nicht nur von individuellen Merkmalen sondern auch vom Lernkontext beeinflusst (z.B. Baumert, Stanat & Watermann, 2006). In den deutschen Bundesländern mit ihren gegliederten Schulsystemen stellen die einzelnen Schularten (z.B. Hauptschule, Realschule, Gymnasium) Lernkontexte dar, die sich u.a. in ihren Curricula und didaktischen Traditionen unterscheiden. Gleichzeitig unterscheiden sie sich in der Zusammensetzung ihrer Schülerschaft, u.a. bezogen auf Leistung, sozioökonomischen Status und Zuwanderungshintergrund. Studien zu sog. Kompositionseffekten zeigen weitgehend konsistent, dass Schülerinnen und Schüler unabhängig von ihren individuellen Merkmalen höhere Leistungen erreichen, wenn sie in Klassen mit höherem Leistungsniveau lernen. Darüber hinaus sind positive Effekte mit dem mittleren sozioökonomischen Status in einer Klasse verbunden, während der Anteil von Heranwachsenden mit Zuwanderungshintergrund kaum einen Effekt zu haben scheint (vgl. Dumont, Neumann, Maaz & Trautwein, 2013). Mehrere Studien verweisen darauf, dass sich die Leistungsentwicklungsverläufe Heranwachsender zwischen Schularten und in Abhängigkeit der Schülerzusammensetzung unterscheiden (z.B. Baumert et al., 2006; Neumann et al., 2007). Dies bedeutet, dass Heranwachsende an verschiedenen Schularten unterschiedliche Lern- und Entwicklungschancen haben, was dem allgemeinen Ziel von Chancengerechtigkeit entgegenstehen kann.

Um diese Effekte des Lernkontexts zu reduzieren, wurden im letzten Jahrzehnt in mehreren Bundesländern Schulstrukturreformen durchgeführt, die mehrgliedrige in zweigliedrige Schulsysteme überführten. Zentrale Ziele waren dabei, eine stärkere Durchmischung der Schülerschaft zu erreichen, Effekte der Schülerzusammensetzung zu reduzieren und durch eine Erhöhung des Bildungsniveaus zu einer Verringerung von Unterschieden im Lernerfolg an verschiedenen Schularten beizutragen (vgl. Neumann, Maaz & Becker, 2013). Zur Frage, inwiefern diese Ziele erreicht wurden, liegen bislang nur wenige Arbeiten vor, die sich überwiegend auf einzelne Bundesländer beziehen (Helbig & Nikolai, 2017; Lenz, Holtmann, Rjosk & Stanat, angenommen; Maaz et al., 2018; Neumann et al., 2017).

Das vorliegende Symposium greift dieses Thema auf und untersucht in vier Beiträgen, welche Zusammenhänge zwischen Gliederung des Schulsystems, Schülerzusammensetzung und Schülerleistung bestehen und inwiefern mit einer Reduzierung der Gliederung Veränderungen in Schulart- und Kompositionseffekten sowie im Lernerfolg Heranwachsender verbunden sind. Die Beiträge nutzen Daten verschiedener Schulleistungsstudien (NEPS, IQB-Ländervergleich, IQB-Bildungstrend, BERLIN-Studie), die längsschnittliche Analysen bzw. Kohortenvergleiche ermöglichen, und setzen moderne quantitative Analysemethoden ein (Mehrebenenanalysen, Propensity-Score-Matching, Difference-in-Differences-Approach).

Der erste Beitrag (Matthewes) untersucht Effekte der Gliederung im deutschen Schulsystem auf die Leistungsentwicklung im Leseverstehen und in Mathematik und geht dabei auch der Frage nach, ob sich die Effekte in Abhängigkeit vom individuellen Leistungsniveau der Schülerin bzw. des Schülers unterscheiden. Der zweite Beitrag (Lenz et al.) analysiert Effekte der Schulart auf das Leseverständnis im Fach Englisch und prüft, ob diese in Bundesländern mit weniger stark gegliederten Schulsystemen geringer ausfallen als in Bundesländern mit stärkerer Gliederung. Es wird zudem untersucht, ob sich diese Schularteffekte in der Gruppe von Ländern, die Schulstrukturreformen durchgeführt haben, verringert haben. Auch der dritte Beitrag (Holtmann et al.) beschäftigt sich mit Unterschieden zwischen Bundesländergruppen in der Gliederung des Schulsystems und fragt, ob sich soziokulturelle Kompositionseffekte auf die Leseleistung im Fach Deutsch zwischen diesen Bundesländergruppen sowie an Gymnasien und an nichtgymnasialen Schularten unterscheiden und ob sich die Effekte im Zuge der Schulstrukturreformen verändert haben. Der vierte Beitrag (Neumann et al.) schließlich nimmt mit Berlin ein Bundesland, das Schulstrukturreformen durchgeführt hat, genauer in den Blick und untersucht Unterschiede in der Leistungsentwicklung in den Fächern Deutsch (Leseverstehen) und Mathematik von Heranwachsenden, die nach der Reform verschiedene Schularten besuchen. Dabei werden auch Unterschiede zwischen Schulen vor der Reform (u.a. Vorhandensein einer gymnasialen Oberstufe) berücksichtigt.

Die Beiträge werden insgesamt ein Bild vom Erreichen der multiplen Ziele der Schulstrukturreformen ergeben. Sie liefern damit im Einklang mit dem Tagungsmotto zentrale Hinweise auf die Bedeutung der Gestaltung von Bildungsangeboten um Bildungsungerechtigkeit entgegenzuwirken. Beteiligt sind Wissenschaftlerinnen und Wissenschaftler aus unterschiedlichen Disziplinen: Erziehungswissenschaften (Lenz, Neumann), Psychologie (Holtmann) und Ökonomie (Matthewes). Diskutiert wird das Symposium aus einer primär erziehungswissenschaftlichen Perspektive (Nikolai).

 

Beiträge des Symposiums

 

Better Together? Heterogeneous Effects of Tracking on Student Achievement

Sönke Matthewes
WZB Berlin, DIW Berlin, Freie Universität Berlin

Theoretical Background

Early between-school ability tracking, i.e. grouping students into different schools by ability or previous performance, is highly controversial. Proponents of tracking posit that lower variance classrooms allow for better tailoring of curricula, instruction speed and pedagogy to students' abilities and should, therefore, benefit learning for all students (Duflo, Dupas & Kremer, 2011). Critics, in contrast, fear that only high track/ability students benefit from tracking, whereas students assigned to lower tracks are condemned to lower achievement compared to a scenario with comprehensive schooling (e.g. Gamoran & Mare, 1989; Hanushek & Wößmann, 2006).

Indeed, there are many mechanisms that might make the effects of tracking heterogeneous. First, to the extent that high performing peers are beneficial to learning (or low performing ones harmful), tracking increases inequality by construction as it deprives lower track students of more able peers (Sacerdote, 2011). Second, there might be motivational consequences of separating students by ability. Lower track students, knowing they are deemed to be of lower aptitude, might feel discouraged and reduce their learning efforts. Similarly, teacher expectations, known to influence achievement, might be shaped by the track students attend, irrespective of their actual performance (van Ewijk, 2011). Lastly, if (financial) resources differ between tracks, students of certain tracks might be disadvantaged (Betts, 2011).

Depending on the exact nature of these mechanisms, if and how students are tracked might have important distributional consequences and impact the overall efficiency of the system. Yet, in the face of severe selection problems no clear consensus on the effects of tracking has emerged in the empirical literature.

Research Question

This study aims to estimate mean and distributional effects of early between-school ability tracking in Germany on student achievement – focusing on students in lower tracks.

Method

For identification, I exploit heterogeneity in tracking regimes between German federal states. After comprehensive primary school, about 40% of students are selected for the academic track and taught in separate schools (Gymnasium) in all states. The remaining students, however, are either taught comprehensively for another two years (in two-tiered regimes) or immediately further tracked into two different school forms depending on the state (in three-tiered regimes). Drawing on achievement data on about 9,000 students from the National Educational Panel Study (NEPS), I estimate the effects of this tracking on students' mathematics and reading test scores in seventh-grade with a difference-in-difference-in-differences estimator to eliminate unobserved heterogeneity in achievement levels and trends between states.

Results

I find substantial achievement gains on seventh-grade achievement from comprehensive versus tracked schooling in the previous two years. These average effects are almost entirely driven by low-achievers. I do not find evidence for negative effects of comprehensive schooling on the achievement of higher performing students. For low-achievers, the gains from comprehensive schooling seem to persist until at least ninth grade. These results are confirmed in auxiliary analyses using larger samples of the IQB National Assessment Studies (N=40,000).

My results highlight large costs of between-school tracking at young ages for low-track students and show that deferring tracking can simultaneously reduce inequality and increase efficiency in educational production.

 

Schularten als differenzielle Lernmilieus: Analysen zur Rolle der Schulstruktur und schulstruktureller Reformmaßnahmen

Sarah Lenz, Georg Lorenz, Petra Stanat
Institut zur Qualitätsentwicklung im Bildungswesen (IQB), Humboldt-Universität zu Berlin, Deutschland

Theoretischer Rahmen

Das Sekundarschulsystem in Deutschland umfasst mit Hauptschulen, Realschulen und Gymnasien traditionell drei Schularten, die sich an Schülerinnen und Schüler verschiedener Leistungsniveaus richten. Bisherigen Untersuchungen zufolge stellen die verschiedenen Schularten differenzielle Lernmilieus dar, in denen der Kompetenzerwerb aufgrund von unterschiedlichen institutionellen Rahmenbedingungen und Schülerkompositionen unterschiedlich ausfällt (Baumert et al., 2006). Abgesichert sind insbesondere negative Effekte des Besuchs von Hauptschulen, welche hinsichtlich der Zusammensetzung der Schülerschaft sowie der institutionellen Rahmenbedingungen kumulativ ungünstige Lernumwelten darstellen, und positive Effekte des Besuchs von Gymnasien, die auf günstige institutionelle Rahmenbedingungen und Schülerkompositionen zurückgeführt werden (Baumert et al., 2006, 2009; Baumert & Schümer, 2001; Gröhlich et al., 2010; Schümer, 2004).

Während einige Bundesländer am dreigliedrigen Schulsystem festhalten, haben andere zweigliedrige Schulsysteme etabliert, die die Bildungsgänge von Haupt- und Realschulen in Schulen mit mehreren Bildungsgängen vereinen. Teilweise wurden die leistungsdifferenzierenden Schularten zwei- oder dreigliedriger Schulsysteme zudem um Gesamtschulen erweitert, die in leistungsheterogenen Lerngruppen zu allen allgemeinbildenden Schulabschlüssen führen sollen. Nicht zuletzt sind durch Schulstrukturreformen in mehreren Bundesländern jüngst neue zweigliedrige Schulsysteme entstanden, in denen neben Gymnasien nur noch Gesamtschulen bzw. Schulen mit mehreren Bildungsgängen existieren (Hurrelmann, 2013; Nikolai, 2019; Tillmann, 2012, 2019).

Unterschiede in der Schulstruktur sind mit Unterschieden in der Zusammensetzung der Schülerschaft und den institutionellen Rahmenbedingungen verbunden. In Bundesländern mit zweigliedrigen Schulsystemen unterscheiden sich die Schularten weniger stark im mittleren Leistungsniveau der Klassen. Dies sollte dazu führen, dass auch die Bedeutung der besuchten Schulart für den Kompetenzerwerb in diesen Bundesländern geringer ausfällt als in den Bundesländern mit dreigliedrigen Schulsystemen. In den Bundesländern mit neueren zweigliedrigen Schulsystemen war mit der Umstrukturierung zudem nicht nur eine geringere leistungsbezogene Selektion, sondern auch eine institutionelle Neuausrichtung der nichtgymnasialen Schularten verbunden, die eine gewisse Annäherung der Fördereffekte dieser Schularten an diejenigen von Gymnasien erwarten lässt. Ob die Bedeutung der besuchten Schulart für den Kompetenzerwerb in weniger stark gegliederten Schulsystemen geringer ausfällt als in stärker gegliederten Systemen und ob sie mit den jüngsten Reformmaßnahmen abgenommen hat, blieb bislang offen.

Fragestellung

Die vorliegende Studie untersucht, wie sich Schularteffekte in mehr oder weniger stark gegliederten Schulsystemen unterscheiden und wie sie sich im Zuge schulstruktureller Reformmaßnahmen, die zur Einrichtung zweigliedriger Schulsysteme geführt haben, verändert haben. Entsprechend der obigen Erläuterung wird dabei angenommen, dass die Schularteffekte in weniger stark gegliederten Schulsystemen geringer ausfallen als in stärker gegliederten Schulsystemen (A1) und sich mit den Reformen verringert haben (A2).

Methode

Die empirischen Analysen basieren auf Daten des IQB-Ländervergleichs 2008/2009 und des IQB-Bildungstrends 2015. Diese Daten wurden für jeweils mehr als 30.000 Neuntklässlerinnen und Neuntklässler an über 1.400 Schulen aller allgemeinbildenden Schularten in allen 16 Bundesländern erhoben. Für die Analyse von Schularteffekten wurden anhand von mehrebenenanalytischen Regressionsmodellen Effekte der besuchten Schulart auf die Englisch-Lesekompetenz geschätzt. Die entsprechenden Koeffizienten bilden den konfundierten Effekt der institutionellen Rahmenbedingungen und der leistungsbezogenen Klassenzusammensetzung ab. Die Schularteffekte wurden zwischen Bundesländern mit drei- und zweigliedrigen Schulsystemen und sog. Reformländern kontrastiert. Als unabhängige Variablen dienten neben der Schulart Merkmale zur Beschreibung individueller Eingangsvoraussetzungen von Schülerinnen und Schülern sowie der sozialen und zuwanderungsbezogenen Klassenzusammensetzung.

Ergebnisse

Für das Jahr 2009 weisen die Schularteffekte in den drei Ländergruppen auf ähnliche und deutliche Nachteile des Besuchs einer nichtgymnasialen Schulart im Vergleich zum Besuch eines Gymnasiums hin, die zwischen den Jahren 2009 und 2015 in den Bundesländern mit zwei- und dreigliedrigen Schulsystemen insgesamt zugenommen haben. Die Annahme, dass Schularteffekte in weniger stark gegliederten Schulsystemen geringer ausfallen als in stärker gegliederten Schulsystemen (A1), hat sich anhand des Vergleichs der ersten beiden Ländergruppen nicht bestätigt. In den Reformländern haben die Effekte dagegen abgenommen und fallen im Jahr 2015 im Ländergruppenvergleich am kleinsten aus. Die Annahme, dass Schularteffekte mit den Reformmaßnahmen abgenommen haben (A2), konnte demnach bestätigt werden.

 

Soziokulturelle Kompositionseffekte in unterschiedlich gegliederten Schulsystemen: Unterscheiden sich die Effekte zwischen Systemen und verändern sie sich im Zuge von Schulstrukturreformen?

Marlen Holtmann, Camilla Rjosk
Institut zur Qualitätsentwicklung im Bildungswesen (IQB), Humboldt-Universität zu Berlin, Deutschland

Theoretischer Rahmen

Inwiefern sich unterschiedliche Lernkontexte förderlich auf die Entwicklung von Schülerinnen und Schülern auswirken, wird in zahlreichen empirischen Studien untersucht (z.B. Baumert et al., 2006; Becker et al., 2012). In gegliederten Schulsystemen sind die Lernkontexte geprägt durch schulartspezifische institutionelle Merkmale sowie Merkmale der Klassenzusammensetzungen (Baumert et al., 2006; Dumont et al., 2013). Neben der leistungsbezogenen Klassenzusammensetzung werden die sozioökonomische sowie die zuwanderungsbezogene Komposition als bedeutsam für Lernprozesse diskutiert (Dumont et al., 2013). Demnach besteht zwischen dem Anteil an benachteiligten Schülerinnen und Schülern (niedriger sozioökonomischer Status [SES], Zuwanderungshintergrund) in der Klasse und der individuellen Leistung ein negativer Zusammenhang, der sich reduziert bzw. nicht mehr zeigt, wenn die Leistungszusammensetzung berücksichtigt wird (Dumont et al., 2013). Unter anderem um negative Effekte der Zusammensetzung zu verringern, wurden in einigen Bundesländern in den letzten zehn Jahren mehrgliedrige Schulstrukturen in (erweitert) zweigliedrige Strukturen überführt (Baumert, Maaz et al., 2017). Lenz und Kolleginnen (angenommen) konnten zeigen, dass sich in dieser Bundesländergruppe die Schülerschaft bezogen auf den Zuwanderungshintergrund nach der Reform stärker durchmischt hat, während die sozioökonomische Zusammensetzung stabil geblieben ist. Inwiefern nach der Reform Veränderungen von Kompositionseffekten beobachtbar sind, wurde bislang nicht untersucht.

Fragestellung

Der Beitrag geht den Fragen nach, ob sich die Effekte der soziokulturellen Klassenkomposition auf die Leseleistung der Schülerinnen und Schüler (1) in Abhängigkeit von der Gliederung des Schulsystems und (2) zwischen Schularten unterscheiden und ob (3) sich diese Effekte im Zuge der Schulstrukturreformen verändert haben.

Methode

Datengrundlage sind die IQB-Ländervergleichsstudie 2009 und der IQB-Bildungstrend 2015 (Köller, Knigge & Tesch, 2011; Stanat et al., 2018) mit je über 30.000 Neuntklässlerinnen und Neuntklässlern in über 1.000 Klassen. In den Mehrgruppen-Mehrebenen-Analysen werden drei Bundesländergruppen unterschieden: (erweitert) dreigliedrige Schulsysteme, (erweitert) zweigliedrige Schulsysteme sowie eine Gruppe, die Reformen zu (erweitert) zweigliedrigen Schulsystemen durchgeführt hat. Dabei wird geprüft, ob sich die soziokulturellen Kompositionseffekte in den Jahren 2009 und 2015 zwischen den Bundesländergruppen unterscheiden und ob sich innerhalb der Bundesländergruppen Veränderungen zwischen diesen Jahren zeigen. Unterschiede in Kompositionseffekten zwischen Schularten werden durch Interaktionseffekte modelliert. Leseleistung im Fach Deutsch wird dabei vorhergesagt durch Merkmale der soziokulturellen Komposition, d.h. den mittleren SES in der Klasse (höchster ISEI; Ganzeboom et al., 1992) und den Klassenanteil von Heranwachsenden mit Zuwanderungshintergrund (von denen mindestens ein Elternteil im Ausland geboren wurde). In den Modellen werden neben zentralen Kovariaten auf Individualebene (Geschlecht, Anzahl der Bücher zu Hause, SES, Zuwanderungshintergrund) auch die Schulart (Gymnasium versus nichtgymnasiale Schularten) berücksichtigt. Für das Jahr 2015 werden zudem kognitive Grundfähigkeiten (BEFKI; Wilhelm, Schroeders & Schipolowski, 2014) der Jugendlichen auf Individualebene sowie auf Klassenebene als Maß der leistungsbezogenen Komposition einbezogen.

Ergebnisse

Analysen zu Unterschieden zwischen den Bundesländergruppen zeigen vergleichbare soziokulturelle Kompositionseffekte auf die Leseleistung in 2009 und 2015 in allen drei Gruppen. Diese Effekte bleiben im Jahr 2015 in Bundesländern ohne Schulstrukturreformen auch unter Kontrolle der leistungsbezogenen Komposition bestehen. In den Reformländern ist der sozioökonomische Kompositionseffekt unter Kontrolle der leistungsbezogenen Komposition im Jahr 2015 nicht mehr signifikant, der zuwanderungsbezogene Kompositionseffekt bleibt bestehen. Analysen zu Schulartunterschieden bieten ein differenzierteres Befundmuster. Beispielsweise zeigen sich im Vergleich zum Gymnasium an nichtgymnasialen Schularten in den Bundesländern ohne Umstrukturierungen des Schulsystems höhere sozioökonomische Kompositionseffekte (2009 und 2015). In den Reformländern sind im Jahr 2009 an nichtgymnasialen Schularten höhere sozioökonomische Kompositionseffekte als an Gymnasien zu beobachten. Diese Unterschiede sind im Jahr 2015 nicht mehr festzustellen. Für die zuwanderungsbezogene Zusammensetzung zeigen sich in allen Bundesländergruppen stabile Effekte, die sich weitgehend nicht zwischen Schularten unterscheiden.

In den Bundesländern ohne Schulstrukturreformen haben sich die soziokulturellen Kompositionseffekte insgesamt nicht verändert. In den Reformländern hingegen hat sich der sozioökonomische Kompositionseffekt im Jahr 2015 signifikant verringert und unterscheidet sich nicht mehr zwischen den Schularten.

 

Differenzielle Lernmilieus im zweigliedrigen Schulsystem – Eine längsschnittliche Untersuchung an Gymnasien und Integrierten Sekundarschulen in Berlin

Marko Neumann1, Nicky Zunker2, Michael Becker3, Jürgen Baumert4, Olaf Köller5, Kai Maaz1
1DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Humboldt-Universität zu Berlin, 3DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, IPN – Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, 4Max-Planck-Institut für Bildungsforschung, 5IPN – Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik

Theoretischer Rahmen

Im Zuge des in den vergangenen Jahren zu beobachtenden Trends hin zu zweigliedrigen Schulsystemen hat das Land Berlin zum Schuljahr 2010/11 eine Schulstrukturreform umgesetzt, die neben dem Gymnasium mit der Integrierten Sekundarschule (ISS) im Kern nur noch eine weiterführende Schulform vorsieht. Die ISS ist aus der Umwandlung der bisherigen nichtgymnasialen Schulformen (Hauptschule, Realschule, verbundene Haupt- und Realschule, Gesamtschule) hervorgegangen und ermöglicht den Erwerb aller Abschlüsse einschließlich des Abiturs. Dazu sind die ISS entweder mit einer eigenen Oberstufe ausgestattet oder verfügen über Kooperationen mit den Oberstufen anderer Schulen. Die Umwandlung der ehemaligen nichtgymnasialen Schulen zu ISS erfolgte überwiegend durch Umgründungen der bisherigen Schulen, rund ein Sechstel der ISS ging aus schulformübergreifenden Fusionen zwischen Haupt- und Realschulen hervor (vgl. Baumert, Neumann et al. 2017).

Ein wesentliches Ziel der strukturellen Neuordnung des nichtgymnasialen Schulbestandes war die Reduktion von Schulstandorten, an denen sich lernbeeinträchtigende Merkmale der Schülerschaft kumulierten, die auf schwierige Lern- und Entwicklungsmilieus schließen lassen. Dies war vor der Reform insbesondere an Hauptschulen (vgl. Baumert, Stanat & Watermann, 2006) sowie in Teilen auch an Gesamtschulen (insbesondere an Schulstandorten ohne eigene Oberstufe) der Fall. Neben diesen kompositionellen Effekten wird davon ausgegangen, dass zudem auch institutionelle Unterschiede (z.B. unterschiedliche didaktische Traditionen und curriculare Schwerpunktsetzungen, Unterschiede in der Lehrerausbildung) die Lernentwicklung der Schülerinnen und Schüler beeinflussen. Mehreren Arbeiten, die sich mit der Frage nach differenziellen Lern- und Entwicklungsmilieus an weiterführenden Schulen auseinandersetzten, konnte derartige institutionelle Effekte unter Kontrolle kompositioneller Unterschiede nachweisen (vgl. z.B. Baumert et al., 2009; Guill & Gröhlich, 2013; Köller & Baumert, 2001; Neumann et al.; 2007).

Analysen im Rahmen der BERLIN-Studie zur Evaluation der Schulstrukturreform ergaben, dass die Zielsetzungen der Reform bislang nur in eingeschränktem Maße erreicht wurden, so dass die alte Schulstruktur im nichtgymnasialen Bereich latent weiterhin fortbesteht (vgl. Baumert, Neumann et al, 2017). Das zentrale institutionelle Stratifizierungsmerkmal ist dabei das Vorhandensein einer eigenen Oberstufe am Schulstandort, wie es vor (und nach) der Schulstrukturreform nahezu ausschließlich an den (ehemaligen) Gesamtschulen der Fall war (ist). Die institutionelle Stratifizierung geht auch mit unterschiedlichen Qualifikations- und Erfahrungshintergründen des Lehrerkollegiums an nichtgymnasialen Schulen einher, so dass sich die Frage lernmilieuprägender schulischer Kontextbedingungen auch nach der Umstellung auf Zweigliedrigkeit weiterhin stellt.

Fragestellung

Vor diesem Hintergrund soll im eingereichten Beitrag untersucht werden, inwieweit Berliner Schülerinnen und Schüler in Abhängigkeit der besuchten weiterführenden Schule bzw. Schulform unterschiedliche Lernzuwächse erzielen. Dabei werden sowohl differenzielle Lernverläufe zwischen Gymnasium und ISS, insbesondere aber auch zwischen den verschiedenen Umgründungstypen innerhalb der ISS analysiert.

Methode

Die Datengrundlage der Untersuchung liefert die BERLIN-Studie. Für N = 1660 Schülerinnen und Schüler aus 29 Gymnasien und 70 ISS des reformierten Schulsystems liegen neben den erfassten Lernständen am Ende der Grundschule (Klasse 6) und in Klasse 9 umfangreiche Hintergrundangaben zu den kognitiven Grundfähigkeiten, Noten und zum familiären Hintergrund vor. In den Auswertungen werden die in Klasse 9 erreichten Kompetenzen in den Fächern Deutsch (Leseverstehen) und Mathematik mit Hilfe von Mehrebenenanalysen vorhergesagt. Dabei wird auf der Schulebene die Schulform (Gymnasium/ISS) bzw. der jeweiligen ISS-Umgründungstyp (unter anderem ISS mit und ohne Oberstufe) zur Prädiktion der Fachleistungen herangezogen. Neben dem regressionsanalytischen Vorgehen sollen Propensity Score Matching-Analysen durchgeführt werden, um die Befunde unterschiedlicher methodischer Herangehensweisen gegenüberzustellen.

Ergebnisse

Erste Ergebnisse der mehrebenenanalytischen Auswertungen deuten darauf hin, dass Schülerinnen und Schüler am Gymnasium auch bei Kontrolle der Ausgangsleistungen und weiterer Eingangsmerkmale in Klasse 9 höhere Lernstände erzielen als vergleichbare Schülerinnen und Schüler an den ISS. Innerhalb der ISS finden sich höhere Lernstände an den ISS mit eigener Oberstufe, wenn für die Eingangsvoraussetzungen der Schülerinnen und Schüler kontrolliert wird. Die Ergebnisse deuten auf differentielle Fördereffekte an den weiterführenden Schulformen, insbesondere auch im Bereich der nichtgymnasialen Schulen zweigliedriger Schulsysteme, hin.

 

Datum: Donnerstag, 26.03.2020
9:00 - 10:45D9‒H02: Unterrichtsqualität und ihre Auswirkungen auf Schüler*innen mit sonderpädagogischem Förderbedarf in inklusiven Schulen: Erkenntisse aus Schulleistungsstudien
H02 
 

Unterrichtsqualität und ihre Auswirkungen auf Schüler*innen mit sonderpädagogischem Förderbedarf in inklusiven Schulen: Erkenntnisse aus Schulleistungsstudien

Chair(s): Poldi Kuhl (Leuphana Universität Lüneburg), Lena Nusser (LIfBi, Deutschland)

DiskutantIn(nen): Christine Sälzer (Universität Stuttgart)

Das deutsche Bildungssystem befindet sich aktuell in einem kontinuierlichen Veränderungsprozess, der u. a. durch die zunehmende Inklusion von Schüler*innen mit einem sonderpädagogischen Förderbedarf (SPF) in allgemeinen Schulen geprägt ist. Dies stellt eine große Herausforderung für alle beteiligten Akteur*innen auf unterschiedlichen Ebenen dar. Es gilt, sinnvolle Konzepte zu entwickeln und zu implementieren, um eine hohe Unterrichtsqualität zu gewährleisten und möglichst optimale Bedingungen für alle Lernenden bereitzustellen. Die Erforschung sowohl der (Unterrichts-)Prozesse als auch der spezifischen Einflussfaktoren, insbesondere mit Blick auf Schüler*innen mit SPF, erfordert valide und aussagekräftige Daten. Mit dieser Zielstellung arbeitet seit 2012 eine interdisziplinäre Gruppe von Vertreter*innen internationaler und nationaler Schulleistungsstudien im NELSEN-Netzwerk (NEtwork of Large-scale-studies including students with Special Educational Needs) an methodischen und inhaltlichen Fragestellungen zur Einbeziehung von Schüler*innen mit SPF in diesen Studien. Seit 2017 wird das NELSEN-Netzwerk im Rahmen einer DFG-Förderung in seiner Arbeit unterstützt.

Das geplante Symposium trägt vier Beiträge aus dem NELSEN-Netzwerk zusammen, die sich aus unterschiedlichen fachlichen Perspektiven und im Kontext verschiedener Untersuchungen mit den Gelingensbedingungen und Herausforderungen der schulischen Inklusion von Schüler*innen mit SPF beschäftigen. Der Schwerpunkt dieses Symposiums liegt dabei zum einen auf den Merkmalen der Unterrichtsqualität und zum anderen auf Merkmalen der Lehrpersonen sowie auf deren Auswirkungen auf kognitive und sozial-emotionale Outcomes von Schüler*innen mit SPF in inklusiven Schulen.

Der Zusammenhang zwischen Lehrkraftkompetenzen und Merkmalen des Unterrichts im Bereich der Unterrichtsorganisation und der Unterrichtsqualität im inklusiven Schulalltag wird im ersten Beitrag fokussiert. Die Merkmale der Unterrichtsorganisation und -qualität werden im Fach Deutsch aus den Perspektiven der Lehrkräfte und der Schüler*innen betrachtet und untersucht inwieweit die Lehrkraftkompetenz hierfür maßgeblich ist. Der zweite Beitrag betrachtet die Selbstwirksamkeit der Lehrkräfte im Zusammenhang mit Einschätzungen der Unterrichtsqualität aus Sicht der Schüler*innen. Dabei zeigt sich, dass insbesondere die schüler*innenspezifische Selbstwirksamkeit von Lehrkräften mit einer höheren Unterrichtsqualität und einem verbesserten Selbstkonzept der Schüler*innen einhergeht. Effekte der individuellen und kollektiven Selbstwirksamkeit der Lehrpersonen werden im dritten Beitrag betrachtet. Hier werden insbesondere die Zusammenhänge zum subjektiven Wohlbefinden der Schüler*innen im Kontext der Schule und ihr Zugehörigkeitsgefühl zur Klasse untersucht. Der vierte Beitrag untersucht schließlich die Kompetenzentwicklung von Schüler*innen mit einem SPF Lernen. Die Vergleichsgruppe bildet eine durch Propensity-Score-Matching identifizierte Stichprobe von Schüler*innen, die keine Diagnose, aber ähnliche Ausgangsvoraussetzungen (z.B. SES, kognitive Grundfähigkeiten) aufweisen, um zu untersuchen, inwieweit die mit einer Diagnose einhergehenden Maßnahmen einen Effekt auf die Entwicklung der Schüler*innen haben.

Abschließend werden die Beiträge übergreifend diskutiert und die Herausforderungen der hier skizzierten Forschungslinien zur Untersuchung der Unterrichtsqualität in inklusiven Schulen erörtert. Zudem werden ihre Effekte auf bildungsrelevante Outcomes von Schüler*innen mit SPF aufgezeigt und insbesondere der Bezug zu den Tagungsschwerpunkten der Partizipation aller Lernenden durch die Gestaltung von Bildung gestärkt.

 

Beiträge des Symposiums

 

Wie hängt die selbsteingeschätzte inklusive Unterrichtskompetenz mit Merkmalen der Unterrichtsorganisation und –qualität zusammen?

Lena Külker, Cornelia Gresch, Camilla Rjosk
IQB

Theoretischer Hintergrund

Im Kontext von schulischer Inklusion und der Umsetzung der UN-Behindertenrechtskonvention werden Lehrkräftekompetenzen zum Umgang mit inklusiven Klassen, also Klassen, in denen Schüler*innen mit sonderpädagogischem Förderbedarf (SPF) unterrichtet werden, eine hohe Relevanz zugeschrieben (Melzer et al., 2015; Moser & Kropp, 2014). Die theoretische sowie empirische Auseinandersetzung mit dieser „inklusiven Unterrichtskompetenz“ befindet sich allerdings „noch in den Anfängen“ (Moser, 2018, S.105). Allgemeine Modelle der Lehrkräftekompetenz (z.B. Kunter et al., 2011, Beck et al., 2008) beschreiben die Kompetenzen als zentrale Determinanten des Verhaltens der Lehrkräfte im Unterricht (ebd., Brühwiler, 2014). Als relevante Merkmale zur Beschreibung des Unterrichts werden in der Unterrichtsforschung einerseits Merkmale der Unterrichtsorganisation, sogenannte Sichtstrukturen, herangezogen (z.B. verschiedene Lern- und Organisationsformen; Maßnahmen zur Binnendifferenzierung). Andererseits werden die Unterrichtsqualitätsmerkmale kognitive Aktivierung, konstruktive Unterstützung und Klassenführung, sogenannte Tiefenstrukturen, als Basisdimensionen guten Unterrichts differenziert (Klieme, 2019; Oser & Baeriswyl, 2001). Die Gestaltung und die Qualität des Unterrichts sind zudem nicht losgelöst vom Klassenkontext (Helmke, 2010). Dies betrifft insbesondere die Klassenzusammensetzung (Brühwiler, 2014). Bislang gibt es keine Studien zu inklusiver Unterrichtskompetenz und Merkmalen der Unterrichtsorganisation- und -qualität. Es gibt allerdings Studien, die positive Zusammenhänge zwischen der Lehrkräftekompetenz allgemein und diesen Merkmalen der Unterrichtsorganisation und –qualität belegen (u.a. Brühwiler, 2014, Kunter&Voss, 2011). Weiterhin zeigen Studien zu inklusiven Klassen einerseits, dass der Unterricht durch eine geringe Differenzierung und einen seltenen Einsatz von verschiedenen Lern- und Organisationsformen gekennzeichnet ist (Liebers et al., 2018). Andererseits liegen Schüler*innen-Einschätzungen für alle Basisdimensionen guten Unterrichts über dem theoretischen Durchschnitt. V.a. kognitive Aktivierung wird überdurchschnittlich positiv eingeschätzt (Henke et al., 2015). Hinsichtlich der Klassenzusammensetzung variieren inklusive Klassen u.a. im Anteil der Schüler*innen mit SPF (Heimlich, 2014; Blanck, 2014).

Fragestellung

Der Beitrag geht der Frage nach, welche Zusammenhänge zwischen inklusiver Unterrichtskompetenz von Lehrkräften und Merkmalen der Unterrichtsorganisation und -qualität bestehen und ob diese Zusammenhänge durch den Anteil an Schüler*innen mit SPF in der Klasse moderiert werden.

Methode

Datengrundlage bilden Angaben von Lehrkräften sowie Schüler*innen allgemeiner Schulen zum Fach Deutsch, die am IQB-Bildungstrend 2016 (Stanat et al., 2017) teilgenommen haben. Im Fokus stehen diejenigen Lehrkräfte, die zum Zeitpunkt der Erhebung mindestens eine/n Schüler*in, die/der sonderpädagogisch gefördert wird, unterrichten und deren Schüler*innen Fragen zur Unterrichtseinschätzung vorgelegt wurden (N=441 Klassen). Die inklusive Unterrichtskompetenz wurde über die Selbsteinschätzung der eigenen Kompetenz für das Unterrichten in inklusiven Klassen erfasst. Hierzu wurden die Lehrkräfte gebeten, einzuschätzen, wie gut sie sich durch ihre Ausbildung, Fortbildung und Berufserfahrung auf insgesamt sieben verschiedene Aspekte des gemeinsamen Unterrichts (beispielsweise Einsatz von individuellen Fördermaßnahmen und differenzierte Leistungsbewertung) vorbereitet fühlen. Des Weiteren wurde die Häufigkeit von Merkmalen der Unterrichtsorganisation (eher traditionelle Lern- und Organisationsformen, eher individualisierende bzw. kooperative Formen, Binnendifferenzierung) bei den Lehrkräften erfragt. Von den Schüler*innen liegen Angaben zu Merkmalen der Unterrichtsqualität (kognitive Aktivierung im Lesen und in der Orthografie, konstruktive Unterstützung, Klassenführung) vor, die pro Klasse aggregiert wurden. Für die Auswertungen werden uni- und bivariate Analysen genutzt.

Ergebnisse

Korrelative Analysen zeigen einen positiven Zusammenhang zwischen der eingeschätzten inklusiven Unterrichtskompetenz von Lehrkräften und der Einsatzhäufigkeit binnendifferenzierender Maßnahmen und individualisierender bzw. kooperativer Lern- und Organisationsformen sowie der kognitiven Aktivierung im Bereich Orthografie. Für die anderen betrachteten Merkmale der Unterrichtsorganisation und -qualität ergaben sich keine signifikanten Zusammenhänge mit der Einschätzung inklusiver Unterrichtskompetenz. Es werden weitere Analysen dieser Zusammenhänge unter Berücksichtigung des Anteils von Schüler*innen mit SPF in der Klasse angeschlossen, um zu prüfen ob dieser Anteil die Zusammenhänge zwischen der Einschätzung inklusiver Unterrichtskompetenz und Merkmale der Unterrichtsorganisation und -qualität moderiert.

Mit dem Beitrag werden Erkenntnisse zum Zusammenhang von inklusiven Unterrichtskompetenz und Merkmalen der Unterrichtsorganisation und -qualität vorgestellt und mit bisheriger Lehr-Lern-Forschung verknüpft. Es werden zudem Implikationen für die Praxis, im Besonderen für die Qualifizierung von Lehrkräften für inklusives Unterrichten und weitere Forschungspotenziale diskutiert.

 

Die Beziehung zwischen Schüler*innenspezifischer Selbstwirksamkeit von Lehrpersonen und der Bewertung von Unterrichtsqualität durch Schüler*innen

Susanne Schwab1, Katharina-Theresa Lindner2, Hannu Savolainen3
1Universität Wien & North-West University, Vanderbijlpark, South Africa, 2Universität Wien, 3University of Jyväskylä

Bisherige empirische Untersuchungen zu Determinanten von Verhaltens- und Handlungsstrukturen von Lehrpersonen betonen die Bedeutung der Selbstwirksamkeit von Lehrpersonen in Bezug auf ihr Verhalten im Unterricht (Bandura, 1997; Tschannen-Moran & Woolfolk Hoy, 2001; Guo et al., 2010; Zee et al., 2016). Banduras sozial-kognitive Theorie und das Konstrukt Selbstwirksamkeit bilden oft den theoretischen Kern dieser Studien. Im Schulkontext wird Selbstwirksamkeit definiert als der Glaube einer Lehrperson, dass die eigenen Fähigkeiten wünschenswerte Veränderungen im Verhalten und in der Leistung der Schüler*innen bewirken können (Gibson & Dembo, 1984; Guo et al., 2010). In Hinblick auf die tatsächliche Unterrichtsgestaltung zeigen die Ergebnisse von Knauder und Koschmieder (2019), dass die wahrgenommene Selbstwirksamkeit von Lehrpersonen ein Prädiktor für den Einsatz individualisierter Unterrichtsmethoden ist. Ein Zusammenhang zwischen dem Selbstwirksamkeitsgefühl von Lehrpersonen und deren Unterrichtsqualität konnte zudem in weiteren Studien aufgezeigt werden (z.B. Holzberger, Philipp, & Kunter, 2013; Neve, Devos, & Tuytens, 2015).

Die Aussagekraft dieser Studien wird jedoch kritisch betrachtet, da das Konstrukt Unterrichtsqualität aus Sicht der Lehrpersonen erforscht wurde. Neuere Forschungsansätze fordern jedoch, dass der Blickwinkel der Schüler*innen stärker beachtet wird. Auch kann kritisch festgestellt werden, dass die Selbstwirksamkeit der Lehrkräfte in der bisherigen Forschung als globales Konzept auf Klassenebene betrachtet wird. Zee et al. (2016) betonen in diesem Kontext jedoch die Wichtigkeit, die Selbstwirksamkeit von Lehkräften als von individuellen Schüler*innen abhängiges Konstrukt zu verstehen. Bisherige Forschungen (z.B. Zee et al., 2016; Schwab, 2019) zeigten, dass sich eine hohe Varianz der Selbstwirksamkeit innerhalb von Lehrkräften gegenüber individuellen Schüler*innen zeigt und bestätigten die Bedeutung der schüler*innenspezifischen Selbstwirksamkeit. Daher zielt die vorliegende Studie darauf ab, schüler*innenspezifische Selbstwirksamkeit von Lehrpersonen mit der Bewertung der Unterrichtsqualität durch Schüler*innen zu verknüpfen und mögliche Zusammenhänge aufzuzeigen.

Insgesamt nahmen 721 Schüler*innen (Durchschnittsalter 10 bis 15 Jahre) und 27 Lehrpersonen inklusiver Schulklassen aus Deutschland an der paper-pencil Befragung teil. Die schüler*innenspezifische Selbstwirksamkeit der Lehrpersonen wurde mittels einer angepassten Kurzfassung der Teachers‘ Sense of Efficacy Scale (Tschannen-Moran & Hoy, 2011; Zee et al., 2016) erhoben. Lehrpersonen bewerteten ihre Selbstwirksamkeit gegenüber allen Schüler*innen ihrer Klasse anhand 16 Items pro Schüler*in. Die Erfassung der Selbstwirksamkeit erfolgte dabei über vier Subskalen: (1) Unterrichtsstrategien (z.B.: Ich kann dieser Schülerin/diesem Schüler angemessene Herausforderungen bieten), (2) Verhaltensmanagement (z.B.: Ich kann störendes Verhalten bei dieser Schülerin/diesem Schüler kontrollieren), (3) Schüler*innenengagement (z.B.: Ich kann diese Schülerin/diesen Schüler für seine Schularbeit motivieren), (4) Emotionale Unterstützung (z.B.: Ich kann die Lernaufgaben an die Bedürfnisse und Interessen dieser Schülerin/dieses Schülers anpassen). Darüber hinaus wurden die Schüler*innen gebeten, die Qualität des Unterrichts auf Grundlage der gleichen Dimensionen mithilfe der identen Items in modifizierter Form zu bewerten (z.B.: „Meine Lehrperson kann mir angemessene Herausforderungen bieten.“).

Im Zuge einer konfirmatorischen Faktorenanalyse konnte die Passung der vierdimensionalen Faktorenstruktur des Erhebungsinstruments sowohl für die schüler*innenspezifischen Selbstwirksamkeitsbewertungen der Lehrpersonen (Chi-square= 205,28; df= 96; RMSEA= .05; CFI= .93; TLI= .92; SRMR= .06) als auch die Evaluierung der Unterrichtsqualität durch die Schüler*innen (Chi-square= 203,08; df= 98; RMSEA= .05; CFI= .94; TLI= .92; SRMR= .04) bestätigt werden. Auch ein kombiniertes Modell zeigte gute Passung (Chi-square= 726.33; df= 434; RMSEA= .04; CFI= .93; TLI= .92; SRMR= .05) und es konnte eine Wechselbeziehung zwischen Lehrer*innen- und Schüler*innenbewertungen aufgezeigt werden.

Die Ergebnisse zeigen signifikante Zusammenhänge der schüler*innenspezifischen Selbstwirksamkeit von Lehrkräften und den Ratings der Schüler*innen. Die Höhe der Zusammenhänge lag dabei zwischen r= .15 und r = .40. Weitere Berechnungen zeigten, dass höhere Selbstwirksamkeit seitens der Lehrkräfte zudem mit einem höheren akademischen Selbstkonzept der Schüler*innen einhergeht.

 

Wohlbefinden von Kindern in inklusiven Schulen – die Rolle der individuellen und kollektiven Selbstwirksamkeit der Lehrkräfte

Jonathan Senior1, Stephanie Apresjan2, Julia Gorges3
1Universität Bielfeld, 2Universität Wien, 3Universität Marburg

Neben kognitiven Faktoren wie Intelligenz und Vorwissen gelten auch „weiche“ Faktoren wie Wohlbefinden und Klassenklima als förderlich für die Lernentwicklung von Schüler*innen. Gerade nach dem Wechsel auf eine neue Schule gilt es daher, eine positive psychosoziale Entwicklung der neuen Schüler*innen und Klassen zu fördern. Welche lehrerseitigen Faktoren hierzu beitragen, ist bislang jedoch noch wenig untersucht. Insbesondere stellt sich die Frage, ob Faktoren, die gut für die Lernentwicklung sind, auch positive Effekte auf psychosoziale Faktoren wie Wohlbefinden, Klassenklima und Zugehörigkeitsgefühl zur Schule haben. Positive Effekte auf die schulische Leistung von Schüler*innen zeigt z.B. die Lehrer-Selbstwirksamkeit, d.h. die Überzeugung, als Lehrkraft in herausfordernden Situationen erfolgreich handeln zu können (zusf. Zee & Kooman, 2016). So nutzen selbstwirksame Lehrer*innen häufiger geeignete Klassenmanagement-Strategien, die auch die Entwicklung einer guten Klassengemeinschaft fördern (z.B. durch Verhaltensregeln für ein respektvolles Miteinander).

Über die individuelle Selbstwirksamkeitsüberzeugung hinaus könnte gerade in inklusiven Schulen, in denen Schüler*innen von einem Team aus allgemeinen Lehrkräften, sonderpädagogischen Lehrkräften, Sozialpädagog*innen und ggfs. Unterrichtsbegleitungen betreut werden, auch die kollektive Selbstwirksamkeit des Teams relevant sein. Kollektive Selbstwirksamkeit ist definiert als Überzeugung, als Team die Fähigkeiten zu besitzen, trotz auftretender Herausforderungen erfolgreich die Aufgaben in der Schule erfüllen zu können. Im Schulkontext wurde die kollektive Selbstwirksamkeit bislang hauptsächlich als Einflussfaktor für das Wohlbefinden und Stresserleben von Lehrkräften adressiert. Durch eine gute Teamarbeit sollten Lehrkräfte aber auch mehr Ressourcen haben, um sich um (einzelne) Schüler*innen zu kümmern, und den Schüler*innen als Vorbild für ihr eigenes soziales Verhalten dienen.

Vor diesem Hintergrund wurden in der vorliegenden Studie Effekte der Lehrer-Selbstwirksamkeit und der kollektiven Selbstwirksamkeit auf psychosoziale Aspekte (subjektives Wohlbefinden, Klassenklima und Zugehörigkeitsgefühl zur Schule) von Schüler*innen geprüft. Die Stichprobe umfasste 2137 Schüler*innen (Alter: M = 10.37 (SD = 0.59); 48.5% weiblich) von 28 inklusiven Gesamt- und Sekundarschulen, die am Anfang der 5. Klasse schriftlich zu befragt wurden. Die Daten von N = 195 Lehrkräften des 5. Jahrgangs (davon 25 sonderpädagogische Lehrkräfte) wurden mit einem Online-Survey erfasst.

Alle Konstrukte wurden mit etablierten Instrumenten und mindestens zufriedenstellender interner Konsistenz erfasst (Lehrer-Selbstwirksamkeitserwartung: ...; kollektive Selbstwirksamkeit; subjektives Wohlbefinden: 4 Items; fünfstufigen Antwortskala; α = 0.75, M = 3.86, SD = 0.84; Klassenklima: 3 Items, vierstufige Antwortskala; α = 0.78, M = 3.22, SD = 0.69; Zugehörigkeit zur Schule: 3 Items, vierstufige Antwortskala; α =0,76 M=1,64 SD=0,86).

Die Effekte von Lehrer-Selbstwirksamkeitserwartung und kollektiver Selbstwirksamkeit auf psychosoziale und Leistungsmerkmale der Schüler*innen wurden mit Mehrebenenregressionanalysen geprüft (Level 1 = Schüler*innen, Level 2 = Schule). Geschlecht, sonderpädagogischer Förderbedarf (7,2% mit diagnostizierte SPF) und kognitive Grundkompetenz (gemessen durch einen Auszug aus der CFT-20R, Maximalpunktzahl= 27, M=14,05, SD=4,22) als Kovariate aufgenommen.

Die Ergebnisse zeigte einen positiven Effekt der Lehrer-Selbstwirksamkeit auf das subjektive Wohlbefinden (β = 0.13; p < .05) und das Klassenklima (β = 0.13; p < .05). Kollektive Selbstwirksamkeit hatte eine positiven Effekt auf die wahrgenommene Zugehörigkeit zur Schule (β = 0.11; p < .01).

Diese Ergebnisse weisen darauf hin, dass Lehrerselbstwirksamkeit förderlich ist für das subjektive Wohlbefinden der Schüler*innen und die Entwicklung eines positiven Klassenklimas. Zudem scheint kollektive Selbstwirksamkeit eine Rolle dafür zu spielen, inwieweit Schüler*innen sich zugehörig zu ihrer Schule fühlen. Die Ergebnisse deuten darauf hin, dass die Selbstwirksamkeitsüberzeugung einzelner Lehrkräfte und des Kollegiums gerade in der Anfangsphase an einer neuen Schule eine wichtige Rolle für die Einsozialisierung der Schüler*innen spielt. Weiterhin unterstreichen die differentiellen Effekte der individuellen und kollektiven Selbstwirksamkeit die Bedeutung einer Berücksichtigung beider Konstrukte in Untersuchungen zur Selbstwirksamkeit. Aufgrund des querschnittlichen Designs der vorliegenden Studie können keine kausalen Schlussfolgerungen gezogen werden. Eine längsschnittliche Erweiterung der Datenerhebung ist bereits erfolgt, so dass im Vortrag auch Ergebnisse im Längsschnitt vorgestellt werden können.

 

Schüler*innen mit Förderbedarf im Bereich Lernen – Welche Auswirkung hat die Diagnose auf die Kompetenzentwicklung?

Lena Nusser1, Janka Goldan2
1LIfBi, 2Bergische Universität Wuppertal

Die formale Diagnose sonderpädagogischer Förderbedarfe wird international kontrovers diskutiert (z.B. Algraigray & Boyle, 2017; Arishi, Boyle & Lauchland, 2017; Boyle, 2014; Norwich, 2014). Viele Autor*innen argumentieren, dass eine Diagnosestellung wichtig sei, um Schüler*innen zum Erhalt zusätzlicher, nachteilsausgleichender Ressourcen zu berechtigen (z.B. Arishi et al., 2017; Norwich, 2014). Kritiker*innen formaler Diagnosen, welche diese Praxis in der Regel als ‚Labelling‘ bezeichnen, heben vor allem die Risiken hervor, die mit den defizitorientierten, klassifizierenden und zum Teil stigmatisierenden Zuschreibungen verbunden sind (Algraigray & Boyle, 2017; Boyle, 2014; Lauchlan & Boyle, 2007; Powell, 2003). Insbesondere mit Blick auf die Entwicklung des Selbstwerts und des akademischen Selbstkonzepts der Schüler*innen lassen sich negative Effekte nachweisen (z.B. MacMaster, Donovan & MacIntyre, 2002; Savolainen, Timmermans & Savolainen, 2018). Experimentelle Studien zeigen zudem, dass Lehrkräfte die Tendenz aufweisen, Schüler*innen mit Labels bei gleicher Leistung schlechter zu bewerten als Schüler*innen ohne ein entsprechendes Label (z.B. Gibbs & Elliott, 2015). Auf Basis des aktuellen Stands der Forschung lassen sich daher Risiken für die Kompetenzentwicklung von Schüler*innen mit einem sonderpädagogischen Förderbedarf ableiten, welche der Intention der Zuschreibung – nämlich der sonderpädagogischen Förderung – zuwiderläuft. Internationale Studien, welche die Kompetenzentwicklung von Schüler*innen mit einem Förderbedarf (im Bereich Lernen) anhand von Large-Scale Assessments quasi-experimentell untersuchen, finden einheitlich keinen positiven Effekt (z.B. Demspey & Valentine, 2017; Dempsey, Valentine & Colyvas, 2016; Morgan, Frisco, Farkas & Hibel, 2010), wobei die Ursachen hierfür unklar bleiben.

Im Fall der Diagnose eines sonderpädagogischen Förderbedarfs im Bereich Lernen ist zu bedenken, dass es sich dabei um eine wissenschaftlich nicht abgesicherte Kategorie handelt (z.B. Grünke & Grosche, 2014), was Disparitäten in der Zuweisung zur Folge hat (Goldan & Kemper, 2019; Kölm, Gresch & Kuhl, 2019). Empirische Beiträge zur Untersuchung der Kompetenzen von Schülerinnen und Schülern mit einem formal diagnostizierten Förderbedarf im Bereich Lernen zeigen entsprechend, dass diese einen beträchtlichen Überschneidungsbereich mit Schülerinnen und Schülern haben, welchen kein sonderpädagogischer Förderbedarf diagnostiziert wurde (Kossmann, 2019). Diese Variation in der Zuweisung des Labels machen sich die Autorinnen der Studie zunutze, um der Frage nachzugehen, welchen Effekt das Label ‚Sonderpädagogischer Förderbedarf im Bereich Lernen‘ auf die mathematische Kompetenzentwicklung hat. Basierend auf bisherigen Ergebnissen wird angenommen, dass das Label keinen oder einen negativen Effekt auf die Kompetenzentwicklung hat.

Anhand von Daten der Startkohorte 2 (Kindergarten, n = 9337) des Nationalen Bildungspanels (NEPS, Blossfeld, Roßbach & von Maurice, 2011) wird die Kompetenzentwicklung in der Domäne Mathematik von Schüler*innen (Neumann et al., 2013), die eine Diagnose SPF-L erhalten haben, im Vergleich zu einer hinsichtlich relevanter Ausgangsbedingungen (kognitive Grundfähigkeiten, Wortschatz, HISEI, Bundesland etc.) gematchten Stichprobe im Verlauf der Grundschule untersucht. Insgesamt konnten 164 statistische Zwillinge identifiziert werden. Mittels eines latenten Wachstumskurvenmodells wurde die Kompetenzentwicklung in Mathematik zu drei Messzeitpunkten im Verlauf der Grundschule modelliert. Das Vorliegen einer Diagnose zeigte keinen Effekt auf den Kompetenzzuwachs der Schüler*innen, die eine Diagnose SPF-L erhalten hatten. Es wird diskutiert, inwieweit das Label und die damit einhergehende individuelle Förderung einen potentiellen Schereneffekt kompensiert. Die Studie ist dadurch limitiert, dass potentiell unbeobachtete Varianz zwischen den beiden Gruppen einen Effekt auf die Kompetenzentwicklung haben könnte.

 
11:15 - 13:00D11‒H02: Lernschwierigkeiten: Kenntnisstand von Lehrkräften und diagnostische Ansätze in der Schule
H02 
 

Lernschwierigkeiten: Kenntnisstand von Lehrkräften und diagnostische Ansätze in der Schule

Chair(s): Kirsten Schuchardt (Universität Hildesheim, Deutschland)

DiskutantIn(nen): Jan Lonnemann (Universität Potsdam)

Schwierigkeiten beim Erwerb des Lesens, Rechtschreibens und Rechnens sind weit verbreitet und ein ernst zu nehmendes Problem. Etwa 23,3% aller Grundschulkinder weisen eine Lernschwäche in einem oder mehreren Schulleistungsbereichen auf, bei mehr als 13% aller Kinder liegt eine spezifische Lernstörung nach ICD-10 vor (Fischbach et al., 2013). Somit ist davon auszugehen, dass sich in jeder Schulklasse Kinder mit Lernschwierigkeiten befinden. Lehrkräfte werden hierbei vor besondere Aufgaben gestellt. So müssen sie Lernziele und Unterrichtsmethoden an den jeweiligen Lernstand der lernschwachen Schülerinnen und Schüler gezielt anpassen und spezielle Fördermaßnahmen konzipieren. Grundlage hierfür ist ein umfangreiches Wissen über die Kennzeichen, Ursachen und Diagnostik von Lese-Rechtschreib- und Rechenschwierigkeiten.

Das Symposium widmet sich den Fragen, wie hoch der Wissenstand zum Thema Lernschwierigkeiten bei Lehrkräften ist, wie Lehrkräfte den Lernschwierigkeiten im Unterricht begegnen, wie sicher sie Lernschwierigkeiten erkennen und welche aktuellen diagnostischen Ansätze existieren. Der erste Beitrag „Was wissen Lehrkräfte über Lernstörungen? Eine Studie zum Kenntnisstand und zum Kompetenzempfinden niedersächsischer Lehrkräfte“ von Griepenburg, Schuchardt und Mähler untersucht in einer Fragebogenstudie, was Lehrkräfte über die verschiedenen Lernstörungen konkret wissen, wie kompetent sie sich im Umgang mit lernschwachen Kindern erleben und wie sie der Aufklärung von Schulklassen über Lernstörungen gegenüberstehen. Insgesamt schätzen die Lehrkräfte über alle Schulformen hinweg ihr Wissen und ihr Kompetenzgefühl nur gering ein. Dementsprechend werden auch Lernschwierigkeiten in der Klasse nur selten thematisiert. Die Studie macht einen hohen Bedarf an Fort- und Weiterbildungen zum Thema offensichtlich.

Die zweite Studie „Diagnostik von Lernschwierigkeiten – Zur Übereinstimmung von Lehrkrafturteil und Testdiagnostik“ von Schuchardt und Mähler beschäftigt sich mit den diagnostischen Kompetenzen von Lehrkräften zur Feststellung von Lernschwierigkeiten in der Grundschule in einem längsschnittlichen Design. Hierzu wurden die Übereinstimmungen zwischen standardisierter Testdiagnostik und die Identifikation von Lehrkräften genauer untersucht. Dabei finden sich nur mittelhohe Übereinstimmungen im Rechtschreiben und Mathematik, ungenügende dagegen im Lesen. Insgesamt wird deutlich, dass bis zu 15% der lernschwachen Kinder von den Lehrkräften übersehen werden. Die längsschnittliche Untersuchung der Kinder macht deutlich, dass die durch die Testdiagnostik erfassten Lernschwierigkeiten bis zum Ende der Grundschule stabil bestehen blieben. Die Kinder, die jedoch nur von den Lehrkräften als lernschwach eingestuft wurden, wiesen einen Leistungsabfall auf. Die Studie unterstreicht die Bedeutsamkeit des Einsatzes standardisierter Schulleistungstest zur Bestimmung von Lernschwierigkeiten im Schulunterricht.

Die dritte Studie „Erkennen von Rechenschwierigkeiten bei Grundschulkindern – Eine Untersuchung von allgemeinen und spezifischen Prädiktoren des Lehrerurteils“ von Schulz und Kuhn widmet sich ebenfalls der Diagnostik von Lernschwierigkeiten durch Lehrkräfte. Anhand eines selbst entwickelten Fragebogens zur Erfassung mathematischer Fertigkeiten (FERMAT) wurde analysiert, ob sich das Urteil über die Mathematikleistungen der Kinder eher durch allgemeinen Faktoren wie Intelligenz und Lesefertigkeit oder aber durch spezifische Faktoren, wie die basisnumerischen Fertigkeiten und Rechenfertigkeiten vorhersagen lässt. Der Fragebogen zeigt sich als ein reliables Messverfahren, dass für den Einsatz im Mathematikunterricht gut geeignet ist. Es konnte nachgewiesen werden, dass die Lehrkräfte vor allem die Rechenleistungen und die Lesefertigkeiten für ihr Urteil über Rechenschwierigkeiten heranziehen.

Der vierte und letzte Beitrag „Merkmale von Kindern mit Leseschwierigkeiten in Abhängigkeit vom verwendeten Cut-off-Kriterium: Eine Überprüfung der Kompensationshypothese“ von Schmidt, Busch und Grube beschäftigt sich mit den Diagnosekriterien einer Lesestörung in Anlehnung an die Leitlinie zur Diagnostik und Behandlung von Kindern mit Lese- und / oder Rechtschreibstörung (DGKJP, 2015). Dabei werden kognitive Funktionen in Abhängigkeit von der Ausprägung der Leseschwierigkeiten, d.h. die schwächsten 10 % bzw. die schwächsten 16 %, überprüft. Die Ergebnisse bestätigen überwiegend die Kompensationshypothese, indem die Kinder mit leichteren Leseschwächen schneller phonologische Repräsentationen aus dem Langzeitgedächtnis abrufen können und zum Teil über bessere Arbeitsgedächtnisleistungen verfügten als Kinder mit sehr schwachen Leseleistungen.

 

Beiträge des Symposiums

 

Was wissen Lehrkräfte über Lernstörungen? Eine Studie zum Kenntnisstand und zum Kompetenzempfinden niedersächsischer Lehrkräfte

Conny Griepenburg, Kirsten Schuchardt, Claudia Mähler
Universität Hildesheim

Hintergrund:

Lehrkräfte spielen eine wichtige Rolle in der frühen Erkennung von Lernstörungen. Häufig sind sie die Ersten, die eine Lernstörung bei ihren Schüler_innen erkennen, Fördermaßnahmen ansetzen und ggf. an spezialisierte Diagnostikstellen weiterverweisen. Des Weiteren sind sie in der Position, durch Aufklärung der Klassen Stigmatisierung, Ausgrenzung und psychosozialer Belastung von betroffenen Kindern entgegenzuwirken (Gabriel, Griepenburg & Schuchardt, eing.).

In Deutschland gibt es bisher keine aktuelle Untersuchung, die sich mit dem Wissensstand von Lehrkräften bezüglich Lernstörungen beschäftigt. Internationale Studien weisen darauf hin, dass Lehrkräfte über wenig Wissen zu umschriebenen Lernstörungen verfügen (Aguiar et al., 2014; Brook Watemberg & Geva, 2000; Kakabaraee, Arjmandnia & Afrooz, 2012; Khademi et al., 2016). Die Ergebnisse dieser Studien sind jedoch nicht ohne Einschränkung auf Lehrkräfte in Deutschland übertragbar, da sie Lernstörungen uneinheitlich definieren und bedeutsame Unterschiede im sozialen und bildungspolitischen Kontext zu erwarten sind. Darüber hinaus bleibt bislang unklar, ob Lehrkräfte in den Klassen überhaupt Aufklärungsarbeit leisten und inwieweit sie sich dazu befähigt fühlen.

Fragestellung:

Der Beitrag geht exploratorisch den Fragen nach, (1) wie Lehrkräfte ihr Wissen zur Lese- und Rechtschreibstörung (LRS) und Rechenstörung (RS) einschätzen, (2) wie kompetent sie sich bezüglich LRS uns RS erleben und (3) ob sie die Klassen betroffener Kinder über Lernstörungen aufklären.

Design:

Untersucht wurden 257 Lehrkräfte niedersächsischer Schulen (Grundschule: n=115; weiterführende Schule: n=142) mittels eines für die Untersuchung entwickelten Fragebogens. Dieser umfasst je eine Skala zur Einschätzung des eigenen Wissens (Diagnosekriterien, Ursachen, Behandlungsmöglichkeiten etc.) bezüglich LRS uns RS. Außerdem wird das eigene Kompetenzgefühl (gut ausgebildet, sicher im Umgang etc.) zur LRS und RS erfragt. Zusätzlich wurde erhoben, ob die Lehrkräfte die Klasse über Lernstörungen aufklären und was ggf. Hinderungsgründe dafür sind. Alle Items verfügten über ein 5-stufiges Antwortformat von 0=stimme gar nicht/gar nicht/nie zu bis 4=stimme voll zu/sehr gut/immer.

Ergebnisse:

Insgesamt schätzen die Lehrkräfte ihr Wissen zu umschriebenen Lernstörungen gering ein. Das Wissen zur Rechenstörung (M=1.65; SD=1.03) beurteilen sie dabei noch geringer als das zur Lese- und Rechtschreibstörung (M=1.80; SD=0.85). Diese Selbsteinschätzung deckt sich mit dem subjektiven Kompetenzgefühl der Lehrkräfte, welches bezüglich Rechenstörung (M=0.99; SD=1.10) im Vergleich zur Lese- und Rechtschreibstörung (M=1.62; SD=0.99) deutlich geringer ausgeprägt ist.

Drei Viertel der Lehrkräfte haben nie oder nur sehr selten eine Fortbildung zu umschriebenen Lernstörungen besucht. Gruppenvergleiche zeigen ein signifikant höheres Wissen und Kompetenzgefühl, wenn bereits Fortbildungen besucht wurden.

Bei Gruppenvergleichen zwischen Lehrkräften der Grundschulen und Lehrkräften an weiterführenden Schulen zeigen sich signifikante Gruppenunterschiede zugunsten der Grundschullehrkräfte im Wissen zur RS, sowie im Kompetenzgefühl bezüglich LRS und RS. Lediglich im Wissen zur LRS zeigen sich keine Gruppenunterschiede.

Zwar geben 58.3 % der Lehrkräfte an, dass sie es uneingeschränkt gut finden, wenn die Lehrkräfte die Klasse über Lernstörungen aufklären, jedoch nur 23.5 % tun dies auch tatsächlich. Als häufigste Gründe geben die Lehrkräfte hierfür an, betroffene Kinder nicht stigmatisieren zu wollen, im Arbeitsalltag zu wenig Zeit zu haben und dass ihnen sowohl passendes Material als auch die Kompetenz zur Aufklärung der Klasse fehlt.

Diskussion:

Die Studie zeigt, dass niedersächsische Lehrkräfte sich im Umgang mit Kindern mit umschriebenen Lernstörungen als wenig kompetent erleben. Eine geringe Aufklärung der Klassen durch die Lehrkräfte ist wenig verwunderlich, wenn sich die Lehrkräfte selbst schlecht informiert fühlen.

Die Studie zeigt somit einen hohen Bedarf der Lehrkräfte an Weiterbildungen bezüglich umschriebener Lernstörungen auf. Erst dann wären sie in der Lage, Lernstörungen gut zu erkennen, betroffene Kinder gut zu begleiten und die Klasse adäquat aufzuklären.

 

Diagnostik von Lernschwierigkeiten durch Lehrkräfte

Kirsten Schuchardt, Claudia Mähler
Universität Hildesheim

Theoretischer Hintergrund und Fragestellung

Schwierigkeiten beim Erlernen des Lesens, Rechtschreibens und Rechnens sind keine Seltenheit, knapp ein Viertel aller Grundschulkinder sind hiervon betroffen (Fischbach et al., 2013). Bleiben anfängliche Lernschwierigkeiten unerkannt und unbehandelt, ist davon auszugehen, dass sie sich mit der Zeit verfestigen und eine hohe Stabilität über die weiteren Schuljahre hinweg aufweisen (Wyschkon et al., 2018; Kohn et al., 2013; Schulz et al., 2018). Insofern hat die frühzeitige Feststellung von Lernschwierigkeiten durch die Lehrkräfte im Schulalltag eine besonders hohe Relevanz. Lehrkräfte können im Allgemeinen gut das Leistungsniveau ihrer Schülerinnen und Schüler einschätzen (Spinath, 2005). Demgegenüber finden sich jedoch Unsicherheiten beim Feststellen von spezifischen Lernschwierigkeiten (Artelt et al., 2001; Fischer et al., 2015; Schmidt & Schabmann, 2010). In der vorliegenden Studie wurde daher der Frage nachgegangen, wie hoch die Übereinstimmungen des Lehrkrafturteils bei der Feststellung Lernschwierigkeiten im Lesen, Rechtschreiben und Mathematik mit standardisierten Testverfahren ausfallen. Darüber hinaus interessierte, welchen Verlauf die Schulleistungen der Kinder nehmen, die entweder lediglich durch das Lehrerurteil, oder lediglich durch einen Schulleistungstest oder durch beide als schwach klassifiziert wurden. .

Methode

Insgesamt nahmen 432 Grundschulkinder (50.7% Mädchen) aus 25 Klassen an dieser Längsschnittstudie von der 2. bis zur 4. Klassenstufe teil. Das Lehrkrafturteil wurde am Ende der zweiten Klasse erhoben. Hierzu sollten die jeweiligen Fachlehrkräfte für Deutsch und Mathematik Kinder mit Lernschwierigkeiten identifizieren. Die Schulleistungen wurden zu drei Messzeitpunkten im Lesen mit dem Leseverständnistest für Erst- bis Sechstklässler (ELFE 1–6), in der Rechtschreibung mit der Weingartener Grundwortschatz Rechtschreib-Test-Reihe (WRT) und in Mathematik mit der Deutschen Mathematiktest-Reihe (DEMAT) untersucht.

Ergebnisse

Für die Übereinstimmung von Lehrkrafturteil und Testdiagnostik wurden die Spezifität, Sensibilität, der Positive und Negative Prädiktionswert sowie der RATZ-Index getrennt für die Lernbereiche berechnet. Dabei zeigen sich für das Rechtschreiben und z.T. in Mathematik insgesamt nur mittelhohe Übereinstimmungen. Im Lesen fielen diese gänzlich ungenügend aus. Insgesamt betrachtet kamen das Lehrkrafturteil und die Ergebnisse der standardisierten Schulleistungstests bei einer Reihe von Kindern zu ganz unterschiedlichen Einschätzungen. So wurden in den einzelnen Lernbereichen zwischen 9-15 % der Kinder mit auffälligen Testergebnissen von den Lehrkräften nicht als lernschwach identifiziert. Andererseits gab es einen Anteil von 7-9% der Kinder, die lediglich durch die Lehrkräfte als schwach eingeschätzt wurden, deren Leistungen in den Schulleistungstests jedoch mindestens durchschnittlich ausfielen.

Die weitere Leistungsentwicklung bis zum Ende der Grundschule wurde für jeden Schulleistungsbereich getrennt mit Varianzanalysen mit Messwiederholung analysiert. Hierbei zeigte sich, dass die Schulleistungen der Kinder, die lediglich durch den Schulleistungstest sowie durch die Kombination von Schulleistungstest und Lehrkrafturteil als lernschwach klassifiziert wurden, über alle Messzeitpunkte unterdurchschnittlich blieben. Die Kinder, die dagegen nur durch die Lehrkraft als lernschwach klassifiziert wurden, zeigten über die Zeit hinweg einen signifikanten Leistungsabfall.

Diskussion

Die Ergebnisse unterstreichen die Bedeutsamkeit des Einsatzes standardisierter Schulleistungstest zur Bestimmung von Lernschwierigkeiten im Schulunterricht. Da von den Lehrkräften immer mal wieder lernschwache Kinder übersehen werden, sollten diese zusätzlich eingesetzt werden, um die Güte der Feststellung von Lernschwierigkeiten zu erhöhen und das Lehrkrafturteil zu validieren. Somit könnten bisher nicht erkannte Lernschwierigkeiten offensichtlich gemacht und Fehleinschätzungen korrigiert werden. Hilfreich erscheinen in diesem Zusammenhang alle Maßnahmen der Lehreraus- und Weiterbildung, die zum Ziel haben sollten, auf der einen Seite die diagnostische Urteilsgüte zu optimieren und auf der anderen Seite den Einsatz von Testdiagnostik zur Bestimmung des Leistungsstandes zu schulen.

 

Erkennen von Rechenschwierigkeiten bei Grundschulkindern – Eine Untersuchung von allgemeinen und spezifischen Prädiktoren des Lehrerurteils

Ann-Katrin Schulz, Jörg-Tobias Kuhn
Technische Universität Dortmund

Theoretischer Hintergrund und Fragestellung

Diagnostische Kompetenz bedeutet, kognitive Lernvoraussetzungen von Schülerinnen und Schülern zutreffend einzuschätzen (Schrader & Helmke, 1987) und Problembereiche frühzeitig zu identifizieren. Bisherige Studien zeigen, dass Lehrerurteile relativ genau sind, jedoch große interindividuelle Differenzen in der Urteilsgenauigkeit existieren (Schrader & Helmke, 1987). Hier spielen verschiedene Einflussfaktoren eine Rolle (Südkamp, Kaiser & Möller, 2012). Insbesondere bei der Beurteilung mathematischer Leistungen scheinen urteilsirrelevante Schülermerkmale, wie die Lesefertigkeit und Intelligenz (Kaiser, Möller, Helm & Kunter, 2015), im Sinne eines Halo-Effekts das Urteil zu verzerren. Standardisierte Fragebögen können dazu beitragen, die Beurteilungsgenauigkeit zu erhöhen und zu reliableren Einschätzungen führen (Begeny, Eckert, Montarello & Storie, 2008). Im Rahmen der Diagnostik von Rechenschwierigkeiten wurde vor diesem Hintergrund ein Fragebogen zur Erfassung mathematischer Fertigkeiten (FERMAT) für Lehrkräfte entwickelt. Es wurde untersucht, ob Lehrkräfte eher die allgemeinen Faktoren Intelligenz und Lesefertigkeit oder die spezifische Faktoren, wie die basisnumerischen Fertigkeiten und Rechenfertigkeiten für ihre Urteil über mathematische Fertigkeiten der Schüler heranziehen und, ob es Unterschiede zwischen den Lehrkräften gibt. Weitere Einflussfaktoren auf das Lehrerurteil, wie z.B. Charakteristika von Lehrkräften (Südkamp et al., 2012), wurden in dieser Studie ausgeklammert.

Methode

Die Erfassung des Lehrerurteils erfolgte mittels des FERMAT. Die basisnumerischen Fertigkeiten der Schüler wurden mittels der Skalen Basale und Komplexe Zahlenverarbeitung des CODY-M 2-4 (Kuhn, Schwenk, Raddatz, Dobel & Holling, 2018) erhoben. Die Skala Rechenoperationen des HRT 1-4 (Haffner, Baro, Parzer & Resch, 2005) erfasste die Rechenfertigkeiten der Schüler. Der SLS 1-4 (Mayringer & Wimmer, 2003) bildete die Lesefertigkeiten, der CFT 1-R (Weiß & Osterland, 2013) die Intelligenz der Schüler ab.

Die Stichprobe setzt sich aus 377 Schülern (männlich = 179; weiblich = 197) der Jahrgangsstufen 2 bis 4 sowie 33 Lehrkräften von regulären Grundschulen in Nordrhein-Westfalen zusammen. Die Überprüfung der Fragebogenstruktur des FERMAT erfolgte mittels Faktorenanalyse für kategoriale Daten und des für Mittelwert- und Varianzunterschiede korrigierten, gewichteten Kleinste-Quadrate-Schätzers (WLSMV). Darüber hinaus wurden ROC-Analysen zur Ermittlung von Sensitivität und Spezifität anhand des Youden-Index festgelegter Cut-Off Werte mit verschiedenen Kriterien durchgeführt. Regressionsanalysen erfolgten unter Annahme einer negativen Binomialverteilung.

Ergebnisse

Der FERMAT erweist sich als ein reliabler (Cronbrach´s α = .91) Fragebogen. Die Fitindizes der durchgeführten Faktorenanalyse für den Vergleich eines einfaktoriellen mit einem zweifaktoriellen Modells mit den korrelierten Faktoren „Basisnumerische Fertigkeiten“ und „Rechenfertigkeiten“ sprechen für eine gute Passung des einfaktoriellen Modells (χ2 = 181.295, df = 104, p < .05; CFI = .987; TLI = .985; RMSEA = .044; Differenzentest: χ2 (1) = 3.459, p = .063). Darüber hinaus durchgeführte ROC-Analysen mit verschiedenen angelegten Kriterien sprechen für eine akzeptable diagnostische Güte des Fragebogens (AUC > .80).

Regressionsanalytische Verfahren ergaben, dass basisnumerische Fertigkeiten das Lehrerurteil nur in Teilen beeinflussen – der Prädiktor Basale Zahlenverarbeitung sagte das Lehrerurteil nicht signifikant vorher. Die Rechenfertigkeiten der Schüler wurden als signifikante Prädiktoren identifiziert. Die Lesefertigkeit sagte ebenfalls das Lehrerurteil signifikant vorher. Allerdingt nimmt die Intelligenz keinen Einfluss auf das Urteil. Darüber hinaus konnten Unterschiede zwischen den Lehrkräften hinsichtlich der Gewichtung der spezifischen und unspezifischen Prädiktoren für ihre Beurteilungen identifiziert werden.

 

Merkmale von Kindern mit Leseschwierigkeiten in Abhängigkeit vom verwendeten Cut-off-Kriterium: Eine Überprüfung der Kompensationshypothese

Claudia Schmidt, Jenny Busch, Dietmar Grube
Universität Oldenburg

Leseschwierigkeiten definieren sich durch Leseleistungen, die gemessen an den Leistungen einer Referenzgruppe als unterdurchschnittlich gelten. Die Größe dieser Diskrepanz variiert in Forschung und Praxis und resultiert in unterschiedlichen Grenzen (Cut-off) zur Bestimmung schwacher Leseleitungen (Büttner & Hasselhorn, 2011). Gemäß der Leitlinie zur Diagnostik und Behandlung von Kindern mit Lese- und / oder Rechtschreibstörung (Deutsche Gesellschaft für Kinder- und Jugendpsychiatrie, Psychosomatik, & Psychotherapie (DGKJP), 2015) sind 1.5 Standardabweichungen als Diskrepanz vorgesehen (T < 35). Stützen weitere Daten die Diagnose einer Lesestörung, kann eine weniger strenge Grenze realisiert werden (1 SD, T < 40). Es wird angenommen, dass Kinder mit weniger starken Leseschwierigkeiten (d.h. bei Anwendung eines milderen Cut-offs) „aufgrund von kompensatorischen Maßnahmen ([… z. B.] überdurchschnittliche Intelligenz, besonders ausgeprägte Gedächtnisfähigkeiten) in der Lage sein können, ihr individuelles Leistungsniveau im Lesen im unteren Normbereich zu halten, bis die Anforderungen oder die Prüfungsumstände sie davon abhalten, den Erwartungen zu entsprechen“ (Kompensationshypothese; Deutsche Gesellschaft für Kinder- und Jugendpsychiatrie et al., 2015; S. 6).

In dieser Studie wird geprüft, ob sich – entsprechend der Kompensationshypothese – mit Anwendung beider Cut-off zur Definition der Kinder mit Leseschwierigkeiten Unterschiede aufzeigen lassen.

Von 3031 untersuchten Kindern des RABE-Screenings (Fischbach et al., 2013), zeigten 11 % der Kinder sehr schwache Leseleistungen (T ≤ 35), 8 % schwache Leseleistungen (35 < T < 40) und 80% keinerlei Leseschwierigkeiten (T ≥ 40). Anhand dieser Stichprobe konnte überprüft werden, ob Kinder mit weniger schwerwiegenden Leseschwierigkeiten – entsprechend der Kompensationshypothese – über eine überdurchschnittliche Intelligenz verfügen. Zwar verfügen schwache Leser im Mittel nicht über eine überdurchschnittliche Intelligenz, jedoch bestehen signifikante Unterschiede zwischen schwach und sehr schwachen Lesern zugunsten der Gruppe der schwachen Leser. Hinsichtlich der möglicherweise vorliegenden ausgeprägten Gedächtnisschwierigkeiten wurde eine Teilstichprobe von 86 Kindern mit und ohne isolierte Leseschwierigkeiten berücksichtigt. Die Kinder lösten Mitte Klasse 3 Aufgaben zur Erfassung der Kapazität des Arbeitsgedächtnisses (phonologische Schleife und zentrale Exekutive) sowie Aufgaben zur Geschwindigkeit beim Abruf phonologischer Codes aus dem Langzeitgedächtnis (alphanumerisches und non-alphanumerisches RAN). Die Arbeitsgedächtnis- und RAN-Leistungen der zwei Gruppen von Kindern mit isolierten Leseschwierigkeiten (schwache Leser, n = 22; sehr schwache Leser, n = 32; T ≤ 35) wurden untereinander sowie mit einer Gruppe von Kindern mit durchschnittlicher Leseleistung (Kontrollgruppe, n = 29; 50 < T < 59) verglichen.

Varianzanalysen zeigen, dass Kinder mit weniger schwachen Leseleistungen schneller phonologische Repräsentationen aus dem Langzeitgedächtnis abriefen und zum Teil über bessere Arbeitsgedächtnisleistungen verfügten als Kinder mit sehr schwachen Leseleistungen, was im Einklang mit der Kompensationshypothese steht. Bei einigen Aufgaben erzielten die Kinder mit schwachen Leseleistungen vergleichbar gute Leistungen wie die Kinder der Kontrollgruppe.

Die Unterschiede, die sich vor dem Hintergrund der unterschiedlichen Cut-off ergaben, werden im Hinblick auf gängige Diagnose- und Forschungskriterien diskutiert.

 

Datum: Freitag, 27.03.2020
9:00 - 10:45F9‒H02: Herausforderungen bei der Messung der Wirkungen von Unterricht
H02 
 

Herausforderungen bei der Messung der Wirkungen von Unterricht

Chair(s): Carmen Köhler (DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation), Alexander Naumann (DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation)

DiskutantIn(nen): Wolfgang Wagner (Eberhard Karls Universität Tübingen)

Ein zentrales Interesse in der Unterrichtsforschung besteht darin, die Wirkungen von Unterricht auf die Leistungsentwicklung und die motivationale Entwicklung von Schülerinnen und Schülern zu überprüfen. Wirkungen des Unterrichts zu identifizieren ist unter anderem eine methodisch hoch anspruchsvolle Herausforderung, da Unterricht ein komplexes System ist, in dem mehrere Komponenten ineinandergreifen, und auf verschiedenen Ebenen bestimmte Voraussetzungen für eine valide WIrksamkeitsprüfung gegeben sein müssen. Hierzu gehören (a) eine reliable und valide Messung sowie Modellierung relevanter Unterrichtsmerkmale, (b) die angemessene Erfassung und Modellierung wesentlicher Leistungs- und Lernergebnisse der Schülerinnen und Schüler sowie (c) ein angemessenes Analysemodell zur Bestimmung des Effektes der Wirkung von Unterricht auf die Leistungs- und Lernergebnisse. Im Symposium liegen die Fokusse auf diesen verschiedenen, und doch miteinander verknüpften, methodischen Herausforderungen.

Der erste Beitrag beschäftigt sich mit der Erfassung von Prozessen im Unterricht, also der Messung relevanter Unterrichtsmerkmale. Im Spezifischen wird geprüft, ob die kognitive Aktivierung, welche eine der drei Basisdimensionen guten Unterrichts darstellt, mithilfe von Merkmalen des Unterrichtsangebots bzw. dessen Nutzung erfassbar ist. Im Beitrag wird berichtet, wie die Skala mithilfe von hierarchischen Faktorenanalysen gebildet und anschließend auf Zuverlässigkeit und Konstruktvalidität geprüft wurde.

Im zweiten Beitrag liegt der Fokus weiterhin auf der Messung der Unterrichtsmerkmale. Im Zentrum steht hier die Modellierung der Urteilsakkuratheit von Lehrpersonen. Es wird ein Bayesianisches multivariates Mehrebenenmodell vorgeschlagen und angewendet, um die Akkuratheit diagnostischer Urteile von Lehrpersonen in verschiedenen Kompetenzbereichen gleichzeitig abzubilden. Im Beitrag wird dabei untersucht, wie konsistent die Urteilsakkuratheit über die verschiedenen Kompetenzbereiche hinweg ausgeprägt ist.

Der dritte Beitrag prüft, ob nichtkognitive Lernergebnisse auf eine Art und Weise gemessen werden, dass sie überhaupt Wirkungen von Unterricht erfassen können, also sensitiv gegenüber Unterrichtseffekten sind. Im Gegensatz zu Leistungstests wird die Instruktionssensitivität der Instrumente zur Erfassung nichtkognitiver Lernergebnisse bislang wenig untersucht. Entsprechend zielt der Beitrag darauf ab, das Konzept der Instruktionssensitivität auf nichtkognitive Lernergebnisse zu erweitern und die Implikationen für die Unterrichtseffektivitätsforschung zu diskutieren.

Im letzten Beitrag steht die Schätzung des Effektes von Unterricht im Fokus. Es wird aufgezeigt, unter welchen Bedingungen zwei gängige Analysemodelle—der Change-Score und ANCOVA Ansatz—bei Schätzung des Effektes von Unterricht übereinstimmen und wann sie zu verzerrten Schätzungen führen.

Alle Beiträge werden abschließend von Wolfgang Wagner im Hinblick auf zukunftsträchtige Ansätze und notwendige Weiterentwicklungen diskutiert.

 

Beiträge des Symposiums

 

Lässt sich das Potenzial zur kognitiven Aktivierung im Unterricht über Unterrichtsmaterialien erfassen?

Benjamin Herbert
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation

In der Unterrichtsforschung werden verschiedene Datenquellen für die Auswertung der Unterrichtsqualität genutzt, wobei jede Quelle mit unterschiedlichen Vor- und Nachteilen verbunden ist (Waldis, Grob, Pauli & Reusser, 2010; Praetorius, Pauli, Reusser, Rakoczy & Klieme, 2014). Die Analyse gefilmter Unterrichtsstunden durch externe Beobachter*innen gilt durch ihre hohe Objektivität und die Möglichkeit, einen methodisch-didaktisch geschulten Blick zu gewährleisten, als Königsweg zur Erfassung von Unterrichtsmerkmalen (Helmke, 2014). Sie ist jedoch mit einem direkten Eingriff in den Unterricht sowie hohen Kosten und zeitlichem Aufwand verbunden. Eine bislang kaum genutzte Alternative besteht in der Analyse von Unterrichtsmaterialien. Diese verbindet ökonomische Vorteile mit der hohen Objektivität, die mit der Auswertung durch externe Beobachter*innen einhergeht.

Da Unterrichtsmaterialien nur die Angebotsseite von Unterricht abbilden, sind sie als Indikator für diejenigen Unterrichtsqualitätsmerkmale geeignet, die nicht ausschließlich auf Schüler*innen-Lehrer*innen-Interaktionen beruhen. Hierunter fällt beispielweise die kognitive Aktivierung, die eine der drei Basisdimensionen guten Unterrichts darstellt und darauf abzielt, ob Schüler*innen zu komplexen Denkprozessen und einer vertieften Auseinandersetzung mit dem Unterrichtsgegenstand angeregt werden (Klieme et al., 2001; Klieme & Rakoczy, 2008; Praetorius et al., 2018). Da sich die tatsächliche kognitive Aktivierung der Schüler*innen nur schwer an deren Verhalten erkennen lässt (Mayer, 2004; Renkl, 2011), wird häufig über Merkmale des Unterrichts und/oder dessen Nutzung durch die Lernenden stellvertretend das Potenzial zur kognitiven Aktivierung erfasst (Kunter & Voss, 2011; Lipowsky, 2015; Kunter & Trautwein, 2013).

Trotz ihrer Eignung wurden Unterrichtsmaterialien im Mathematikunterricht in Deutschland bislang nur in der COACTIV Studie herangezogen (Jordan et al., 2006; Baumert et al., 2010). Nach über fünfzehn Jahren ist mit der Leibniz Videostudie erstmals eine weitere Studie durchgeführt worden, die eine Auswertung von Unterrichtsmaterialien in Bezug auf das Potenzial zur kognitiven Aktivierung ermöglicht. In dieser wurden unterschiedliche Aspekte von kognitiver Aktivierung über Unterrichtsmaterialien erfasst, wobei einzelne Items in angepasster Form von COACTIV übernommen wurden. Zudem wurde ein innovatives Ratingverfahren durchgeführt: Alle Unterrichtsmaterialien einer Stunde (z.B. Ablaufpläne, visuelle Materialien, Lehrbuchseiten oder Aufgabenblätter) wurden als gemeinsames Set stellvertretend für die Unterrichtsstunde ausgewertet. Der Beitrag befasst sich daher mit der Forschungsfrage, ob sich das Potenzial einer Unterrichtsstunde zur kognitiven Aktivierung über die Unterrichtsmaterialien der Stunde erfassen lässt.

Es wird in einem analytischen Dreischritt vorgegangen. Zunächst wird eine Skala zum Potenzial der kognitiven Aktivierung entwickelt. Dazu werden neun theoriegeleitet ausgewählte Items, die verschiedene Aspekte von kognitiver Aktivierung abdecken, strukturanalytisch untersucht. Als Datengrundlage dienen 187 Unterrichtsstunden. Die Skala wird über eine hierarchische konfirmatorische Faktorenanalyse gebildet, wodurch die Ratingstruktur – alle Unterrichtsstunden wurden durch zwei unabhängige Rater*innen ausgewertet – und das ordinale Skalenniveau der Daten berücksichtigt werden. Die entwickelte Skala setzt sich aus sieben Items zusammen und weist gute Fit-Werte auf (χ²(70) = 145.32, p = .00, TLI = .969, CFI = .976, RMSEA = .076). Alle Faktorladungen liegen zwischen 0.32 und 0.86.

In einem zweiten Schritt wird über eine Abhängigkeitsstudie untersucht, wie zuverlässig die Skala von den Rater*innen erfasst werden kann. Datengrundlage ist eine Teilstichprobe aus 20 Unterrichtsstunden, deren Unterrichtsmaterialien jeweils von sechs Rater*innen ausgewertet wurden. Es zeigt sich, dass bereits bei der Auswertung durch eine/n Rater*in der G Koeffizient einen Wert von 0.7 übersteigt, der in anderen Studien der Unterrichtsforschung als Referenzwert für eine akzeptable Zuverlässigkeit verwendet wird (Praetorius et al., 2014).

Abschließend wird die Konstruktvalidität der entwickelten Skala getestet. Für etwa die Hälfte der ausgewerteten Unterrichtsstunden wurde die kognitive Aktivierung auch über Videoratings erfasst. Die Skalen der beiden Erhebungsinstrumente werden latent modelliert und miteinander korreliert (χ²(62) = 125.41, p = .00, RMSEA = .072, TLI = .920, CFI = .936). Die hierarchische Struktur der Daten wird aufgrund der geringeren Stichprobengröße nicht berücksichtigt. Es liegt eine signifikante mittlere Korrelation vor (r = .39, p = 0.00), was auf eine akzeptable Konstruktvalidität der entwickelten Skala hindeutet.

 

Zur Modellierung der Urteilsakkuratheit in multiplen Kompetenzbereichen und deren Beziehungen

Dimitra Kolovou1, Alexander Naumann2, Jan Hochweber1, Anna-Katharina Praetorius3
1Pädagogische Hochschule St.Gallen (PHSG), 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, 3Universität Zürich

Theoretischer Hintergrund

In zahlreichen Studien steht die Akkuratheit des Lehrerurteils bezüglich der Schülerleistung als Indikator diagnostischer Kompetenz im Fokus. Dabei werden jedoch oft einzelne Akkuratheitsmasse bezogen auf einen einzigen Kompetenzbereich verwendet, um Aussagen über die Akkuratheit von Lehrpersonen innerhalb eines Fachs zu treffen (siehe Gabriele et al., 2016; Lorenz & Artelt, 2009). Implizit wird damit davon ausgegangen, dass es sich bei der Urteilsakkuratheit um eine globale Fähigkeit von Lehrpersonen handelt und Resultate daher auf Urteile in verschiedenen Kompetenzbereichen verallgemeinert werden können (Herppich et al., 2017). Allerdings wurden bislang die Beziehungen zwischen der Urteilskkuratheit von Lehrpersonen über Kompetenzbereiche hinweg kaum untersucht (siehe jedoch Lorenz & Artelt, 2009).

In den sehr wenigen bisherigen Studien zu diesem Thema wurde die Urteilsakkuratheit über die lehrer- oder klassenweise berechnete Korrelation zwischen den im Test ermittelten und den von den Lehrpersonen beurteilten Schülerleistungen abgebildet (vgl. Lorenz & Artelt, 2009). Dabei wird die hierarchische Datenstruktur nur indirekt berücksichtigt. Zudem sind die so ermittelten Akkuratheitskennwerte zweifach messfehlerbehaftet, da die manifesten Schülertestwerte und die manifesten Lehrerurteile in die Analysen eingehen. Dies könnte zu einer Unterschätzung der empirischen Zusammenhänge der Urteilsakkuratheit in den jeweiligen Kompetenzbereichen führen.

Ziel des Beitrags ist es daher, zu untersuchen, inwiefern sich die Urteilsakkuratheit in multiplen Kompetenzbereichen und die Beziehungen zwischen diesen mithilfe von Mehrebenenmodellen mit latenten Variablen analysieren lassen, um einen adäquateren Umgang einerseits mit der hierarchischen Datenstruktur und anderseits mit dem Messfehler zu ermöglichen.

Methode

Die Analysen erfolgen mit Daten von 55 Deutschlehrpersonen aus der deutschsprachigen Schweiz, welche die Leistungen der von ihnen unterrichteten Schülerinnen und Schüler der Jahrgangstufe 7 beurteilten (N = 1255). Die Lehrpersonen wurden gebeten, für jeden Schüler Urteile zum individuellen Leistungsstand in den Kompetenzbereichen „Lesen“, „Hören“, und „Sprache(n) im Fokus“ abzugeben. Das Rating erfolgte auf einer zehnstufigen Skala von „leistungsschwach“ (1) bis „leistungsstark“ (10). Zu den eingeschätzten Schülern lagen auch Daten aus objektiven, lehrplankonformen Kompetenztests vor.

Für die simultane Analyse der Urteilsakkuratheit in multiplen Bereichen wurde ein einzelnes multivariates Mehrebenenmodell mit variierenden Koeffizienten („random intercepts and random slopes“) spezifiziert. Dabei stellt die Regressionskonstante (bei entsprechender Zentrierung) das erwartete Urteil für Schüler mit durchschnittlicher Leistung dar, während die Regressionssteigung darstellt, wie gut Lehrerurteile durch die Testergebnisse der Schüler vorhergesagt werden können, was als Maß für die Urteilsgenauigkeit der Lehrpersonen aufgefasst werden kann. Die Schülertestwerte (zentriert um den Gruppenmittelwert), geschätzt aus einem mehrdimensionalen Mehrebenen-IRT-Modell (ML-MIRT), wurden in jedem Kompetenzbereich als latenter Prädiktor (siehe Lüdtke et al., 2011) spezifiziert. Die latenten Korrelationen der Slopes über die Kompetenzbereiche hinweg liefern Informationen darüber, inwieweit die Urteilsakkuratheit der Lehrpersonen in den Kompetenzbereichen konsistent ist oder nicht. Alle Analysen wurden im Bayes-Framework in JAGS (Plummer, 2016) mittels Markov-Chain Monte Carlo (MCMC) durchgeführt.

Ergebnisse

Die mittleren Effekte der Schülertestwerte verweisen auf einen positiven Zusammenhang zwischen dem Schülertestwert und dem Lehrerurteil in allen Kompetenzbereichen. Sie variieren je nach Kompetenzbereich zwischen β = .71 (95% Bayesianisches Kredibilitätsintervall [BCI]: .59; .84; Sprache(n) im Fokus) und β = .91 (95% BCI: .76; .84; Hören). Die latenten Korrelationen über die Kompetenzbereiche zwischen der ermittelten Urteilsakkuratheit liegen zwischen r = .68 (95% BCI: .50; .84) und r = .78 (95% BCI: .65; .89).

Entsprechend kann – trotz eines substantiellen Zusammenhangs – nur mit gewissen Einschränkungen von der Akkuratheit in einem Kompetenzbereich auf diejenige im anderen Kompetenzbereich geschlossen werden. Dies steht im Einklang mit einigen vorherigen Studien (vgl. z.B. Lorenz & Artelt, 2009), welche manifeste Korrelationen über die Kompetenzbereiche untersuchten. Das eingesetzte Verfahren erweitert bisherige Ansätze (vgl. Karst et al., 2017; Meissel et al., 2017) und bietet einen angemesseneren Ansatz für die Modellierung der Urteilsakkuratheit in multiplen Kompetenzbereichen und deren Beziehungen auf latenter Ebene.

 

Instruktionssensitivität von Maßen nichtkognitiver Lernergebnisse

Alexander Naumann1, Burkhard Gniewosz2, Jan Hochweber3, Johannes Hartig1
1DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, 2Paris Lodron Universität Salzburg, 3Pädagogische Hochschule St.Gallen (PHSG)

Schülerleistung in curriculums- oder standardbasierten Tests dient regelmäßig als ein Kriterium für Aussagen über die Effektivität von Unterricht (z.B. Klieme, 2018; Kultusministerkonferenz, 2006; Marsh et al., 2012). Gültige Aussagen über die Unterrichtseffektivität auf Basis der Schülerleistung erfordert Leistungstests, die Wirkungen des Unterrichts erfassen können, also instruktionssensitiv (Polikoff, 2010) sind. Entsprechend wird heutzutage die Instruktionssensitivität (InSe) von Leistungstests regelmäßig untersucht (z.B. Grossman, Cohen, Ronfeldt, & Brown, 2014; Naumann, Rieser, Musow, Hochweber, & Hartig, 2019; Polikoff, 2016). Unterricht hat jedoch vielfältige Erträge, die nicht nur kognitive Fähigkeiten der Schülerinnen und Schüler, sondern auch nichtkognitive Lernergebnisse umfassen (Seidel & Shavelson, 2007). In den letzten Jahren finden diese nichtkognitiven Lernergebnisse wie Motivation oder Interesse zunehmend als Kriterien für Aussagen über die Unterrichtseffektivität Beachtung (z.B. Capella, Aber, & Kim, 2016). Jedoch wird auf Maße für solche nichtkognitiven Lernergebnisse das Konzept von InSe bisher nicht angewendet, so dass die Frage offen bleibt, inwieweit entsprechende Instrumente überhaupt dazu in der Lage sind, Wirkungen des Unterrichts zu erfassen. Ziel unseres Beitrags ist es daher, (a) das Konzept von InSe auf Maße nichtkognitiver Lernergebnisse zu erweitern und (b) exemplarisch die InSe ausgewählter Maße für motivational-affektive Konstrukte zu untersuchen und mit Leistungstestdaten zu vergleichen.

Maße für nichtkognitive Lernergebnisse werden in der Regel als Selbstberichte in Fragebögen mittels Likert-Items erhoben. Wir modellieren die InSe von Likert-Items, indem wir ein längsschnittliches Mehrebenen-IRT-Modell (LMLIRT; Naumann, Hartig, & Hochweber, 2017) zur Messung der InSe von dichotomen Items adaptieren. Im LMLIRT-Modell werden klassenspezifische Veränderungen der Itemschwierigkeit über Messzeitpunkte als Grundlage zur Beurteilung von zwei Facetten von InSe geschätzt: a) globale Sensitivität, die sich auf die mittlere Veränderung der klassenspezifischen Itemschwierigkeit zwischen den Messzeitpunkten bezieht, und b) differentielle Sensitivität, die sich auf die Streuung der Itemschwierigkeitsveränderung über Klassen bezieht. Wir übertragen diesen Ansatz auf das generalisierte Partial Credit Model (GPCM; Muraki, 1992) unter Verwendung der sogenannten erweiterten Parametrisierung (Penfield, Myers, & Wolfe, 2008). In der erweiterten Parametrisierung des GPCM werden als Schwierigkeitsparameter jedes K-stufigen Items ein Lokationsparameter sowie K-1 Schwellenparameter geschätzt. Da die einzelnen Antwortkategorien innerhalb von Likert-Items keine spezifische Information über ein mehr oder weniger hinaus tragen, modellieren wir klassenspezifische Lokationsparameter als Grundlage für die InSe von Likert-Items. Likert-Items können dann als a) insensitiv angesehen werden, wenn die mittlere Veränderung der Lokation nahe Null ist und nicht zwischen Klassen streut, b) global sensitiv, wenn sich die mittlere Lokation zwischen Messzeitpunkten verändert, c) differentiell sensitiv, wenn die Lokationsveränderung zwischen Klassen streut, und d) global und differentiell sensitiv, wenn sowohl b als auch c zutreffen.

Wir wenden diese Konzeptualisierung von InSe auf Items zur Erfassung motivational-affektiver Lernergebnisse an, die im IGEL-Projekt (Decristan et al., 2015) als Kriterien für Aussagen über die Effektivität einer quasi-experimentellen Unterrichtsintervention dienten. Der Datensatz umfasst Schülerantworten von 980 Drittklässlerinnen und Drittklässlern in 54 Klassen an hessischen Grundschulen. Exemplarisch analysieren wir Items zu intrinsischer Motivation, Selbstwirksamkeitserwartung sowie fachspezifischem Interesse. Alle Items zeigten einen guten Fit zum GPCM. Keines der Items war insensitiv. Insgesamt war die Sensitivität im Vergleich zu Leistungstestitems niedrig, jedoch mehrheitlich statistisch bedeutsam.

Neben Schülerleistung dienen Maße für nichtkognitive Lernergebnisse heutzutage häufig als Kriterien zur Beurteilung der Unterrichtseffektivität. Ähnlich wie bei Schülerleistung erfordert dieses Vorgehen empirische Evidenz dafür, inwieweit die verwendeten Instrumente sensitiv für Unterricht sind. Bisher ist dies wenig untersucht. Vor dem Hintergrund, dass ökologisch valide Studien (z.B. Yin et al., 2008) regelmäßig keine Wirkungen von Unterricht auf nichtkognitive Lernergebnisse finden, bleibt somit die Frage offen, ob der Unterricht nicht effektiv oder die Instrumente nicht sensitiv waren. Unser Beitrag schärft das Bewusstsein für dieses Thema und zeigt eine Methode, die InSe von Likert-Items zu messen. Wir hoffen, dass unsere Arbeit so dazu beiträgt, die Validität von Aussagen über Unterricht zu verbessern.

 

Detektion von Unterrichtseffekten – Entscheidung zwischen dem kovarianzanalytischen Ansatz und dem Change-Score-Ansatz in Paneldaten mit zwei Messzeitpunkten

Carmen Köhler, Johannes Hartig
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation

Theoretischer Hintergrund

In der Unterrichtsforschung liegt ein Schwerpunkt auf der Identifizierung von Lehrerverhalten, das relevante Lernergebnisse auf Seiten der Schüler positiv beeinflusst. Modelle zur Messung solcher Unterrichtseffekte sind komplex, da (a) die nicht beobachtbare Konstrukte von Interesse meist mit mehreren Indikatoren gemessen werden, (b) Forschungsfragen auf Klassenebene die Anwendung von mehrstufigen Modellen erfordern und (c) die relevanten Lernergebnisse mindestens zu zwei Zeitpunkten erfasst werden sollten um feststellen zu können, ob sich Klassen hinsichtlich verschiedener Unterrichtsformen unterschiedlich entwickeln. Zwei prominente mehrstufige Modelle, welche bei der empirischen Analyse solcher Forschungsfragen häufig zur Anwendung kommen sind (1) kovarianzanalytische Ansätze, bei denen die Effekte der Prädiktoren auf das Lernergebnis zum zweiten Messzeitpunkt bei gleichzeitiger Kontrolle des ersten Messzeitpunktes erfolgt (durch die Hinzunahme als Prädiktor), und (2) latente Change-Score-Modelle, bei denen die Differenz des Lernergebnisses zwischen den beiden Messzeitpunkten als zusätzliche latente Variable modelliert wird und die Effekte von Prädiktoren auf diese Differenzvariable geschätzt werden. Beide Ansätze wurden für Anwendungen ohne mehrstufige Datenstruktur ausführlich diskutiert (Allison, 1990; Holland & Rubin, 1982; Lord, 1963; McArdle, 2009).

Fragestellung

In diesem Beitrag wenden wir die Ansätze auf den Bereich der Unterrichtsforschung an und zeigen auf, unter welchen Umständen welches Modell besser zur Messung des Unterrichtseffekts geeignet ist, und welche Schlussfolgerungen sie jeweils erlauben.

Methode

Der Beitrag fokussiert auf mehrstufige Daten mit zwei Messzeitpunkten und einem Prädiktor und entspricht somit einer Datenstruktur, die häufig in der Bildungs- und Unterrichtsforschung zur Analyse von Unterrichtseffekten auf Klassen- oder Schulebene verwendet wird. Mit Hilfe eines theoretischen datengenerierenden Modells identifizieren wir relevante Parameter, welche die Schätzung des Unterrichtseffekts beeinflussen. Durch Variation dieser relevanten Parameter untersuchen wir ihren Einfluss auf den geschätzten Unterrichtseffekt für jeweils den kovarianzanalytischen als auch den Change-Score- Ansatz. Dementsprechend können wir zeigen, unter welchen Annahmen bezüglich der relevanten datengenerierenden Parameter der Unterrichtseffekt ohne Bias geschätzt wird.

Ergebnisse

Die Ergebnisse zeigen, dass in realistischen Szenarien der Unterrichtsforschung kein Ansatz eine unverzerrte Schätzung des Unterrichtseffekts liefert. Unter bestimmten Annahmen zeigen entweder einer oder beide Ansätze unverzerrte Effekte. Forscher sollten daher für jede Konstellation an untersuchten Variablen separat erwägen, welche Annahmen gelten und mit welchem Ansatz sie unverzerrte Unterrichtseffekte erhalten. Anhand empirischer Beispiele aus der Unterrichtsforschung veranschaulichen wir Unterschiede zwischen den geschätzten Unterrichtseffekten. Basierend auf den Annahmen über die relevanten Parameter diskutieren wir für jedes der Beispiele, welches Modell besser geeignet ist. Die Ergebnisse aus dem Beitrag und die empirischen Illustrationen sollen Bildungs- und Unterrichtsforscher bei der Entscheidung über ihr Analysemodell unterstützen

 
11:15 - 13:00F11‒H02: Schülerurteile zur Unterrichtsqualität – Die Bedeutung von Itemformulierungen und ihr Einsatz in der Forschungspraxis
H02 
 

Schülerurteile zur Unterrichtsqualität – Die Bedeutung von Itemformulierungen und ihr Einsatz in der Forschungspraxis

Chair(s): Ann-Kathrin Jaekel (Universität Tübingen, Deutschland), Richard Göllner (Universität Tübingen, Deutschland), Ulrich Trautwein (Universität Tübingen, Deutschland)

DiskutantIn(nen): Holger Gärtner (Institut für Schulqualität der Länder Berlin und Brandenburg e.V.)

Schülerurteile bieten einen zeit- und kostengünstigen Weg, um Unterrichtsqualität zu erfassen. Aus diesem Grund werden Schülerurteile vielfach verwendet, um die Unterrichtsqualität einer Lehrkraft entlang unterschiedlicher Qualitätsmerkmale (z.B. Monitoring, Unterstützung, Motivierung) zu beschreiben und mit verschiedenen Zielgrößen des Unterrichts (z.B. Leistung, Motivation und Wohlbefinden) zu verknüpfen (Kunter, Baumert & Koller, 2007; Wagner et al., 2016). Die Verwendung von Schülerurteilen kann dabei aus unterschiedlichen Perspektiven betrachtet werden: Zum einen können sie eingesetzt werden, um das Unterrichtserleben von Seiten der Lernenden zu erfassen (z.B. Wahrnehmung der Unterrichtssprache der Lehrkraft) und mögliche Veränderungen der Unterrichtsqualität abzubilden. Zum anderen spielen bei der Verwendung von Schülerurteilen auch sprachliche Komponenten eine wichtige Rolle. Items enthalten einerseits eine bestimmte Referenz („Der Lehrperson gelingt es…“ vs. „Schülerinnen und Schüler reden oft im Unterricht.“), können sich aber auch hinsichtlich des Adressaten unterscheiden („Die Lehrkraft unterstützt mich zusätzlich, wenn ich Hilfe brauche.“ vs. „Unsere Lehrkraft unterstützt uns zusätzlich, wenn wir Hilfe brauchen.“). Dies ist insofern von Bedeutung, als dass je nach Referenz bzw. Adressat eine andere theoretische Annahme zugrunde liegt. So könnte man etwa davon ausgehen, dass Schülerurteile zur Erfassung des individuellen Lernens von Schülerinnen und Schülern bei einer Lehrkraft eher geeignet sind, wenn die Referenzperson die betreffende Lehrkraft und der Adressat der individuelle Schüler ist, da auf diese Weise Einflussgrößen, die beispielsweise aus der Klassenkomposition resultieren, nicht thematisiert werden. Beide Schwerpunkte, die Abbildung des Unterrichtsgeschehens durch Schülerurteile und die Referenzperson/ der Adressat der Items sind für die Bildungsforschung und -praxis grundlegende Bestandteile, um Unterrichtsqualität adäquat zu erfassen und ggf. passende Schlussfolgerungen zu ziehen.

Eine systematische Untersuchung solcher Unterschiede vor dem Hintergrund des forschungspraktischen Einsatzes von Schülerurteilen ist nach wie vor nicht zufriedenstellend gelungen und soll daher Gegenstand des Symposiums sein. Die Beiträge nehmen zwei wesentliche Schwerpunkte zum Einsatz von Schülerurteilen in den Blick: Sie zeigen einerseits auf, wie Schülerurteile genutzt werden können, um das Unterrichtsgeschehen aus Sicht der Lernenden abzubilden. Zudem wird deutlich, ob und wie Schülerinnen und Schüler zwischen den Referenzpersonen und den Adressaten in Items differenzieren können.

G. Pham, B. Eckstein & F. Locher

Unterrichtsqualität: Was messen unterschiedliche Itemformulierungen?

Der erste Beitrag beschäftigt sich mit der Frage, welche Rolle die Referenzperson in Items (Lehrkraft oder Schülerschaft) für die Schülerurteile der Qualitätsdimensionen Unterstützung, Schulklima und Leistungsdruck spielt und ob die Schülerurteile mit verschiedenen Referenzpersonen unterschiedlich stark mit der wahrgenommenen Unterrichtsqualität zusammenhängen.

A. Jaekel, R. Göllner & U. Trautwein

Ich oder Wir: Welchen Unterschied macht die Adressatenbezug in Schülerbefragungen zur Unterrichtsqualität?

Im zweiten Beitrag geht es um die Frage, ob und wie stark Schülerinnen und Schüler zwischen ihrer individuellen Wahrnehmung der Unterrichtsqualität (Ich-Formulierung) und der Sicht bezogen auf die gesamte Klasse (Wir-Formulierung) unterscheiden. Zur Beantwortung der Fragestellungen wurden Schülerurteile mit beiden Formulierungen auf Individual- und Klassenebene und in zwei Fächern analysiert.

J. Decristan, D. Rauch, V. Kramer & V. Reitenbach

Unterrichtsqualität im Kontext des mehrsprachigkeitssensiblen Reziproken Lehrens im Grundschulunterricht.

Im dritten Beitrag werden Schülerurteile genutzt, um mögliche Veränderungen des Unterrichtsgeschehens abzubilden. Im Rahmen einer Interventionsstudie wird der Frage nachgegangen, ob sich durch die Durchführung eines Unterrichts, in dem mehrsprachige Kinder ihr gesamtes Sprachrepertoire nutzen können, das wahrgenommene Klassenklima und Classroom Managements verbessern und ob sich diese Einschätzungen bei mehrsprachigen und monolingualen Schülerinnen und Schülern unterschiedlich stark verändern.

R. Göllner, D. Meurers, Z. Weiß & A. Lindmeier

Lehrersprache: Ein sprachwissenschaftlicher Zugang zum Verständnis von Unterricht

Der vierte Beitrag nimmt linguistische Merkmale der Lehrersprache in den Blick und untersucht, welche Rolle diese für die Wahrnehmung der Unterrichtsqualität von Schülerinnen und Schülern spielt. Hierfür wurde die Sprache der Lehrkraft in einer vorgegebenen Unterrichtseinheit (Quadratische Gleichungen) und in einer frei wählbaren Unterrichtseinheit mittels computerlinguistischen Verfahren analysiert und mit Schülerurteilen zur Unterrichtsqualität in Verbindung gebracht.

 

Beiträge des Symposiums

 

Unterrichtsqualität: Was messen unterschiedliche Itemformulierungen?

Giang Pham, Boris Eckstein, Franziska Maria Locher
Pädagogische Hochschule St. Gallen, Schweiz

Theorie und Fragestellung

Spätestens seit der Veröffentlichung der Arbeit von Clausen (2002) ziehen die Unterschiede in der Bewertung von Unterrichtsqualität zwischen verschiedenen Beurteilenden (z.B. Lernende und Lehrpersonen) die Aufmerksamkeit der Unterrichtsforschung auf sich. Fauth et al. (eingereicht) präsentieren dafür einen plausiblen Erklärungsansatz. Bei der Beantwortung von Fragebogenitems zum Unterricht spielen kognitive wie affektive Prozesse eine Rolle. Für die kognitiven Prozesse sind Faktoren wie die Zugänglichkeit und Beobachtbarkeit von Indikatoren relevant. Bezüglich der affektiven Komponente kann die Formulierung der Items, mit Blick auf die gewählte Referenzperson (z.B. Lehrperson: «Der Lehrperson gelingt es…» vs. Lernende: «Schülerinnen und Schüler reden oft im Unterricht») entscheidend sein. Je nachdem, ob eine Selbst- oder Fremdbeurteilung gefordert ist, werden affektive Prozesse mehr oder weniger bei der Einschätzung miteinbezogen (Vazire, 2010).

Vier Forschungsfragen werden untersucht: (1) Inwieweit unterscheiden sich Antworten von Beurteilenden je nach gewählter Referenzperson (Verhalten der Lehrperson vs. Verhalten der Lernenden)? (2) Wie viel Varianzanteil eines Items kann durch die Referenzperson (Methodenfaktor) erklärt werden. (3) Sind die Methodenfaktoren konstruktübergreifend, d.h. Items verschiedener theoretischer Konstrukte - jedoch mit derselben Referenzperson – laden auf einen gemeinsamen (Methoden-)Faktor? (4) Variiert die Vorhersagekraft für die Schulleistung je nach Referenzperson und verfügen die Methodenfaktoren auch nach Bereinigung der Effekte von den inhaltlichen Konstrukten über Vorhersagevalidität für die Schulleistung? In diesem Beitrag beschränken wir uns auf die Perspektive der Lernenden.

Methode

Voraussetzung für die Beantwortung der Forschungsfrage ist die Erfassung von Unterrichtsqualität mittels mehrerer Items, die bezüglich der Referenzperson unterschiedlich formuliert sind. Datengrundlage bietet im vorliegenden Beitrag PISA 2000. Der PISA 2000 Datensatz enthält Informationen von 7950 Schweizer 15-Jährigen (national repräsentative Stichprobe, 49.7% weiblich). Für die Analysen sind Leistungsdaten (Leseverstehen) sowie Fragebogendaten der Schülerinnen und Schüler über drei fächerübergreifende Qualitätsmerkmale des Deutschunterrichts vorhanden (Unterstützung durch Lehrperson– 6 Items, Schulklima in Bezug auf Disziplin – 6 Items, Leistungsdruck – 4 Items). Während sich alle Items der ersten Skala ausschließlich auf Verhaltensweisen der Lehrperson beziehen, referenzieren die Items der anderen Skalen auf Verhaltensweisen der Lehrperson sowie der Jugendlichen. Einschränkend ist anzumerken, dass in PISA 2000 keine Möglichkeit besteht, die 15-Jährigen ihren Schulklassen zuzuordnen. Eine Mehrebenenanalyse mit den Unterrichtsqualitätsmerkmalen auf Ebene 2 ist daher nicht möglich.

Zur Beantwortung der ersten Fragestellung werden Korrelationen zwischen den Items eines jeden theoretischen Konstrukts sowie die Reliabilität der Summenscores (Cronbachs α und McDonalds ω_t) berechnet (Zinbarg et al., 2005). Zur Beantwortung der zweiten Fragestellung wird pro theoretisches Konstrukt eine konfirmatorische Faktorenanalyse mit dem inhaltlichen Konstrukt und den nicht mit dem inhaltlichen Konstrukt korrelierten Methodenfaktoren modelliert. Darauf basierend wird der Varianzanteil jedes Items durch den entsprechenden Methodenfaktor bestimmt. Mittels Multitrait-Multimethod-Analyse (Eid et al., 2016), unter Verwendung von Items aller Konstrukte wird die dritte Fragestellung beantwortet. Zur Beantwortung der letzten Fragestellung werden Korrelationen zwischen dem Leseverstehen und den Faktorenscores aller Konstrukte sowie den Methodenfaktoren berechnet.

Ergebnisse

Vorläufige Ergebnisse weisen darauf hin, dass die Items eines theoretischen Konstrukts mit derselben Referenzperson nicht immer stärker miteinander, als mit Items desselben Konstrukts mit einer anderen Referenzperson korrelieren. Von allen drei Unterrichtsqualitätsskalen verfügt die Skala Leistungsdruck über die geringste Reliabilität (α=.55; ω_t=.56); jedoch korrelieren die einzelnen Items sowie der Mittelwert dieser Skala nicht geringer mit dem Leseverstehen. Der Anteil aufgeklärter Varianz der Items, der auf den Methodenfaktor zurückzuführen ist, variiert zwischen 5% und 56%. Das MTMM-Modell mit drei inhaltlichen Konstrukten und zwei Methodenfaktoren weist akzeptable Modellfits auf (CFI = 0.95, TLI = 0.94, RMSEA = 0.05, SRMR = 0.05). Die Methodenfaktoren lassen sich durch Items verschiedener Konstrukte bilden. Die Faktorenscores beider Methodenfaktoren korrelieren nicht schwächer mit dem Leseverstehen als die Faktorenscores der drei theoretischen Konstrukte. Die Bedeutung der Ergebnisse für die Messung von Unterrichtsqualität werden im Beitrag vor dem theoretischen Hintergrund diskutiert.

 

Ich oder Wir: Welchen Unterschied macht die Adressatenbezug in Schülerbefragungen zur Unterrichtsqualität?

Ann-Kathrin Jaekel, Richard Göllner, Ulrich Trautwein
Universität Tübingen

Theoretischer Hintergrund

Schülerurteile werden häufig zur Erfassung von Unterrichtsqualität genutzt. Sie sind zeit- und kosteneffizient, zuverlässig und prädiktiv für die Leistung von Schülerinnen und Schülern, weshalb sie häufig in der Bildungsforschung und -praxis eingesetzt werden (Spooren, Brockx, & Mortelmans, 2013; Wagner et al., 2016). Unterrichtsqualität wird dabei meist entlang der drei Basisdomänen er-fasst (Klassenführung, konstruktive Unterstützung, kognitive Aktivierung; Fauth et al., 2014). Trotz der häufigen Nutzung von Schülerurteilen ist wenig darüber bekannt, welchen Einfluss die Item-formulierung von Befragungsinstrumenten auf die Erfassung der Unterrichtsqualität aus Schülersicht hat. In Studien sind meist unterschiedliche Formulierungen zu finden und die Items sind teils in Wir- und teils in Ich-Perspektive formuliert (z.B. PISA 2009, TIMSS 2015). Die theoretische Annahme ist, dass sich die jeweiligen Formulierungen entweder auf die individuelle Wahrnehmung des Unterrichts der einzelnen Schülerinnen und Schüler („Die Lehrkraft unterstützt mich zusätzlich, wenn ich Hilfe brauche.“) oder auf die Sicht der Schülerinnen und Schüler auf die gesamte Klasse als Kollektiv beziehen („Unsere Lehrkraft unterstützt uns zusätzlich, wenn wir Hilfe brauchen.“) und damit zwei unterschiedliche Sichtweisen auf Unterrichtsqualität adressieren. Welche Bedeutung diese unterschiedlichen Adressatenbezüge für die Erfassung der Unterrichtsqualität aus Schülersicht hat und inwieweit hierdurch unterschiedliche Aspekte des Unterrichtserlebens angesprochen wer-den, ist aufgrund fehlender Untersuchungen nach wie vor offen.

Fragestellung

In diesem Beitrag wird der Frage nachgegangen, welchen Einfluss unterschiedliche Adressatenbezüge (Ich vs. Wir) auf die Erfassung der Unterrichtsqualität aus Schülersicht ausüben. Folgende Fragestellungen werden dafür untersucht:

a) Welche Unterschiede lassen sich in der Raterübereinstimmung (ICCs) für die Ich- und Wir-Formulierung von unterschiedlichen Qualitätsmerkmalen in Deutsch und Mathematik finden?

b) Korrelieren die Schülerurteile zur Unterrichtsqualität zwischen Deutsch und Mathematik je nach Adressatenbezug unterschiedlich stark?

c) Wie stark korrelieren die Schülerurteile mit unterschiedlichen Adressatenbezug für eine Qualitätsdimension in einem Fach?

Methode

Grundlage der Untersuchung ist die Unterrichtsstudie UNITAS, im Rahmen derer Daten an 27 allgemeinbildenden weiterführenden Schulen erhoben wurden (6.479 Schülerinnen und Schüler, 401 Klassen der fünften bis zehnten Klassenstufe). Befragt wurden die Schülerinnen und Schüler anhand von 61 Items zu insgesamt 16 unterschiedlichen Qualitätsdimensionen des Unterrichts, die sich den drei Basisdomänen zuordnen lassen. Schülerurteile wurden sowohl für den Mathematik- als auch den Deutschunterricht erhoben. Mittels eines Rotationsdesigns wurden Items mit unterschied-lichen Adressatenbezügen durch die Schülerinnen und Schüler einer Klasse bearbeitet. Insgesamt konnten 13 von 16 Qualitätsdimensionen für die Analyse genutzt werden. Zur Beantwortung der Fragestellungen wurden der Intraklassenkorrelationskoeffizient (ICC) und latenten Korrelationen auf Schüler und Klasseneben sowohl innerhalb als auch zwischen Fächern berichtet.

Ergebnisse

Die Analysen zeigen folgende Ergebnisse: a) Die ICCs für die Ich- und Wir-Formulierungen zeigen sowohl für Deutsch als auch für Mathematik ein homogenes Bild (Mathematik: 0.11 ≤ ICC ≥ 0.37; Deutsch: 0.11 ≤ ICC ≥ 0.36). b) Die Korrelationen der Schülerurteile für die Ich- bzw. Wir-Formulierung zwischen Deutsch und Mathematik liegen im mittleren bis hohen Bereich und zeigen sowohl auf der Individualebene (-.44 bis .50, ps ≤ .001) als auch auf der Klassenebene (.19 bis .77, ps ≤ .001) ein ähnliches Bild. c) Die Korrelationen der Ich- und Wir-Formulierungen für eine Quali-tätsdimension innerhalb eines Faches zeigen auf Individual- und Klassenebene ausgesprochen hohe Zusammenhänge (rs‘ ≥ .92).

Die Ergebnisse deuten darauf hin, dass der Adressatenbezug der verwendeten Items eine weniger starke Rolle spielt als erwartet werden konnte und Schülerinnen und Schüler somit weniger stark als vermutet zwischen ihrer individuellen Wahrnehmung und der Sicht der gesamten Klasse differenzieren. In zukünftiger Forschung sollte daher der Frage nachgegangen werden, ob sich Unterschiede ergeben, wenn Schülerinnen und Schüler explizit dazu aufgefordert werden, zwischen beiden Perspektiven zu differenzieren.

 

Unterrichtsqualität im Kontext des mehrsprachigkeitssensiblen Reziproken Lehrens im Grundschulunterricht

Jasmin Decristan1, Dominique Rauch2, Victoria Kramer3, Valentina Reitenbach1
1Bergische Universität Wuppertal, 2Pädagogische Hochschule Ludwigsburg, 3DIPF Frankfurt

Ein anerkennender Umgang mit Mehrsprachigkeit im Unterricht stellt eine Facette eines gelungenen Umgangs mit Vielfalt dar (Grosjean, 2001). Jedoch ist der schulische Kontext nach wie vor durch einen „monolingualen Habitus“ (Gogolin, 1994) geprägt und es mangelt an empirisch erprobten didaktischen Konzepten zum Einbezug von Mehrsprachigkeit in den Unterricht. Damit geht einher, dass Mehrsprachigkeit von Lehrkräften zwar prinzipiell als Bereicherung gesehen wird, in der Praxis aber kaum Beachtung findet und Befürchtungen bestehen, dass sich durch mehrsprachige Interaktionen das Klassenklima verschlechtert, weniger Lernzeit zur Verfügung steht und Lehrkräfte an Autorität verlieren (zusammenfassend: Bredthauer & Engfer, 2018). Zudem befürchten Lehrkräfte, dass sich monolingual deutschsprachige Kinder oder solche, die zwar mehrsprachig sind, aber aus unterschiedlichen Gründen im Unterricht nur deutsch sprechen, in mehrsprachigen Lehr-Lernsettings ausgegrenzt fühlen (Bredthauer & Engfer, 2018) und mehrsprachige Interaktionen als für das Lernen störend empfinden.

Fragestellungen

1. Welche Effekte hat eine Intervention, in dem Grundschülerinnen und -schüler ihre verschiedenen Sprachen nutzen dürfen auf das Klassenklima und die Klassenführung im Vergleich zu Klassen mit regulärem Deutschunterricht?

2. Nehmen monolingual deutschsprachige Lernende während der Intervention ein negativeres Klassenklima und eine geringere Klassenführung wahr als ihre mehrsprachigen Mitschülerinnen und Mitschüler?

3. Nehmen mehrsprachige Lernende, die ihre Sprache während der Intervention nicht genutzt haben im Vergleich zu denjenigen, die andere Sprachen als Deutsch genutzt haben, ein negativeres Klassenklima und eine geringere Klassenführung wahr?

Methode

Die Daten stammen aus einer quasi-experimentellen Interventionsstudie (Treatmentgruppe: 23 Lehrkräfte, 428 Kinder) mit Warte-Kontrollgruppe (15 Lehrkräfte, 265 Kinder) in der 4. Jahrgangsstufe im Jahr 2019. Die Lehrkräfte beider Gruppen nahmen an zeitversetzten Fortbildungen (3 Nachmittage; 01/2019 und 03/2019) zu einer 12-stündigen Unterrichtsreihe zur Förderung der Deutsch-Lesekompetenz teil und unterrichteten diese anschließend in ihren Klassen (02-03/2019 sowie 04-05/2019). Dabei wurde das Reziproke Lehren (Palincsar & Brown, 1984) eingesetzt und um Angebote zur Nutzung von Mehrsprachigkeit erweitert. Den Lernenden war es erlaubt, ihr gesamtes Sprachrepertoire zu nutzen. Vor und nach der Unterrichtsreihe fanden begleitende Erhebungen statt. Das von den Schülerinnen und Schülern wahrgenommene Klassenklima (4 Items, α>.73, ICC1 >.08, ICC2>.59) sowie die Klassenführung (5 Items, α>.83, ICC1 >.15, ICC2>.75) wurden von Fauth et al. (2014) adaptiert. In den Analysen wurde stets für die Prä-Werte der Unterrichtswahrnehmung kontrolliert. Die Schülerinnen und Schüler wurden zudem gefragt, welche Sprachen sie sprechen (610 gültige Antworten, 434 (71%) nannten (min.) eine andere Sprache als Deutsch) und ob sie während der Unterrichtsreihe auch eine andere Sprache als Deutsch gesprochen haben (von den 434 mehrsprachigen Kindern lagen 399 Antworten vor, davon antworteten 255 (64%) mit ja).

Ergebnisse und Implikationen

Mehrebenen-Regressionsanalysen zeigen positive Effekte der Unterrichtsreihe im Vergleich zur Wartekontrollgruppe auf das Klassenklima (βtreat=.74, p<.01) und die Klassenführung (βtreat=.47, p<.01). Diese positiven Effekte durch die Unterrichtsreihe fanden sich zeitversetzt in beiden Interventionsgruppen (βKlassenklima=.59, p<.01; βKlassenführung=.64, p<.01). Um die statistische Power zu erhöhen wurden für die weiteren Fragestellungen beide Gruppen zusammengefasst. Die Unterrichtswahrnehmung der nur deutschsprachigen Kinder im Vergleich zu ihren Mitschülerinnen und Mitschülern war weder niedriger mit Bezug auf das Klassenklima (Individual Level: βmehrsprachig=–.04, p=.34; Class Level: βmehrsprachig=.10, p=.69) noch hinsichtlich der Klassenführung (Individual Level: βmehrsprachig=.02, p=.55; Class Level: βmehrsprachig=–.06, p=.75). Ebenso gab es keine Unterschiede zwischen mehrsprachigen Kindern, die während der Unterrichtsreihe angaben, eine andere Sprache als das Deutsche genutzt oder nicht genutzt zu haben (Klassenklima: Individual Level: βSprachnutzung=–.02, p=.67; Class Level: βSprachnutzung=–.12, p=.47; Klassenführung: Individual Level: βSprachnutzung=.04, p=.32; Class Level: βSprachnutzung=–.07, p=.58).

Die Ergebnisse deuten darauf hin, dass kooperative Lernformen gewinnbringend für den Einbezug von Mehrsprachigkeit genutzt werden können (vgl. auch Adesope et al., 2011). Gleichzeitig nehmen Lernende unabhängig von ihrer Mehrsprachigkeit oder Sprachnutzung den Unterricht positiver wahr. Die Befunde können dazu beitragen, Befürchtungen zur Nutzung von Mehrsprachigkeit im Unterricht zu begegnen.

 

Lehrersprache: Ein sprachwissenschaftlicher Zugang zum Verständnis von Unterricht

Richard Göllner1, Detmar Meurers1, Zarah-Leonie Weiss1, Anke Lindmeier2
1Universität Tübingen, 2Universität zu Kiel

Theoretischer Hintergrund

Empirische Untersuchungen zur Sprache von Lehrkräften bilden ein gut etabliertes Forschungsfeld. Vielfach werden dabei kommunikative Merkmale der Lehrersprache betrachtet und ihre Bedeutung für das Lernen von Schülerinnen und Schülern im Unterricht beleuchtet. Beispielsweise untersuchten Kobarg und Kollegen (2009) die Anzahl von offenen versus geschlossenen Fragen im Unterricht, während Lüders (2003) stärker Kommunikationssequenzen zwischen Lehrkräften und Schülerinnen und Schülern während des Unterrichtsgespräches betrachtete (siehe auch Kibler et al., 2018). Interessanterweise sind linguistische Merkmale der Lehrersprache weitaus weniger stark beleuchtet. Das ist insofern überraschend, als dass vermutlich kein Aspekt der professionellen Handlungskompetenz ohne das Medium Sprache denkbar ist (Baumert & Kunter, 2006; Hamre & Pianta, 2010). Fachwissen, fachdidaktisches Wissen oder auch fachübergreifende Kompetenzfacetten finden ihre Realisierung notwendigerweise über die Sprache einer Lehrkraft. Gleichzeitig stehen inzwischen leistungsstarke computerlinguistische Verfahren für die Analyse einer großen Bandbreite von Sprachmerkmalen zur Verfügung (z.B. Hancke, Vajjala & Meurers, 2012). Diese reichen von vergleichsweise einfachen Sprachmerkmalen (z.B. Satzlänge) bis zur Analyse komplexerer Sprachkomponenten (z.B. Kohärenz).

Fragestellung

Im Rahmen des Beitrages soll die Lehrkraftsprache sprachanalytisch untersucht und mit der Unterrichtsqualität in Zusammenhang gebracht werden. Folgende Fragestellungen sollen konkret beantwortet werden:

1. Inwieweit finden sich Unterschiede im Hinblick auf fachspezifische Begriffe sowie bildungssprachliche Komplexitätsmerkmale zwischen Lehrkräften?

2. Inwiefern sind sprachliche Merkmale von Lehrkräften über mehrere Unterrichtsstunden hinweg stabil?

3. In welchem Ausmaß sind Sprachmerkmale von Lehrkräften mit der Unterrichtsqualitätsbeurteilung von Schülerinnen und Schülern assoziiert?

Methode

Grundlage der Analyse sind Daten der TALIS-Videostudie, welche am DIPF seit 2017 in Deutschland durchführt wird. Hierin wurden Lehrkräfte während einer Unterrichtseinheit zum Thema „quadratische Gleichungen“ (zwei Unterrichtsstunden) sowie einer weiteren, frei wählbaren Unterrichtseinheit videographiert (N = 80). Für die Analyse der Lehrkraftsprache wurden computerlinguistische Verfahren angewendet, um einerseits die Verwendung mathematischer Fachbegriffe und andrerseits das Ausmaß an bildungssprachlichen Sprachmerkmerkmalen (z.B. Nominalphrasen, Konnektoren oder Passivkonstruktionen) zu ermitteln. Die zeitliche Konsistenz aller Merkmale über verschiedene Unterrichtsstunden und der Zusammenhang der Merkmale mit Schülerbeurteilungen des Unterrichts werden anhand von bivariaten Korrelationsanalysen unter Nutzung von unterschiedlichen Qualitätsindikatoren bestimmt.

Ergebnisse und Diskussion

Die Ergebnisse der computerlinguistischen Analysen zeigen, dass sich Lehrkräfte während der Durchführung einer Unterrichtsstunde zur Einführung quadratischer Gleichungen im Hinblick auf die Verwendung fachspezifischer Begriffe und einer Reihe sprachlicher Komplexitätsmerkmale substantiell unterscheiden. Erwartungsgemäß reduzieren sich für eine frei wählbare Unterrichtseinheit die Unterschiede im Hinblick auf die Verwendung fachspezifischer Begriffe zum Thema „Quadratische Gleichungen“. Demgegenüber bleiben für allgemeinere Sprachmerkmale die Unterschiede bleiben. Zudem weisen alle Merkmale zwischen den einzelnen Unterrichtsstunden eine deutliche Stabilität auf (r ≥ .80). Im Rahmen aktueller Analysen werden Zusammenhänge der Sprachmerkmale mit Schülereinschätzungen sowie Selbsteinschätzungen der Lehrkräfte zur Unterrichtsqualität ermittelt. Die vollständige Auswertung der Daten wird bis Anfang nächsten Jahres abgeschlossen sein. Insgesamt verspricht die linguistische Analyse von Lehrersprache einen vielversprechenden Ansatz zur Erfassung des professionellen Handelns von Lehrkräften im Feld und betont gleichfalls einen weitgehend vernachlässigten Aspekt der Unterrichtsqualitätsforschung.