Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Tagung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
Sitzungsübersicht
Ort: S24
Datum: Mittwoch, 25.03.2020
11:15 - 13:00M11–S24: Meta-Analyse
S24 
 

Wie wirksam sind Coaching- und Mentoringansätze im Praktikum für die Unterrichtsplanung und Instruktionsqualität von Studierenden? Eine Meta-Analyse

Sog Yee Mok, Fritz C. Staub

Universität Zürich, Schweiz

Theoretischer Hintergrund: Um das Lernen von Schülerinnen und Schülern zu fördern, benötigen Lehrkräfte Unterrichtskompetenzen (z.B. Unterrichtsplanung, Klarheit und Qualität von Instruktionen als Unterrichtsqualitätsmerkmale; Danielson, 2013; van de Grift, 2007). Lehramtsstudierende erproben ihre Unterrichtskompetenzen oft zum ersten Mal während des Praktikums. Da Unterrichten eine komplexe Handlung ist, arbeiten viele Universitäten mit Praktikumslehrkräften zusammen, um Lehramtsstudierende während des Praktikums zu unterstützen. Unterschiedliche Coaching- und Mentoringansätze haben das Erlernen und die Verbesserung von Unterrichtskompetenzen bei Lehramtsstudierenden zum Ziel. Auch technologie-basierte Ansätze im Rahmen des Praktikums werden zunehmend beliebter. Bislang existieren nur wenige experimentelle Studien, welche die Coaching- und Mentoringansätze auf ihre Effektivität für die Unterrichtskompetenzen von Lehramtsstudierenden im Praktikum untersuchten.

In Coachingansätzen, die sich an dem „cognitive apprenticeship“-Ansatz (Collins et al., 1989) orientieren, generieren praktische Lerngelegenheiten. In diesem Ansatz ist das Modellieren (d.h. die Praktikumslehrkraft demonstriert und erklärt Praktikanten die durchgeführte Lektion) von Bedeutung. Das fachspezifische Unterrichtscoaching (“Content-Focused Coaching”; Staub, West, & Bickel, 2003) verwendet weitere unterstützende Coachingelemente wie zum Beispiel gemeinsam verantwortete Unterrichtsvorbereitung durch ko-konstruktive Unterrichtsplanung oder kognitive Werkzeuge zur Lernunterstützung in Vorbesprechungen. Bei Lehrkräften zeigten sich bereits mehrfach positive Effekte des fachspezifischen Unterrichtscoachings auf Unterrichtsoutcomes (Kraft, Blazar, & Hogan, 2018). Lehramtsstudierende, die mittels fachspezifischem Unterrichtscoaching während des Praktikums unterstützt wurden, zeigten im Vergleich zu denjenigen, die mittels traditionellen Mentoringgesprächen unterstützt wurden, eine höhere Unterrichtqualität (Kreis & Staub, 2011). Wenig ist darüber bekannt, welche Unterstützungselemente in den verschiedenen Ansätzen besonders lernförderlich für die Unterrichtskompetenzen von Lehramtsstudierenden sind.

Fragestellungen: 1) Wie wirksam sind unterschiedliche Coaching- und Mentoringansätze für die Unterrichtskompetenzen von Lehramtsstudierenden im Praktikum im Vergleich zur traditionellen Unterstützung? 2) Welche Unterstützungselemente (Moderatoren) innerhalb der Ansätze sind für deren Wirksamkeit auf die Unterrichtskompetenzen bedeutsam?

Methode: Eine systematische Literaturrecherche wurde in ERIC, PsychInfo und Web of Science durchgeführt. Durch die Suche wurden 349 Studien und 7 weitere Studien durch die Sichtung von Referenzlisten aus relevanten Reviews identifiziert. Studien wurden in die weitere Analyse aufgenommen, wenn a) sie ein(e) Coaching, Mentoring, Supervision in der berufspraktischen Ausbildung oder Training/ Intervention beschrieben, b) der Coaching- und Mentoringansatz die Verbesserung der Unterrichtskompetenzen (Unterrichtsplanung, Klarheit / Qualität der Instruktionen oder beides) bei Lehramtsstudierenden im Praktikum intendierte, c) ein Prä-Post oder Post-Design mit Kontrollgruppe verwendete wurde und d) sie in peer-reviewed Zeitschriften veröffentlicht wurden. 10 % der Abstracts wurden doppelt kodiert (Cohen‘s Kappa = .89). 93 Studien wurden anhand des Volltexts untersucht. In der Stichprobe verblieben N = 14 Studien. Der gemittelte Gesamteffekt und die Moderationsanalysen wurden in R mit dem Metafor Package berechnet. Für den Gesamteffekt zur Wirksamkeit der unterschiedlichen Ansätze zur Unterstützung der Lehramtsstudierenden im Praktikum auf die Unterrichtskompetenzen, wurde ein Random-effects model berechnet. Moderationsanalysen (Mixed-effects models) wurden für verschiedene Unterstützungselemente (z.B. Vorbesprechungen, kognitive Werkzeuge, gemeinsame Verantwortung im Unterstützungsansatz, Modellieren, digitale Elemente) durchgeführt.

Ergebnisse: Die Ergebnisse zeigten einen signifikanten Gesamteffekt für alle 14 Studien (Cohen’s d = .65). Die Sensitivitätsanalysen ergaben allerdings zwei extreme Ausreisser, die den Gesamteffekt verzerrten. Die beiden Ausreisser wurden für die finale Analyse entfernt. Der finale Gesamteffekt der Coaching- und Mentoringansätze auf die Unterrichtskompetenzen war signifikant und klein (d = .41, SE = .13, z = 3.20, p = .001, CI[0.16, 0.65], k = 12). Der Heterogenitätstest war ebenfalls signifikant (Q = 35.56, df = 11 p < .001, I2= 67.22 %), so dass Moderatoranalysen durchgeführt werden konnten. Die Ergebnisse zeigten, dass Lehramtsstudierende bessere Unterrichtskompetenzen auf der Grundlage von Ansätzen zeigen, in denen Praktikumslehrpersonen modellieren (d = 1.13), als mit Ansätzen, in denen Praktikumslehrpersonen nicht modellieren (d = .30; Q= 5.55, df = 1, p = .019). Alle anderen Moderatoren waren nicht signifikant. Die Ergebnisse werden in Bezug auf die Weiterentwicklung von förderlichen Unterstützungsansätzen in Praktika diskutiert.



Moderatoren der Effektivität des «Gruppenpuzzles» für den individuellen Lernerfolg: Eine Meta-Analyse

Anne Deiglmayr1, Yvonne Oberholzer2, Lennart Schalk3

1Universität Leipzig, Deutschland; 2Université de Genève, Schweiz; 3Pädagogische Hochschule Schwyz, Schweiz

Das «Gruppenpuzzle» ist eine weit verbreitete Methode des kooperativen Lernens, deren zentraler Bestandteil die Herstellung von Ressourcen- und Wissensinterdependenz ist: Schülerinnen und Schüler werden zunächst zu Experten für ein Teilgebiet des gesamten Stoffes und unterrichten sich anschließend gegenseitig. Die so geschaffene positive wechselseitige Abhängigkeit der Lernpartner soll zu einer gleichberechtigten, aktiven Kooperation motivieren (vergl. Johnson & Johnson, 2009; Slavin, 2010). Die Methode wurde ursprünglich mit dem Ziel der Verbesserung des Klassenklimas und der interpersonellen Beziehungen zwischen Schülerinnen und Schülern in heterogenen Klassen entwickelt und erwies sich in dieser Hinsicht als sehr erfolgreich (Aronson & Patnoe, 2011). Strittig ist allerdings, wie wirksam die Methode ist, wenn in erster Linie der individuelle, inhaltliche Lernerfolg im Vordergrund steht (Slavin, Hurley, & Chamberlain, 2003). Neuere Forschungsergebnisse legen nahe, dass die gemischte Befundlage durch negative Auswirkungen von Wissensinterdependenz auf die Prozesse der kooperativen Wissenskonstruktion zurückzuführen ist (Berger & Hänze, 2016; Deiglmayr & Spada, 2011; Deiglmayr & Schalk, 2015). Darüber hinaus spielt die (u.a. altersbedingt) begrenzte Fähigkeit der Lernenden zur Weitergabe ihres Expertenwissens eine Rolle (Berger & Hänze, 2015, 2016).

Systematische Überblicksarbeiten zur Effektivität des Gruppenpuzzles und der Bedeutung von Einflussgrößen wie der Altersgruppe, der Art der Informationsverteilung und organisatorischen Rahmenbedingungen (z.B. Gruppengröße, Dauer) fehlen jedoch. Daher geht die vorliegende Meta-Analyse der Fragestellung nach, wie anhand der herrschende Befundlage die Effektivität des Gruppenpuzzles und verwandter Methoden einzuschätzen ist, und welche Faktoren die Effektivität moderieren.

Eine strukturierte Suche durch verschiedene Literaturdatenbanken ergab über potentiell 300 relevante Studien. Insgesamt 74 Arbeiten erfüllten unsere Einschlusskriterien: 1) Umsetzung einer Gruppenpuzzle-Lernbedingung, 2) Kontrollgruppendesign, 3) Erfassung des individuellen Lernerfolgs mindestens im Posttest und 4) Verfügbarkeit von Parametern, die eine meta-analytische Auswertung erlauben. Die Studien erschienen in den Jahren 1986 – 2018, umfassen sowohl Artikel aus Fachjournalen als auch unveröffentlichte Studien (Dissertationen und Masterarbeiten) und haben ihren Ursprung in 10 verschiedenen Ländern. Von den aufgenommenen Studien sind 59 Studien mit insgesamt k= 235 Effekten bisher kodiert und ausgewertet (die vollständige Analyse, inkl. Tests zur Aufdeckung von möglichem Publication Bias, wird bis zur Konferenz vorliegen).

Die vorläufigen Befunde zeigen insgesamt einen leicht positiven Effekt des «Gruppenpuzzles» auf den individuellen Wissenserwerb (Hedge’s g= .19; 95%-KI [.11; .28]; p<.0001; random effects model), allerdings bei deutlicher Heterogenität der gefundenen Effektgrößen (Q(df= 234)= 2012.71; p< .0001; I2= 88.4%; 95%-CI [87.1%; 89.5%]). Die Analyse von Untergruppen zur Untersuchung theoretisch oder forschungsmethodisch zu erwartender Moderatoren ergab u.a. einen substantiellen Einfluss der Art der Kontrollbedingung (Q(df= 4)= 32.10; p< .001): Während sich im Mittel ein positiver Effekt ergab, wenn das Gruppenpuzzle mit individuellem Lernen verglichen wurde (k= 33; g= .41; 95%-KI [.15; .67]), ergab sich im Vergleich zu anderen Formen kooperativen Lernens im Mittel ein negativer Effekt (k= 35; g= -.24; 95%-KI [-.43; -.05]). Die Altersgruppe der Lernenden war ebenfalls ein signifikanter Moderator (Q(df= 3)= 27.70; p< .001): Ein statistisch signifikanter Effekt ergab sich nur für Studien mit Universität- bzw. College-Studierenden (k= 90; g= .46; 95%-KI [.29; .62]), aber nicht für Studien mit Jugendlichen (k= 32; g= .22; 95%- KI [-.06; .50]), oder mit Schülerinnen und Schülern der Klassenstufen 1-6 (k= 109; g= -.01; 95%-KI [-.10; .08]). Bezogen auf die Art der Informationsverteilung (Q(df= 2)= 6.71; p= .04) ergaben die Analysen einen höheren Effekt der Designs mit schwächerer Wissensinterdependenz (k= 11; g= .42; 95%-KI [.00; .85]) gegenüber klassischen Designs mit starker Wissensinterdependenz (k= 214; g= .16; 95%-KI [.07; .38]). Weitere relevante Moderatoren waren u.a. das experimentelle Design, die Gruppengrösse, die Sequenzierung von Arbeitsphasen, die Anzahl von Durchführungszyklen sowie die Dauer der Durchführung.

Die Befunde bieten konkrete Anhaltspunkte für die Umsetzung des Gruppenpuzzles in der Praxis und verdeutlichen die theoretische und forschungsmethodische Bedeutsamkeit der gefundenen Moderatoren.



Inklusion von Schülerinnen und Schülern mit einem sonderpädagogischen Förderbedarf im Bereich Lernen: eine Meta-Analyse

Sonja Krämer, Jens Möller, Friederike Zimmermann

Christian-Albrechts-Universität zu Kiel, Deutschland

Im Rahmen der UN-Behindertenrechtskonvention (UN-BRK; United Nations, 2006) wurde festgelegt, dass „Menschen mit Behinderungen nicht aufgrund von Behinderung vom allgemeinen Bildungssystem ausgeschlossen werden“ sollen (Art. 24, Abs. 2a). Dadurch wurden in vielen Ländern Bestrebungen unternommen ein Schulsystem zu entwickeln, in dem Schülerinnen und Schüler (SuS) mit und ohne Behinderungen gemeinsam lernen. In Europa stieg der Anteil der SuS mit Behinderungen an Regelschulen substanziell an (European Agency Statistics on Inclusive Education [EASIE], 2017; 2018). Die steigende Zahl der SuS mit Behinderungen an Regelschulen wirft die Frage nach den Auswirkungen der gemeinsamen Beschulung auf. In bisherigen Meta-Analysen wurden überwiegend neutrale bis positive Effekte der Inklusion auf schulische Leistungen und psychosoziale Kriterien (z. B. Selbstkonzept, Ängstlichkeit, Aggressivität) für SuS mit sonderpädagogischen Förderbedarfen (SPF; Calberg & Kavale, 1989; Oh-Young & Filler, 2015; Wang & Baker, 1985) gezeigt; ebenso für schulische Leistungen von SuS ohne SPF (Szumski, Smogorzewska & Karwowski, 2017). Die bisherigen Meta-Analysen unterscheiden dabei allerdings nicht zwischen verschiedenen Formen von SPF. Es ist jedoch anzunehmen, dass die Auswirkungen von Inklusion von der Art des Förderbedarfs (z. B. kognitiv oder verhaltensbezogen) der inkludierten SuS abhängen (z. B. Cooc, 2019). Beispielsweise ist bei Inklusion von SuS mit SPF im Bereich emotionale und soziale Entwicklung insbesondere von negativeren Auswirkungen auf die SuS ohne SPF auszugehen (Ellinger & Stein, 2012). Ein SPF im Bereich Lernen als am häufigsten vergebener SPF zeichnet sich dadurch aus, dass betroffene SuS durch Einschränkungen in ihren allgemeinen kognitiven Fähigkeiten fächerübergreifende Schwierigkeiten haben erfolgreich am Unterricht teilzunehmen und definierte Kompetenzziele zu erreichen (Werning, 2018). In unserer Meta-Analyse fokussieren wir uns auf die Inklusion von SuS mit SPF im Bereich Lernen als einem der relevantesten Förderbedarfe und prüfen, ob sich SuS mit und ohne SPF in diesem Bereich in eher inklusiven Lernsettings hinsichtlich ihrer schulischen Leistungen und psychosozialer Kriterien von SuS in separierenden Settings unterscheiden.
In einer systematischen Literaturrecherche durchsuchten wir relevante Datenbanken, riefen über E-Mail-Verteiler von Fachgruppen zur Zusendung grauer Literatur auf und führten vorwärts- und rückwärtsgerichtete Suchen in relevanten Artikeln und bisherigen Reviews durch. Wir haben quantitative Studien eingeschlossen, die ab 1990 publiziert und in englischer oder deutscher Sprache verfasst worden sind. Nur Studien mit Kontrollgruppen wurden eingeschlossen, in denen standardisierte Testleistungen und/oder psychosoziale Kriterien zwischen einem eher inklusiven Schulsetting im Vergleich zu einem separierenden Setting verglichen wurden. Den Inklusionskriterien entsprachen N = 39 Studien mit N = 518 Effektstärken. Die vorhandenen Primärdaten wurden in Cohen’s d transformiert, wobei positive Werte für eine Überlegenheit der SuS in eher inklusiven Settings im Vergleich zu SuS in separierenden Settings sprechen.
Die statistischen Analysen erfolgten mit dem Statistikprogramm R mit dem Paket metafor. Es wurde ein Drei-Ebenen-Ansatz gewählt (Cheung, 2015), um für Abhängigkeiten in den Daten zu kontrollieren (verschiedene Konstrukte innerhalb einer Stichprobe sowie verschiedene Stichproben innerhalb einer Studie). Neben Analysen der Haupteffekte mittels Random-Effects-Modellen sollen weiterführend verschiedene Moderatoren berücksichtigt werden.
Erste Analysen zeigten einen Gesamteffekt von d = .12 (SE = .05, p = .02). Der Effekt für die SuS mit SPF im Bereich Lernen für Testleistungen lag bei d =.31 (SE = .06, p <.0001) und für psychosoziale Kriterien bei d = .05 (SE = .10, p = .62). Für die SuS ohne SPF zeigten sich weder Effekte für Leistungen (d = .06, SE = .24, p = .79) noch für psychosoziale Kriterien (d = .19, SE = .17, p = .26). Zusammenfassend zeigten sich demnach geringe positive Effekte von Inklusion für SuS mit SPF im Bereich Lernen im Vergleich zu separierender Beschulung, was im Einklang steht mit bisherigen globalen Meta-Analysen; es ergaben sich außerdem keine Hinweise auf negative Effekte für SuS ohne SPF. Praktische Implikationen sowie Implikationen für zukünftige Forschung werden diskutiert.



Narrowing the gender gap in non-cognitive student outcomes through interventions: a meta-analysis

Kaley Lesperance, Sarah Hofer, Doris Holzberger

Technische Universität München, Deutschland

Theoretical Background

The gender gap in education has long been a concern for researchers, politicians, and policymakers. A classic stereotype is that males perform better than females in math and science, while females perform better in reading and language. However, recent large-scale studies demonstrate that there are almost no innate differences in cognitive abilities between genders (Else-Quest, Hyde, & Linn, 2010; Hyde, 2005). Rather, the largest gap between male and female students seems to exist in non-cognitive factors. “Non-cognitive factors” refer to constructs outside of intelligence and cognitive skill, such as interest, motivation, and self-beliefs (Farrington et al., 2012). Non-cognitive factors are important predictors of student achievement, career goals, and later life outcomes (Heckman & Rubinstein, 2001).

As children develop and socialize, they acquire various stereotypes about males and females and use these to construct their own gender identity (Martin & Halverson, 1981). These stereotypes influence an individual’s expectations, values and interests in different tasks, and can shape self-beliefs and guide choices, leading to differences between boys and girls in in achievement, track choice and career orientation (Eccles, Wigfield, Harold, & Blumenfeld, 1993). A recent goal of educational researchers has been to develop and assess interventions aimed at decreasing the differences between student non-cognitive factors (Kessels, Heyder, Latsch, & Hannover, 2014). However, these studies differ in regards to the interventional strategies and non-cognitive factors they address, and it is unclear which interventions are most effective in regards to gender-specific deficits. Additionally, it is unclear what variables moderate the effects of the interventions. Some studies have shown that grade level affects the malleability of non-cognitive factors (Gutman & Schoon, 2014). Moreover, non-cognitive factors are often closely linked to school subject (e.g., science vs. reading) and vary across different domains (Bong & Clark, 1999; Goetz, Frenzel, Pekrun, & Hall, 2006). Thereby, school subject may also potentially moderate the effects of interventions that target these factors.

Research Question

A meta-analysis allows us to systematically assess the effectiveness of different interventions in regards to diverse non-cognitive factors across studies, as well as the role of moderator variables. This study addresses the following questions:

  1. How effective are interventions that address non-cognitive student factors in regards to gender specific differences in these factors?
  2. How do various moderator variables, such as grade level or school subject, influence the effects of these interventions?

Method

To answer our research questions, we conduct a meta-analysis. First, we searched for relevant studies in PsycINFO and ERIC databases. Search terms were database-specific and included keywords related to (1) population of interest (students, school, etc.), (2) gender differences, (3) interventions, and (4) non-cognitive factors of interest. Inclusion and exclusion criteria (e.g., only school-based interventions, only primary or secondary school) were created to determine eligibility. The search returned 5.651 results. These studies were screened for eligibility based on the title and abstract. This resulted in 135 eligible studies. The full text of each eligible study will be used to code relevant study variables. Effect sizes will then be aggregated. Moderator analyses will be performed to determine the influence of grade level and subject on the intervention effects.

Results

This meta-analysis provides a comprehensive review of the gender-specific effects of interventions that target non-cognitive student factors. It evaluates how effective these interventions are in closing the gender gap in non-cognitive factors, and what moderator variables affect the results. This study offers insight into which interventions are most promising in equalizing the non-cognitive factors of male and female students, and provides a starting point for further research, as well as evidence-based recommendations for practitioners. Statistical results will be available in time for the conference.

 
14:30 - 16:15M14‒S24: Inklusion in der Sekundarstufe I in Deutschland: Methodische Herausforderungen und erste Befunde der INSIDE-Studie
S24 
 

Inklusion in der Sekundarstufe I in Deutschland: Methodische Herausforderungen und erste Befunde der INSIDE-Studie

Chair(s): Cornelia Gresch (Institut zur Qualitätsentwicklung im Bildungswesen (IQB)), Monja Schmitt (LIfBi – Leibniz-Institut für Bildungsverläufe e.V.), Katrin Böhme (Universität Potsdam), Michael Grosche (Bergische Universität Wuppertal)

DiskutantIn(nen): Julia Gorges (Philipps-Universität Marburg)

In Folge der zunehmenden Bestrebungen, Inklusion umzusetzen, werden in Deutschland immer mehr Schüler*innen mit sonderpädagogischen Förderbedarfen (SPF) an allgemeinen Schulen unterrichtet. Dabei gibt es eine Vielzahl unterschiedlicher Ansätze der Gestaltung (vgl. z. B. Blanck, 2015; Gresch, Kuhl & Külker, im Erscheinen). Dies betrifft auf der einen Seite schulische Ausgangslagen, wie beispielsweise die Zusammensetzung der Schülerschaft, die Ausstattung der Schulen mit Räumen oder Sachmitteln oder auch die personellen Ressourcen. Auf der anderen Seite unterscheiden sich auch die innerschulischen Prozesse – beispielsweise die Zusammenarbeit im Kollegium (Gräsel, Fussangel & Pröbstel, 2006; Lütje-Klose & Urban, 2014) oder die Organisation (Grosche & Vock, 2018) und Gestaltung des gemeinsamen Lernens (Moser Opitz, 2014). Es ist allerdings wenig und zumeist nur auf regionaler Ebene darüber bekannt, welche Folgen die Ausgestaltung inklusiven Lernens für die Schullaufbahn der jeweiligen Schüler*innen mit und ohne SPF hat. Eine empirische Auseinandersetzung mit diesen Themen auf Bundesebene geht zudem mit einer Reihe an methodischen und inhaltlichen Herausforderungen einher: Beispielsweise bedarf es für die Stichprobenziehung einer besonderen Vorgehensweise, da über amtliche Daten nicht alle relevanten Schulen vorab identifiziert werden können (vgl. Gresch, Piezunka & Solga, 2014). Um den besonderen Ausgangslagen der Schüler*innen gerecht zu werden, bedarf es der Anpassung von Kompetenztests (vgl. z. B. auch Nusser, Weinert, Artelt & Carstensen, im Erscheinen) und teilweise bedarf es der Neuentwicklung von Instrumenten, die für die Fragestellungen relevant sind. Hier setzt das Projekt „Inklusion in der Sekundarstufe I in Deutschland – INSIDE“ an, ein vom Bundesministerium für Bildung und Forschung gefördertes interdisziplinäres Kooperationsprojekt des Leibniz‐Instituts für Bildungsverläufe (LIfBi), des Instituts zur Qualitätsentwicklung im Bildungswesen (IQB), der Bergischen Universität Wuppertal (BUW) und der Universität Potsdam (UP). Im Mittelpunkt des Projekts steht die Frage, unter welchen Rahmenbedingungen und mit welchen Organisationsformen an allgemeinen Schulen der Sekundarstufe I Schüler*innen mit SPF unterrichtet werden und bei welcher Umsetzung inklusives Lernen zu einer erfolgreichen individuellen Entwicklung der Schüler*innen mit und ohne SPF führt. Es gibt drei aufeinander aufbauende Teilstudien, in denen diese Fragen seit Frühjahr 2018 untersucht werden: eine deutschlandweite Onlinebefragung von Schulleitungen im Sekundarbereich I (Teilstudie I), eine längsschnittliche Begleitung vollständiger Klassen, der Lehrkräfte, Schulleitungen und Eltern, beginnend mit der Klassenstufe sechs (Teilstudie II) und eine vertiefende Erfassung der Unterrichtsgestaltung über Unterrichtstagebücher für eine Auswahl an Lehrkräften (Teilstudie III).

Ein besonderer Fokus des Projekts liegt auf Schüler*innen mit den Förderschwerpunkten „Lernen“ und „emotionale und soziale Entwicklung“. Das Erhebungsdesign ist dabei so konzipiert, dass im Sinne eines weiten Inklusionsverständnisses auch weitere Aspekte von Diversität, z. B. Zuwanderungshintergrund, mit einbezogen werden können.

Im Symposium werden verschiedene methodische Herausforderungen und erste Befunde aus der längsschnittlichen Erhebung vorgestellt, die sich sowohl mit der Gestaltung von Bildungsprozessen auseinandersetzen als auch mit der Partizipation von Schüler*innen an Bildung: Im ersten Beitrag von Monja Schmitt und Cornelia Gresch wird gezeigt, unter welchen Bedingungen und mit welcher Herangehensweise eine Stichprobe an Schulen der Sekundarstufe I rekrutiert wurde, an denen Schüler*innen mit SPF unterrichtet werden und welche Merkmale diese Stichprobe aufweist. Der zweite Beitrag von Maja Stegenwallner-Schütz, Karin Gehrer, Lena Nusser und Katrin Böhme setzt sich mit der Konzeption schwierigkeitsgestufter Testhefte für die Kompetenztestung in den INSIDE-Klassen auseinander, anhand derer verschiedene heterogene Gruppen in die Testung einbezogen werden können. Michael Grosche und Janine Schledjewski stellen im dritten Beitrag ein Instrument zur Prüfung des Kooperationsverhaltens zwischen allgemeinpädagogischen und sonderpädagogischen Lehrkräften vor und Amelie Labsch, Monja Schmitt und Marianne Schüpbach untersuchen im vierten Beitrag, inwiefern sich Schüler*innen ohne SPF in Klassen, in denen Schüler*innen mit SPF unterrichtet werden, anders durch die Lehrkraft unterstützt fühlen, als in Klassen ohne Schüler*innen mit SPF.

Das Symposium wird von Julia Gorges aus Perspektive der pädagogischen Psychologie diskutiert.

 

Beiträge des Symposiums

 

Die INSIDE-Längsschnittstudie: Methodische Herangehensweise und erste deskriptive Befunde

Monja Schmitt1, Cornelia Gresch2
1LIfBi – Leibniz-Institut für Bildungsverläufe e.V., 2Institut zur Qualitätsentwicklung im Bildungswesen, Deutschland (IQB)

Im Mittelpunkt der bundesweiten INSIDE-Längsschnittstudie steht die Frage, unter welchen Bedingungen Inklusion zu einer erfolgreichen individuellen Entwicklung von Schüler*innen mit sonderpädagogischem Förderbedarf (SPF) führt und welche Folgen das gemeinsame Lernen für die Mitschüler*innen ohne SPF hat. Dafür werden vollständige Klassen ab Klassenstufe sechs unter Einbezug der beteiligten Schulleitungen, der Lehr- und Fachkräfte sowie der Eltern längsschnittlich begleitet. Eine besondere Herausforderung dieser Studie besteht darin, vorab Schulen zu identifizieren, in denen Schüler*innen mit SPF unterrichtet werden, da in den Ländern keine einheitlichen Kriterien zur Identifikation von Schüler*innen mit SPF auf Schulebene vorliegen (z.B. Malecki, 2013; Piezunka et al., 2016). Erschwerend kommt hinzu, dass sonderpädagogische Förderung teilweise auch aufgrund pauschaler Ressourcenzuweisung erfolgt und so nicht alle betroffenen Schüler*innen in den amtlichen Daten registriert sind (vgl. KMK, 2016: XI). Darüber hinaus gibt es auch Länder in denen grundsätzlich die Grundlage fehlt, um Schulen zu identifizieren, an denen Schüler*innen mit SPF unterrichtet werden (vgl. Gresch, Piezunka & Solga, 2014). Entsprechend beschreibt dieser Beitrag die Vorgehensweise bei der Stichprobenziehung, die Teilnahmequoten und die daraus resultierende Datengrundlage für weitere Auswertungen.

Die Grundgesamtheit umfasst alle Schulen, in denen mindestens ein*e Schüler*in mit SPF im Bereich Lernen (LE) und/oder emotional-soziale Entwicklung (ESE) in der sechsten Jahrgangsstufe unterrichtet wird. Um sowohl Schulen zu identifizieren, für die amtlich bekannt ist, dass Schüler*innen mit SPF unterrichtet werden als auch Schulen mit sonderpädagogischen Fördermaßnahmen ohne amtliches Feststellungsverfahren, erfolgte die Auswahl der Schulen in zwei Schritten: Zunächst wurden auf Basis einer vorgelagerten Onlinebefragung von Schulleitungen (vgl. Gresch et al., in Vorbereitung) gekoppelt mit amtlichen Informationen Schulen ausgewählt, in denen mit einer hohen Wahrscheinlichkeit in der sechsten Jahrgangsstufe Schüler*innen mit LE/ESE unterrichtet werden. Allerdings bezogen sich diese Informationen je nach Verfügbarkeit auf vorgelagerte Schuljahre. Deshalb wurde in einem zweiten Schritt alle teilnahmebereiten Schulen gebeten anzugeben, ob in dem aktuellen Schuljahr Schüler*innen mit LE/ESE in der sechsten Jahrgangsstufe unterrichtet werden oder nicht.

Von den rund 4.500 angefragten Schulen erklärten sich zunächst 231 Schulen bereit, an der Studie teilzunehmen und erfüllten das oben benannte Kriterium. In diesen Schulen erteilten schließlich 3.900 Eltern das Einverständnis (etwa 22 %) zur Teilnahme ihrer Kinder. Davon weisen 451 Schüler*innen einen SPF, 320 davon in den Bereichen LE/ESE auf. Insgesamt 2.225 Eltern erklärten sich für ein telefonisches Interview bereit. Im Vergleich zu anderen Panelersterhebungen ist die Teilnahmebereitschaft damit als eher gering einzuordnen.

Um die Aussagekraft der INSIDE-Längsschnittstudie zu erhöhen, erfolgte deshalb eine zweite Rekrutierungsphase. Dazu wurden alle teilnehmenden Schulen gebeten, mit einem weiteren sechsten Jahrgang in das Projekt einzusteigen und Schulen, die während der ersten Rekrutierungsphase weder zu – noch abgesagt haben, erneut kontaktiert.

Die Daten liegen seit Anfang Oktober vor, weshalb eine detaillierte Beschreibung der Stichprobe erst im Rahmen des Vortrags erfolgen kann. Dies betrifft auch konkreten Teilnahmezahlen der zweiten Rekrutierungsphase sowie eine Bewertung, wie erfolgreich eine solche Maßnahme ist. Grundsätzlich sind die Teilnahmequoten an den zum ersten Messzeitpunkt administrierten Instrumenten durchweg als gut zu bewerten. Von den 3.900 teilnahmebereiten Schüler*innen nahmen knapp 94 Prozent an den Tests teil oder füllten einen Fragebogen aus. Zielpersonen für die Lehrerbefragung waren alle Klassen-, Deutsch- und Mathematiklehrkräfte sowie sonderpädagogische Lehr- und Fachkräfte, die teilnahmebereite Schüler*innen unterrichteten – insgesamt 1.668 Personen. Von diesen bearbeiteten 62,2 Prozent mindestens einen Fragebogenteil. In jeder Schule wurde ein Schulleitungsfragebogen ausgegeben. 160 Schulleiter nahmen an der Befragung teil. Die Teilnahmequote betrug etwa 70 Prozent und lag damit über den Quoten der Lehrkräfte. Die Befragung der Eltern ist erst Ende Oktober abgeschlossen. Hier zeichnet sich mit aktuell 60 Prozent Teilnehmenden eine erfolgreiche Durchführung ab.

Die Bedeutung der Erfahrungen im Rahmen von INSIDE für die Stichprobenziehung wird mit Blick auf weitere Large-Scale-Studien in dem Vortrag diskutiert.

 

Zuweisung schwierigkeitsgestufter Testhefte für die Kompetenztestung in leistungsheterogenen Gruppen

Maja Stegenwallner-Schütz1, Karin Gehrer2, Lena Nusser2, Katrin Böhme1
1Universität Potsdam, 2LIfBi – Leibniz-Institut für Bildungsverläufe e.V.

Seit einigen Jahren wachsen international und national die Bemühungen, Schüler*innen mit sonderpädagogischem Förderbedarf so in die Erhebungen von Schulleistungsstudien einzubeziehen, dass auch für diese Zielgruppe verlässliche Aussagen zu den erreichten Kompetenzen und somit zur aktuellen Bildungsqualität in Hinblick auf diese Schülerschaft möglich werden (Nusser, Weinert, Artelt. & Carstensen, in Druck; Gresch, Rjosk, Kocaj & Stanat, 2017). Auch im Rahmen der INSIDE-Studie werden – neben zahlreichen nicht leistungsbezogenen Maßen – zentrale schulische Basiskompetenzen erhoben. Als Kompetenzbereiche werden die in großen Schulleistungsstudien wie PISA traditionell untersuchten Bereiche des Leseverstehens und der mathematischen Kompetenzen berücksichtigt (Artelt, Stanat, Schneider & Schiefele, 2001; Klieme, Baumert, Köler & Bos, 2000). Da eine geringe Passung zwischen der Schwierigkeit der eingesetzten Testaufgaben und der auf die untersuchten Kompetenzbereiche bezogenen Personenfähigkeiten zu einer unzureichenden Differenzierung von Kompetenzständen und einer unzureichenden Messqualität führen kann (Nusser, 2018; Südkamp et al, 2015), ist eine geeignete Auswahl und Zusammenstellung von Testaufgaben unerlässlich. Hierbei bestand in INSIDE die Herausforderung, dass in einer stark limitierten Testzeit zwei zentrale Linking-Anforderungen zu erfüllen waren: Zum einen das Linking über eine sehr breite und damit sehr leistungsheterogene Schülerschaft zu jeweils einem gegebenen Messzeitpunkt (Querschnitt-Linking), zum anderen das längsschnittliche Linking über verschiedene Messzeitpunkte hinweg für die Erfassung von Kompetenzentwicklungen.

Für das Querschnitt-Linking musste in Betracht gezogen werden, dass in INSIDE-Klassen Schüler*innen mit und ohne sonderpädagogische Förderbedarfe an verschiedenen Schulformen gemeinsam unterrichtet werden, was zu einer großen Heterogenität der Kompetenzstände innerhalb der Schülerschaft führt (Heydrich, Weinert, Nusser, Artelt, & Carstensen, 2013; Kocaj et al., 2016) und die eingesetzten Testinstrumente daher ein sehr breites Kompetenzspektrum zuverlässig und mit geringem Messfehler abdecken müssen. Zum anderen mussten die eingesetzten Testaufgaben so gewählt werden, dass sie eine längsschnittliche Entwicklung der Kompetenzstände der Schüler*innen von der 6. zur 7. Jahrgangsstufe abbilden können, wobei die innerhalb eines Schuljahres erwartbaren Kompetenzzuwächse in dieser Phase der Sekundarstufe eher gering ausfallen (Stanat, Böhme, Schipolowski & Haag, 2015) und die verwendeten Testaufgaben daher in besonderem Maß änderungssensitiv sein müssen. In diesem Beitrag wird gezeigt, wie schwierigkeitsgestufte Testhefte für die Kompetenztestung in heterogenen Gruppen eingesetzt werden können und inwieweit dies zu der psychometrisch erwünschten Konsequenz einer hohen Messgenauigkeit im gesamten Fähigkeitsspektrum der Stichprobe führt. An der im Frühjahr 2019 erfolgten Kompetenzmessung in der 6. Jahrgangsstufe (Messzeitpunkt 1) nahmen 3.643 Schüler*innen (davon 426 mit SPF) an den Tests teil oder füllten einen Fragebogen aus. Für die Testung in der 6. Jahrgangsstufe wurden sechs Testheftversionen konzipiert, die nach bestimmten Kriterien auf sechs verschiedene Gruppen an Schüler*innen verteilt wurden. Für die eingesetzten Testaufgaben, die aus verschiedenen Erhebungswellen des NEPS (Gehrer, Zimmermann, Artelt & Weinert, 2013) stammten und zum Teil direkt für Schüler*innen mit sonderpädagogischen Förderbedarfen entwickelt (Nusser et al., im Druck) bzw. im Rahmen von INSIDE entsprechend angepasst wurden, lagen validierte psychometrische Kennwerte und Schwierigkeitsparameter vor (Krannich et al, 2017; Pohl et al, 2012; Südkamp, Pohl & Weinert, 2015). Als Kriterien für die Gruppenbildung wurden Informationen aus den Schüler*innendemographielisten verwendet, die vor Testbeginn vorlagen und der Prognose der erwarteten Kompetenzstände dienten. Hier wurden unter anderem Angaben zu bestehenden sonderpädagogischen Förderbedarfen, zu Teilleistungsstörungen, zieldifferentem Unterricht, sowie den letzten Halbjahresnoten bzw. Kompetenzeinschätzungen durch die Fachlehrkräfte einbezogen.

Im Vortrag werden zunächst die für die Zuweisung von schwierigkeitsgestuften Testheften getroffenen Annahmen und berücksichtigten Informationen erläutert und es wird skizziert, wie die prognostizierten Gruppengrößen pro Testheftversion validiert wurden. Ferner werden die Zuweisungen und das Linking-Design für schwierigkeitsgestufte Testhefte erläutert und erste Befunde zur Schwierigkeitspassung vorgestellt. Da die Daten erst seit Oktober 2019 vorliegen, können in diesem Abstract noch keine konkreten Ergebnisse berichtet werden. In der Diskussion wird auf die Passung, Herausforderungen und Limitationen komplexer Designs schwierigkeitsgestufter Testheftversionen für leistungsheterogene Gruppen eingegangen.

 

Kooperation in inklusiven Schulen: Prüfung der revidierten Theorie der kokonstruktiven Kooperation

Michael Grosche, Janine Schledjewski
ergische Universität Wuppertal

Theoretischer Hintergrund: Die Umsetzung von Inklusion lässt sich als eine umfassende Innovation im Schulsystem, insbesondere in der Sekundarstufe, interpretieren (Grosche, 2015). Aufgrund des Innovationsgehalts und der Komplexität von Inklusion wird postuliert, dass keine Lehrkraft und keine Profession alleinig Inklusion umsetzen kann. Vielmehr wird angenommen, dass insbesondere die interdisziplinäre Kooperation zwischen Regelschul- und sonderpädagogischen Lehrkräften eine treibende Kraft der Umsetzung von Innovationen ist (Lütje-Klose & Urban, 2014). Dabei wird vor allem für die sogenannten kokonstruktiven Kooperationen eine positive Wirkung auf die Umsetzung von Innovationen angenommen (Gräsel, Fussangel & Pröbstel, 2006). Kokonstruktive Kooperationen zeichnen sich durch einen intensiven Austausch unter Einbringung der individuellen Wissensbestände aus, wobei das gemeinsame Erarbeiten von Lösungsstrategien bei der Umsetzung von Innovationen im Fokus steht. Die revidierte Theorie der kokonstruktiven Kooperation (Grosche, Fussangel & Gräsel, in review) geht u. a. davon aus, dass kokonstruktionsspezifische Voraussetzungen wie die Verhandlung von Zielen zwischen den Kooperationspartner*innen für eine erfolgreiche kokonstruktive Kooperation förderlich sind, und dass kokonstruktive Handlungen u. a. zu einem gemeinsamen Verständnis von Inklusion sowie veränderten Rollenverständnissen führt.

Fragestellung: Im Beitrag geht es um die erstmalige Prüfung von Hypothesen, die aus der revidierten Theorie der kokonstruktiven Kooperation abgeleitet wurden: 1) Korrelieren die kokonstruktiven Voraussetzungen, Handlungen und Ergebnisse erwartungskonform positiv miteinander? 2) Korrelieren strukturelle und schulkulturelle Rahmenbedingungen (Kooperationsskala von Gerecht et al., 2007) erwartungskonform positiv mit kokonstruktiven Kooperationen? 3) Korrelieren kokonstruktive Kooperationen positiv mit der Selbstwirksamkeit der Lehrkräfte (Bosse & Spörer, 2014), mit der Verantwortung, die Lehrkräfte für ihre Schülerschaft verspürt (Lauermann & Karabenick, 2013), sowie mit den Einstellungen zu Inklusion (Lüke & Grosche, 2018)?

Methode: Die Daten stammen aus dem INSIDE-Projekt und liegen seit einigen Tagen vor (jedoch erst kurz vor Ende der Deadline der GEBF). Insgesamt wurden 1.668 Lehrkräfte (davon 519 sonderpädagogische Lehr- und Fachkräfte) aus 231 Schulen der Sekundarstufe in Klasse 6 befragt. Die drei Skalen zur kokonstruktiven Kooperation umfassen vier Items zu den Voraussetzungen, vier Items zu den Handlungen und fünf Items zu den Ergebnissen. Die geplante Auswertung wird folgende Schritte umfassen und in den nächsten Monaten abgeschlossen sein: Mittels konfirmatorischer hierarchischer Faktorenanalysen (Cluster: Schule) zu den drei Konstrukten der Theorie der kokonstruktiven Kooperation werden wir die Konstruktvalidität prüfen, wobei wir von drei getrennten Faktoren mit mittelhohen Interkorrelationen der drei Skalen (Voraussetzungen, Handlungen und Ergebnisse) ausgehen (vgl. Fragestellung 1). Zudem werden wir Korrelationen zwischen den kooperationsförderlichen Rahmenbedingungen und den kokonstruktiven Handlungen rechnen (vgl. Fragestellung 2). Ebenso werden wir Korrelationen zu Selbstwirksamkeit, pädagogischer Verantwortlichkeit und Einstellungen testen (vgl. Fragestellung 3). Falls sich unsere Annahmen bestätigen, hätten wir erstmalig die revidierte Theorie der kokonstruktiven Kooperation geprüft, die Testgüte der neuentwickelten Skalen gezeigt und einen (querschnittlichen) Zusammenhang im Sinne von Validitätsprüfungen nachgewiesen.

 

Fühlen sich Schüler*innen ohne sonderpädagogischen Förderbedarf in inklusiven Klassen von ihren Lehrkräften unterstützter als Schülerinnen in Klassen ohne Mitschüler*innen mit SPF?

Amelie Labsch1, Monja Schmitt1, Marianne Schüpbach2
1LIfBi – Leibniz-Institut für Bildungsverläufe e.V., 2Freie Universität Berlin

Die in sozialen Beziehungsgeflechten subjektiv wahrgenommene Unterstützung und der erlebte Zusammenhalt helfen dabei, anstrengende Lebensphasen zu meistern oder vermitteln beispielsweise das Gefühl, dazuzugehören (Cohen & Wills, 1985; Taylor, 2011). Erfahrungen aus unterstützenden Beziehungen prägen auch die eigenen Emotionen oder das Selbstwertgefühl (Heaven & Ciarrochi, 2008). Da Schüler*innen und Lehrkräfte in Schulklassen in einem Verhältnis zueinander stehen (Breidenstein, 2008; Hurrelmann & Bauer, 2015), werden Lehrkräfte zu wichtigen sozialen Partner*innen für Schüler*innen (Heaven, Leeson, & Ciarrochi, 2009; Parker, Lüdtke, Trautwein, & Roberts, 2012).

Ein gutes Verhältnis zu Lehrkräften wirkt sich u.a. positiv auf die soziale Entwicklung von Schüler*innen aus. So zeigen beispielsweise Schüler*innen in Klassen, in denen sie aktiv in das Unterrichtsgeschehen und die -gestaltung eingebunden oder in denen sie zu Kooperation mit ihren Mitschüler*innen durch die Lehrkraft angeregt werden, mehr prosoziales und moralisches Bewusstsein, als in überwiegend lehrkraftgesteuerten Klassen (vgl. Battistich, Solomon, Watson, & Schaps, 1997).

Allerdings empfinden nicht alle Schüler*innen das Verhältnis zu ihrer Lehrkraft gleichermaßen. So nehmen Jungen ihre Lehrkräfte als weniger vertrauensvoll wahr als Mädchen (Maschke & Stecher, 2010). Weiterhin fühlen sich Kinder aus niedrigen sozialen Schichten oder diejenigen mit einem Migrationshintergrund weniger unterstützt durch ihre Lehrkräfte (Hughes & Kwok, 2007; Ladd & Burgess, 2001). Darüber hinaus hängt auch das individuelle Verhalten der Lehrkräfte mit dem Gefühl, von der Lehrkraft akzeptiert zu werden, zusammen (Maschke & Stecher, 2010). Damit wird deutlich, dass die Beziehung zwischen Lehrkräften und Schüler*innen von der Vielfalt der Schüler*innen in Klassen und dementsprechend von der Klassenzugehörigkeit geprägt ist.

In inklusiven Klassen an Regelschulen, also solche in denen Schüler*innen mit sonderpädagogischem und ohne sonderpädagogischen Förderbedarf (SPF) gemeinsam lernen, müssen Lehrkräfte hinsichtlich ihres Beziehungsverhaltens nicht nur mit den bereits angesprochenen Heterogenitätsmerkmalen ihrer Schüler*innen umgehen, sondern sich auf die kognitive, physische und psychische Vielfalt von Schüler*innen mit und ohne SPF einstellen. Hinsichtlich der Relevanz eines positiven Lehrkräfte-Schüler*innen-Verhältnisses stellt sich die Frage, ob die erweitere Vielfalt an Schüler*innen in inklusiven Klassen zusätzliche Aufmerksamkeit bindet oder ob Lehrkräfte den Anforderungen und Bedürfnissen aller Schüler*innen gerecht werden können.

Diesbezüglich finden Gebhardt und Kolleg*innen (2015), dass Regelschullehrkräfte eher ein negatives Klassenklima in inklusiven Klassen befürchten und tendenziell von zu hohen Anforderungen im inklusiven Unterricht an Regelschullehrkräfte ausgehen. Auch insbesondere Eltern von Schüler*innen ohne SPF tendieren eher zu der negativen Annahme, dass Lehrkräfte ihre Aufmerksamkeit in inklusiven Klassen verstärkt den Schüler*innen mit SPF widmen müssen, wodurch ihre Kinder weniger Zuwendung erfahren würden (Goetze, 2008; Möller, 2013; Müller, 2008). Dies wird durch Befunde, dass Schüler*innen ohne SPF in inklusiven Klassen weniger kooperativ und distanzierter sind oder sich emotional weniger wertschätzen als diejenigen in Klassen ohne Schüler*innen mit SPF (Brown, 1982; Labsch, Schmitt, Nusser, & Schüpbach, in Vorbereitung), gestützt.

Daher wird mit Daten der INSIDE-Studie untersucht, ob Schüler*innen ohne SPF in inklusiven Klassen die Unterstützung durch Lehrkräfte anders empfinden als denjenigen in Klassen ohne Schüler*innen mit SPF. Es wird angenommen, dass die Unterstützung bei Schüler*innen ohne SPF in inklusiven Klassen (n = 1552) geringer ausfällt als in Klassen ohne Schüler*innen mit SPF (n = 1895). Des Weiteren wird betrachtet, ob bestehende Unterschiede durch individuelle Merkmale der Schüler*innen ohne SPF oder kontextuelle Merkmale wie die Klassenzusammensetzung oder die Unterrichtsgestaltung erklärbar sind. Aufgrund der genesteten Datenstruktur erfolgt die Auswertung mehrebenanalytisch.

Erste Ergebnisse der erst seit Anfang Oktober vorliegenden Daten zeigen entgegen der Erwartungen, dass sich Schüler*innen ohne SPF in inklusiven Klassen durch ihre Lehrkräfte generell unterstützter fühlen als diejenigen in Klassen ohne Schüler*innen mit SPF. Dies könnte als erster Hinweis betrachtet werden, dass inklusiver Unterricht gelingen kann - auch für die Schüler*innen ohne SPF. Welche individuellen und kontextuellen Merkmale den Unterschied schließlich erklären können, wird in weiteren Analysen betrachtet.

 
16:45 - 18:30M16–S24: Testkonstruktion
S24 
 

Cut-off Werte für Infit und Outfit in Abhängigkeit von dem Ausmaß an Misfit und der Personenverteilung

Katharina Fährmann, Carmen Köhler, Johannes Hartig

DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland

Theoretischer Hintergrund

Im Zentrum von Large-Scale-Assessments stehen zumeist Kompetenzmessungen. Zur Skalierung der Itemantworten wird die Item-Response-Theorie herangezogen, bei der eine Voraussetzung für valide Aussagen die Passung der Daten auf das Messmodell ist (Wainer & Thissen, 1987). Zur Prüfung jener Modellpassung schlagen Hambleton und Han (2005) fünf Schritte vor, von denen sich einer explizit auf die Itemfit-Testung bezieht.

In der Praxis werden weder gleiche Itemfit-Maße noch einheitliche Cut-Off Werte angewendet (siehe bspw. (ACARA, 2013; OECD, 2015), sodass das Vorgehen aufgrund einer fehlenden theoretischen und statistischen Grundlage willkürlich erscheint. Gleichzeitig liegen trotz umfangreicher Forschung zu den Eigenschaften der Itemfit-Maße keine klaren Richtlinien vor. Dies gilt auch für die Fit-Maße Infit und Outfit. Verschiedene Cut-off Werte werden empfohlen und verwendet: in der PISA-Studie 0.8 und 1.2 (OECD, 2012), in der NAP-Studie 1.15 (ACARA, 2013), in der NEPS-Studie 1.2 (für N=7.500) und 1.15 (für N=15,000) (Pohl & Carstensen, 2012), als generelle Empfehlung 0.5 und 1.5 (de Ayala, 2009; Linacre, 2002) oder für Low-stakes Tests 0.7 und 1.3 (Wrigth & Linacre, 1994). Fundierte Begründungen zur Wahl dieser Werte fehlen jedoch. Zudem ist die Anwendbarkeit universeller Werte kritisch zu sehen, da die Performanz unter anderem von der Stichprobengröße abhängt (bspw. Wu, 1997). Wenngleich Wu (1997) für den Outfit Beeinträchtigungen bei großen Differenzen zwischen der Personenfähigkeit und der Itemschwierigkeit ausmachen konnte und Stone and Zhang (2003) innerhalb ihrer Simulationsstudien die Beeinflussung der empirischen Power durch die relative Größe der Itemparameter zeigen konnten, stehen differenzierte Untersuchungen extremer Werte für Itemparameter hinsichtlich des Fehlers erster Art und der Power aus.

Fragestellungen:

Die uneinheitliche Verwendung der Fit-Maße führt in der Praxis zu Unklarheiten, welche Cut-off Werte verwendet werden sollen. Unterschiedliche Studiendesigns können unterschiedlich strenge Anforderungen an die Items erfordern, sodass das als akzeptabel angesehene Ausmaß an Misfit variieren kann. Bisher wurde dieser Aspekt hinsichtlich empfohlener Cut-off-Werte kaum berücksichtigt. Daher werden mit zwei Simulationsstudien folgende Forschungsfragen untersucht:

1) Wie übersetzt sich in Abhängigkeit von der Stichprobengröße und der Varianz in der Stichprobe eine von 1 abweichende Diskrimination in Infit/Outfit?

2) Welche Cut-off Werte können dementsprechend abgeleitet und empfohlen werden?

3) Eignen sich diese empfohlenen Cut-off Werte auch für realistische Testumgebungen?


Methode

In der ersten Simulationsstudie wird untersucht, wie sich unter idealen Bedingungen der Infit/Outfit eines durch das 2-PL-Modell generierten Items mit dem Ausmaß an Misfit, der Stichprobengröße sowie der Varianz in der Stichprobe im Vergleich zu 100 fittenden Items im Rasch-Modell verändert. Das Ausmaß an Misfit wird über die Größe des Diskriminationsparameters gesteuert. Für die variierenden Bedingungen werden über jeweils 100 Replikationen pro variierendem Diskriminationsparameter die Konfidenzintervalle der Fit-Maße für die fitting und misfitting Items berechnet. Daraus wird abgeleitet, für welche Diskriminationsparameter ein Cut-off Wert bestimmt werden kann. In der zweiten Studie wird geprüft, ob diese berechneten Cut-off Werte in realistischeren Szenarien für unterschiedliche Stichprobengrößen funktionieren. Dazu werden drei unterschiedliche Verteilungen verwendet, aus denen Diskriminationsparameter für alle Items gezogen werden. Pro Bedingung werden entsprechend des jeweiligen Diskriminationsparameters die berechneten Fit-Werte mit den Cut-off Werten verglichen und der prozentuale Anteil an Items berechnet, der außerhalb des jeweiligen Cut-offs liegt.

Ergebnisse

Die Ergebnisse zeigen, dass eine von 1 abweichende Diskrimination sich je nach Datensatzeigenschaften und Ausmaß an Misfit in unterschiedliche Infit-/Outfitwerte übersetzt. Diese sind maßgeblich von der Varianz in der Stichprobe sowie dem Ausmaß an Misfit abhängig. Für alle untersuchten Datensatzeigenschaften konnten Cut-off Werte abgeleitet werden, wobei mit steigender Stichprobengröße und/oder Varianz in der Stichprobe eine Trennung zwischen Misfit und Fit für ein niedrigeres Ausmaß an Misfit möglich ist. Diese berechneten Cut-off Werte funktionieren in realistischeren Szenarien überwiegend gut. Entsprechend können Anwendern Cut-off Werte für verschiedene Datensatzeigenschaften bereitgestellt werden, sodass lediglich für den jeweiligen Anwendungsfall das tolerierbare Ausmaß an Misfit festgelegt werden muss.



Relevanz des Testzeitraums für die Evaluation der Instruktionssensitivität von Testaufgaben

Stephanie Musow1, Alexander Naumann2, Jan Hochweber1, Johannes Hartig2

1Pädagogische Hochschule St.Gallen, Schweiz; 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation

Theoretischer Hintergrund

Die Instruktionssensitivität beschreibt, inwieweit ein Test oder eine Testaufgabe in der Lage ist, Effekte von Unterricht auf Leistungen der Schüler*innen abzubilden (Polikoff, 2010). Die Sicherstellung der Instruktionssensitivität ist insbesondere dann von Relevanz, wenn auf Basis der Testdaten der Schüler*innen Rückschlüsse über Schule oder Unterricht gezogen werden sollen (z.B. testdatenbasierte Schul- und Unterrichtsentwicklung; Altrichter, Moosbrugger & Zuber, 2016). Ist die Instruktionssensitivität nicht hinreichend gewährleistet, kann dies zu fehlerhaften Schlussfolgerungen bezogen auf Schule und Unterricht führen. Diverse Verfahren stehen zur Überprüfung dieses Validitätskriteriums zur Verfügung (Naumann, Hartig & Hochweber, 2017). In der Regel werden zwei Messzeitpunkte (Pre- und Posttest) für die Evaluation der Instruktionssensitivität herangezogen. Inwieweit die gemessene Sensitivität von Testaufgaben unter Berücksichtigung mehrerer unterschiedlicher Zeiträume variiert, darüber gibt es bislang jedoch keine Erkenntnisse. Der Beitrag hat zum Ziel, die Instruktionssensitivität von Testaufgaben unter Berücksichtigung von drei Messzeitpunkten zu evaluieren. Angenommen wird, dass je nach betrachtetem Zeitraum die Ergebnisse zur Evaluation der Instruktionssensitivität unterschiedlich ausfallen.

Methode

Die Untersuchung basiert auf einer empirischen Studie im Schweizer Kanton St.Gallen. Die Stichprobe umfasst 832 Schüler*innen in 48 Klassen der Primarschule. Mithilfe von Mathematikleistungstests wurden Daten zu 17 Arithmetik-Aufgaben zu drei Messzeitpunkten erhoben (t1 = Pretest, August/September 2016; t2 = Pretest, Februar/März 2017; t3 = Posttest, Mai/Juni 2017). Die Instruktionssensitivität der Testaufgaben wurde mithilfe eines längsschnittlichen Mehrebenen-Item-Response-Theory-Modell überprüft (Naumann et al., 2017). Dieses ermöglicht die Schätzung der mittleren Veränderung von Itemschwierigkeiten (globale Sensitivität) und der Varianz der Veränderung der klassenspezifischen Itemschwierigkeiten (differentielle Sensitivität) als Indikatoren der Instruktionssensitivität von Testaufgaben. In Anlehnung an Steyer, Eid und Schwenkmezger (1997) kann, bei der Wahl des Zeitraumes für die Bestimmung von Veränderungswerten mit drei Messzeitpunkten, der erste Messzeitpunkt als Referenzpunkt (t1 – t2, t1 – t3) oder der jeweils benachbarte Messzeitpunkt (t1 – t2, t2 – t3) herangezogen werden. In diesem Beitrag erfolgt ein Vergleich der Ergebnisse zu den Indikatoren der Instruktionssensitivität, denen zum einen Daten des Zeitraumes von t1 zu t3 und zum anderen Daten des Zeitraumes von t2 zu t3 zugrunde liegen.

Ergebnisse

Wird die globale Sensitivität der Testaufgaben für den Zeitraum von t1 zu t3 überprüft, erweisen sich alle Testaufgaben als global sensitiv (d.h. Kredibilitätsintervalle umschließen nicht die Null; Gelman & Hill, 2018). Wird die globale Sensitivität der Testaufgaben für den Zeitraum von t2 zu t3 untersucht, erweisen sich 12 der 17 Items als global sensitiv. Erste vorläufige Ergebnisse zur differentiellen Sensitivität zeigen, dass für den Zeitraum von t1 zu t3 insgesamt 5 der 17 Testaufgaben differentiell sensitiv sind (d.h. der Bayes-Faktor BF01 zur Überprüfung der Nullhypothese ist < 3, der Bayes-Faktor BF10 zur Überprüfung der Alternativhypothese ist >3; Verhagen & Fox, 2013). Wird die differentielle Sensitivität der Testaufgaben für den Zeitraum von t2 zu t3 überprüft, erweisen sich 8 der 17 Testaufgaben als differentiell sensitiv.

Diskussion

Die Ergebnisse zeigen, dass mit dem enger gewählten Zeitraum sich weniger Testaufgaben als global sensitiv erweisen als mit dem breiteren. Bei den Ergebnissen zur differenziellen Sensitivität ist es umgekehrt: Die Anzahl an differentiell sensitiven Testaufgaben fällt im breiter gewählten Zeitraum geringer aus als im engeren. Eine Erklärung ist darin zu sehen, dass die große Mehrheit an Schüler*innen die Aufgaben noch nicht zu t1, aber zu t3 korrekt lösen können. Wird ein engerer Zeitraum gewählt, sind einige Klassen im Unterricht weiter als andere. Letzteres geht mit einer höheren Varianz in den Daten einher. Die Testaufgaben erweisen sich folglich als differenziell sensitiv. Zusammenfassend bleibt festzuhalten, dass die Anzahl an geeigneten Testaufgaben, um Effekte von Unterricht auf die Leistungen der Schüler*innen abzubilden, vom jeweils gewählten Testzeitraum abhängt. Die Ergebnisse verdeutlichen damit die hohe Relevanz eines sinnvoll gewählten Zeitraums für die Bestimmung von Veränderungswerten zur Überprüfung dieses Validitätskriteriums.



Zum Konstrukt der «Wirtschaftsbürgerlichen Kompetenz»: Aspekte der Testentwicklung und der evidenzbasierten Validierung

Nicole Ackermann

Pädagogische Hochschule Zürich, Schweiz

Das Bildungsideal des «mündigen Wirtschaftsbürgers» (vgl. Albers, 1988, 1995; Dubs, 1985, 2011, 2013; Eberle, 2015; Ulrich, 1993, 2001) ist in der Schweiz für gymnasiale und berufliche Schulen auf der Sekundarstufe II curricular verankert (vgl. EDK, 1994; SBFI, 2006, 2012; SKKAB, 2011). Allerdings sind die damit verknüpften Kompetenzen und Lerninhalte/Lernziele so heterogen wie das Schweizer Bildungssystem föderalistisch ist. Es fehlt bislang an einem wissenschaftlich fundierten Kompetenzmodell, einem Kerncurriculum und kompetenzorientierten Bildungsstandards für die verschiedenen Bildungsgänge – und nicht zuletzt an einem Instrument, um die Bildungsergebnisse zu evaluieren. In diesem Beitrag wird, ausgehend vom neu entworfenen Rahmenmodell der wirtschaftsbürgerlichen Kompetenz (WBK-Modell) (Ackermann, in print), die modellbasierte Testentwicklung/-revision und die evidenzbasierte Validierung der Testergebnisse vorgestellt.

Wirtschaftsbürgerliche Kompetenz (WBK) bezieht sich auf ökonomisch geprägte Anforderungssituationen in verschiedenen Lebensbereichen, für deren Bewältigung kognitive Prozesse erforderlich sind (Ackermann, in print). Im gesamtgesellschaftlichen/gesamtwirtschaftlichen Lebensbereich – die sozioökonomische Facette der WBK (WBK-soek) – ergeben sich komplexe sozioökonomische Problemsituationen mit kontroversen Lösungsansätzen aus verschiedenen realen Politikfeldern (z.B. Energie & Umwelt, Finanzen & Steuern, Soziale Sicherheit & Vorsorge).

Der revidierte Test zur wirtschaftsbürgerlichen Kompetenz (WBK-T2) ist ein psychologischer Leistungstest, der die Facette WBK-soek operationalisiert (Ackermann, 2018a, 2018b, in print; Eberle, Schumann, Kaufmann, Jüttler, & Ackermann, 2016). Er ist für Schüler*innen am Ende der Sekundarstufe II konzipiert. Die Testwerte sollen kriteriumsorientiert als WBK-soek interpretiert werden und diagnostischen Zwecken dienen. Der WBK-T2 beinhaltet vier sozioökonomische Problemsituationen (z.B. Altersvorsorge, Energieversorgung) und insgesamt 32 Items (Ackermann, in print). Jede Problemsituation beginnt mit einem Einleitungstext, der die Problemsituation strukturiert und kontextualisiert, gefolgt von Items, die systematisch im Kognitionsprozess und im Antwortformat variieren.

Die qualitative Validierung des Testinhalts (AERA, APA, & NCME, 2014) erfolgte durch eine umfangreiche theoretische und empirische Domänenanalyse sowie erfolgte durch Leitfaden-Interviews mit Experten (Ackermann, in print).

Für die quantitative Validierung der Testergebnisse wurde der WBK-T2 bei einer Stichprobe von 375 Gymnasialschüler*innen (42 % WuR, 58 % Nicht-WuR) in einem Deutschschweizer Kanton eingesetzt (Ackermann, in print). Für die Validierung der internen Struktur (AERA et al., 2014) wurden probabilistische Analysen mit dem Partial Credit Rasch-Modell gerechnet (vgl. Adams, Wu, & Wilson, 2015; Rost, 2004). Die Prüfung der faktoriellen Struktur des Messmodells spricht für Eindimensionalität. Die Skalierbarkeit der Personen- und Itemparameter ist gegeben (Mθ = 0.525, VARθ = 0.394; Mσ = 0, VARσ = 1.460). Die Prüfung des Testmodells bestätigt tolerierbare Item-Infits für alle Items (0.92 ≤ wMNSQ ≤ 1.17), ansteigende Schwellenparameter für fast alle polytomen Items sowie mehrheitlich akzeptables Differential Item Functioning bezüglich des curricularen Vorwissens (WuR/Nicht-WuR) und des biologischen Geschlechts. Die Reliabilität der Personenparameter und der Personen-Testwerte ist als gut zu beurteilen (WLE = .74, EAP/PV = .76, α = .74). Die Qualität der Items ist aufgrund klassischer Item-Schwierigkeiten und Item-Trennschärfen bei fast allen Items ebenfalls gut.

Für die Validierung der Beziehung zu externen Merkmalen wurden Mittelwert- und Korrelationsanalysen gerechnet (Ackermann, in print). Schüler*innen im Schwerpunktfach WuR verfügen über eine höhere WBK als jene mit einem anderen Schwerpunktfach (p < .001, |d| = 0.80). Jungen haben eine höhere WBK als Mädchen, allerdings zeigt sich dieser Effekt nur in der Teilstichprobe Nicht-WuR (p < .001, |d| = 0.65). Die WBK korreliert schwach positiv mit den Schulfachnoten WuR und Deutsch (r = .21 bzw. r = .14, p < .001) sowie schwach positiv mit dem Interesse für sozioökonomische Problemstellungen (r = .27, p < .001).

Die untersuchten Validierungsaspekte deuten darauf hin, dass die Testergebnisse der Gymnasialschüler*innen valide hinsichtlich des Konstrukts WBK-soek interpretiert werden können. Somit kann der WBK-T2 vielfältig eingesetzt werden, z.B. zur Kompetenzerfassung in anderen Bildungsgängen/Schulformen auf der Sekundarstufe II, zur Wirkungsuntersuchung verschiedener Lehr-Lernarrangements auf die Kompetenzentwicklung.



Kann der ausgeglichene Einsatz gebundener und freier Itemformate Geschlechterunterschiede in den Testergebnissen reduzieren? Eine Analyse des Format-Geschlechter-Verhältnisses im Test der wirtschaftsbürgerlichen Kompetenz

Nicole Ackermann1, Christin Siegfried2

1Pädagogische Hochschule Zürich, Schweiz; 2Goethe-Universität Frankfurt am Main, Deutschland

Studien in der Domäne Economic Literacy verweisen immer wieder auf geschlechtsspezifische Unterschiede in der Testleistung, d.h. männliche Testpersonen schneiden besser ab als weibliche (z.B. Brückner, Förster, Zlatkin-Troitschanskaia, & Walstad, 2015; Förster & Zlatkin-Troitschanskaia, 2010; Schumann & Eberle, 2014; Soper & Walstad, 1987). Erklärt werden diese Befunde sehr unterschiedlich: männliche Probanden haben ein höheres Interesse an ökonomischen Themen und höhere mathematische Fähigkeiten (z.B. Beck & Wuttke, 2004; Becker, Greene, & Rosen, 1990); sie haben höhere eine Präferenz für gebundene Itemformate (Selected-Response, SR) wie z.B. Multiple-Choice (Walstad & Robson, 1997). Gleichzeitig zeigen Studien im Bereichen Naturwissenschaften (STEM, z.B. Mathematik) und Sprachen (z.B. Englisch als Muttersprache), dass weibliche Testpersonen bei freien Itemformaten (constructed response items, CR) besser abschneiden als bei gebundenen (Beller & Gafni, 2000; Bolger & Kellaghan, 1990; Reardon, Kalogrides, Fahle, Podolsky, & Zárate, 2018). Um die geschlechterbedingten Affinitäten bezüglich unterschiedlicher Itemformate gleichermaßen zu bedienen, schlagen Forschende die systematische Variation von SR- und CR-Items vor (z.B. Reardon et al., 2018). Jedoch lassen die bestehenden Test für Economic Literacy eine solche Variation vermissen, denn sie enthalten vornehmlich SR-Items (vgl. Beck, 1993; Schumann & Eberle, 2014).

Ziel der vorliegenden Studie ist es, die Geschlechterunterschiede bezüglich des Itemformats in der Domäne Wirtschaft zu untersuchen. Hierfür wird der Test der wirtschaftsbürgerlichen Kompetenz (WBK) mit einer systematischen Variation von SR und CR Items herangezogen. Damit kann folgenden Forschungsfragen nachgegangen werden: (FF1) Inwieweit zeigen männliche Testpersonen eine höhere Testleistung in der wirtschaftsbürgerlichen Kompetenz als weibliche? (FF2) Inwieweit sind potentielle Geschlechterunterschiede in der Testleistung systematisch mit dem Itemformat der einzelnen Testitems verknüpft? (FF3) Inwieweit wird der Zusammenhang zwischen Itemformat und Geschlecht in der Testleistung durch das Interesse an sozioökonomischen Fragestellungen und dem ökonomischen Vorwissen moderiert?

Für die Beantwortung dieser Forschungsfragen wird eine Stichprobe von 375 Schweizer Gymnasiasten (62 % weiblich, 38 % männlich) (Ackermann, im Druck) und der revidierte Test zur wirtschaftsbürgerlichen Kompetenz (WBK-T2) (Ackermann, 2018a, 2018b; Eberle, Schumann, Kaufmann, Jüttler, & Ackermann, 2016) herangezogen. Der WBK-T2 enthält insgesamt 32 Items, von denen 53 % ein SR-Format und 47 % ein CR-Format haben. Für die Untersuchung der Itemformat-Geschlechter-Relation wurden T-Tests und Regressionsanalysen gerechnet.

Die Ergebnisse zeigen, dass männliche Testpersonen den weiblichen im WBK-T2 mit kleinen Effektgrößen überlegen sind, und zwar unabhängig vom Itemformat. Für Probanden mit ökonomischem Vorwissen Vorkenntnissen in der Wirtschaftswissenschaft deuten die Ergebnisse allerdings darauf hin, dass das Geschlecht keine Auswirkung auf das Testergebnis hat. Das Interesse an sozioökonomischen Inhalten beeinflusst das Testergebnis der Probanden, moderiert aber nicht den Zusammenhang von Geschlecht und Testergebnis. Dieser Moderrationseffekt wird stattdessen vom ökonomischen Vorwissen übernommen.

Zusammenfassend lässt sich aus den Ergebnisse der vorliegenden Studie ableiten, dass Geschlechterunterschiede in den Testergebnissen des WBK-T2 weniger durch ein bestimmtes Itemformat oder der Verteilung von Itemformaten beeinflusst sind, sondern vielmehr durch das Vorwissen der Testpersonen und der Wahrnehmung Nutzung formaler Lerngelegenheiten in der Domäne Wirtschaft. Diese Ergebnisse stehen im Einklang mit anderen aktuellen Studien (Ackermann, im Druck; Siegfried, 2019; Siegfried & Ackermann, im Review), die darauf hindeuten, dass der Besuch von Wirtschaftskursen die Geschlechterunterschiede verringern kann. Dabei scheinen Teilnehmerinnen Mädchen stärker als Jungen von wirtschaftswissenschafltichen Vertiefungskursen in Ökonomie zu profitieren als Teilnehmer.

Es bleibt dabei allerdings die Frage offen, ob diese Ergebnisse ein Merkmal des Testinstruments WBK-T2 oder des Inhaltsbereichs der wirtschaftsbürgerlichen Kompetenz sind. Bei weiteren Studien zur Untersuchung von Geschlechterunterschieden in der Domäne Wirtschaft sollten deshalb auch ökonomisches Vorwissen, domänenspezifisches Interesse und kognitive Fähigkeiten berücksichtigt werden.

 

Datum: Donnerstag, 26.03.2020
9:00 - 10:45D9–S24: Einflüsse personaler Merkmale
S24 
 

Angestrebter Bildungsabschluss von Schülerinnen und Schülern mit Migrationshintergrund in der Sekundarstufe. Welcher Zusammenhang besteht zwischen dem Akkulturationsprofil und der Chance auf ein Abitur bzw. dem Risiko auf einen Hauptschulabschluss?

Nanine Lilla, Sebastian Thürer, Wim Nieuwenboom, Marianne Schüpbach

Freie Universität Berlin, Deutschland

Theoretischer Hintergrund

In Deutschland besuchen Schülerinnen und Schüler mit Migrationshintergrund in der Sekundarstufe überproportional häufig Schulformen, die einen niedrigeren Bildungsabschluss erwarten lassen und seltener das Gymnasium (z.B. Baumert & Schümer, 2001). Herkunftsspezifische Analysen zeigen, dass diese Bildungsungleichheit insbesondere für Schülerinnen und Schüler mit türkischem Migrationshintergrund zutrifft (Kristen, 2002; Maaz, Baumert & Trautwein, 2010).

Als relevantes Hintergrundmerkmal zur Erklärung migrationsbedingter Bildungsungleichheit erwies sich neben dem sozioökonomischen Status der Herkunftsfamilie die zuhause gesprochene Sprache : Schülerinnen und Schüler, die zuhause überwiegend die Sprache des Herkunftslandes sprechen sind stärker von Bildungsungleichheit betroffen, als diejenigen, die zuhause überwiegend Deutsch sprechen (z.B. Stanat, Rauch & Segeritz, 2010).

Der individuelle Sprachgebrauch stellt jedoch nur einen Aspekt der Akkulturation - i.e. die Aushandlung der Annäherung an die deutsche Kultur und Beibehaltung der Herkunftskultur (Berry, 1997) - von Schülerinnen und Schülern mit Migrationshintergrund dar. Im Allgemeinen zeigen Studien zum Zusammenhang zwischen Akkulturation und Schulerfolg im deutschen Kontext einen Vorteil der assimilativen Orientierung (Edele, Stanat, Radmann & Segeritz, 2013; Schotte, Stanat & Edele, 2018). Das Zusammenspiel unterschiedlicher Aspekte der Akkulturation wie die ethnische Identität, die kulturelle Praktiken und die linguistische Akkulturation wurde bei der Untersuchung von Bildungsungleichheiten im deutschsprachigen Raum bislang nicht systematisch berücksichtigt. Erste Untersuchungen existieren dazu von Schwartz und Zamboanga (2009) im US-amerikanischen Kontext.

An diese Forschungslücke soll in dieser Studie angesetzt werden indem untersucht wird, inwiefern die Akkulturation mit dem in der Sekundarstufe angestrebten Bildungsabschluss in Zusammenhang steht.

Fragestellung

Es werden folgende Fragestellungen untersucht:

  1. Inwiefern lassen sich die vier Akkulturationsorientierungen nach Berry (1997) – Integration, Assimilation, Separation und Marginalisierung – unter Einbezug weiterer Aspekte der Akkulturation mittels Latenter Profilanalyse replizieren?
  2. Inwiefern stehen die Akkulturationsprofile von Schülerinnen und Schülern mit Migrationshintergrund unterschiedlicher Herkunftsgruppen im Zusammenhang (a) mit der Chance des Erreichens eines Abiturs und somit eines hohen Bildungsabschlusses versus eines niedrigeren Bildungsabschlusses bzw. (b) mit der Chance des Erreichens eines Hauptschulabschlusses versus eines höheren Bildungsabschlusses?

Methode

Grundlage für die Analysen ist der Datensatz der Startkohorte 4 des Nationalen Bildungspanels (NEPS; Blossfeld, Roßbach, & von Maurice, 2009). Für unsere Analysen berücksichtigten wir N = 1222 Schülerinnen und Schülern mit Migrationshintergrund in der 9. Klasse, die den Herkunftsgruppen aus Polen, der Türkei, der ehemaligen UdSSR sowie aus Nord- und Westeuropa zugeordnet werden konnten (Alter: M = 14,9 Jahre , SD = 0,73; Geschlecht: 46,4% männlich).

In Latenten Profilanalysen zu den Akkulturationsorientierungen wurden nebst den Variablen von Berry (1997), dem Verbundenheitsgefühl mit der Aufnahme- und Herkunftskultur, Variablen zur ethnischen Identität, den kulturellen Gewohnheiten und dem Sprachgebrauch berücksichtigt.

Unter Berücksichtigung des Bildungsniveaus der Eltern, der Kompetenzen in Deutsch und Mathematik sowie des Geschlechts wurden in logistischen Regressionen zur Vorhersage des angestrebten Bildungsabschlusses, operationalisiert über den in der 9. Klasse besuchten Bildungszweig, die ermittelten Akkulturationsprofile gerechnet.

Ergebnisse

In Anlehnung an Berrys Akkulturationsorientierungen wurde eine Vier-Profil-Lösung identifiziert. Die inhaltliche Interpretation dieser Profile ergab ein assimiliertes Profil (9%), ein moderat assimiliertes Profil (38%), ein integriertes (32%)und ein separiertes Profil (20%). Die Existenz eines marginalisierten Profils ließ sich entgegen der Theorie nicht empirisch bestätigen.

Die Ergebnisse der Logistischen Regressionsmodelle zeigen) eine höhere Wahrscheinlichkeit für Schülerinnen und Schüler des assimilierten Akkulturationsprofils ein Abitur zu erreichen und eine geringere Wahrscheinlichkeit einen Hauptschulabschluss zu erreichen im Vergleich mit Schülerinnen und Schülern mit integriertem (OR=0.63; p<.05 bzw. OR=1.62, p<.05)und separiertem (OR=0.32; p<.001 bzw. OR=2.66, p<.001) Akkulturationsprofil. Nach Kontrolle der sprachlichen Kompetenzen in Deutsch sind diese Effekte jedoch nicht mehr vorhanden. Ein Effekt der Herkunftsgruppe zeigt sich nur im Modell zur Vorhersage der Chance auf ein Abitur: Im Vergleich mit Schülerinnen und Schülern mit einem Migrationshintergrund aus Nord- und Westeuropa zeigt sich hier die geringste Wahrscheinlichkeit für die Gruppe der aus der ehemaligen UdSSR stammenden Schülerinnen und Schülern (OR=0.26; p<.001).



Effekte herkunftsbedingter Erfolgsattributionen und Leistungserwartungen von Lehrpersonen und Schülerinnen und Schülern auf schulische Leistungen in Mathematik und Deutsch

Camille Mayland, Markus P. Neuenschwander, Edith Niederbacher

Fachhochschule Nordwestschweiz, Pädagogische Hochschule, Schweiz

Theoretischer Hintergrund

Erfolgsattributionen und Leistungserwartungen von Lehrpersonen erklären soziale Disparitäten im Unterricht. Welchen Ursachen Lehrpersonen sowie Schülerinnen und Schüler schulischem Erfolg der Schülerinnen und Schüler zuschreiben (Erfolgsattributionen), variiert je nach sozialer Herkunft der Kinder. Lehrpersonen sowie Schülerinnen und Schüler schreiben schulische Erfolge von Kindern mit höherem sozioökonomischen Status eher zeitlich stabilen Erfolgsursachen wie Fähigkeiten zu (de Haan & Wissink, 2013).

Gemäß der Attributionstheorie von Weiner (1985) spielen Erfolgsattributionen von Lehrpersonen eine wichtige Rolle für die Leistungsentwicklung der Schülerinnen und Schüler. Postuliert wird, dass zeitlich stabile Erfolgsattributionen im Gegensatz zu variablen zu hohen Leistungserwartungen von Lehrpersonen führen, was die Leistungen der Kinder positiv beeinflusst. Motivationspsychologische Studien zeigen dazu, dass hohe Leistungserwartungen von Lehrpersonen zukünftige Leistungen von Schülerinnen und Schülern begünstigen (selbsterfüllende Prophezeiung; Jussim & Harber, 2005).

Nebst den Lehrpersonen suchen auch die Schülerinnen und Schüler selbst nach Gründen, weshalb sie einen schulischen Erfolg erreicht haben (Weiner, 1985). Lehrpersonen bilden dabei eine wichtige Informationsquelle. Sie kommunizieren ihren Schülerinnen und Schülern durch Leistungsrückmeldungen, auf welche Ursachen sie den schulischen Erfolg zurückführen, was sich auf die Leistungen der Kinder auswirkt (Graham, 1990). Dies bedeutet, dass Schülerinnen und Schüler die Erfolgsattributionen ihrer Lehrpersonen übernehmen (Martin & Dowson, 2009).

Untersucht wurde bislang insbesondere der leistungsrelevante Effekt der Lokalität der Erfolgsattributionen (internale vs. externale Ursachen) von Lehrpersonen (Wang & Hall, 2018). Studien, die sich mit dem leistungsrelevanten Effekt der Stabilität der Erfolgsattributionen auseinandersetzten, fehlen. Zudem liegen bislang kaum Studien vor, die Erfolgsattributionen von Lehrpersonen und Kindern simultan in einem Modell untersuchen (Wang & Hall, 2018).

Fragestellung

Es wird daher den Fragen nachgegangen, (a) ob die Stabilität der Erfolgsattributionen von Lehrpersonen und von Schülerinnen und Schülern vom sozioökonomischen Status der Kinder abhängen, (b) ob die stabilen Erfolgsattributionen der Lehrpersonen die Mathematik- und Deutschleistungen der Kinder erklären und (c), ob der Zusammenhang zwischen den stabilen Erfolgsattributionen der Lehrpersonen und den schulischen Leistungen der Schülerinnen und Schülern durch die stabilen Erfolgsattributionen der Kinder vermittelt wird.

Methode

Zur Beantwortung der Fragestellungen wurden Daten der Schweizer Längsschnittstudie SCALA von insgesamt 1121 Schülerinnen und Schülern aus 75 Schulklassen (4.-6. Klasse), deren Eltern und Lehrpersonen aus sechs Deutschschweizer Kantonen verwendet. Die Erfolgsattributionen der Kinder und Lehrpersonen wurden anhand der Ursachen Begabung, Anstrengung, Glück und Aufgabenschwierigkeit für Mathematik und Deutsch erfasst (Weiner, 1985) und jeweils dichotomisiert (1: Zeitlich stabile Erfolgsursachen, 2: Zeitlich variable Erfolgsursachen). Die Lehrpersonen trafen eine Attributionseinschätzung pro Kind ihrer Klasse. Die Leistungserwartungen der Lehrpersonen wurden fachspezifisch mit je einem Item für jedes Kind auf einer Ratingskala (1-6) erfasst. Die Mathematik- und Deutschleistungen der Kinder wurden mit standardisierten Leistungstests (ausgewertet gemäß IRT; Yen & Fitzpatrick, 2006) zu Beginn und am Ende des Schuljahres erfasst (Längsschnitt). Die soziale Herkunft der Schülerinnen und Schüler wurde mittels ISEI-Werten über die Berufe der Eltern operationalisiert (Ganzeboom & Treiman, 2010).

Ergebnisse

Konfirmatorische Pfadanalysen unter Berücksichtigung der Mehrebenenstruktur mit Mplus erreichten eine gute Modellpassung und zeigen, dass die Erfolgsattributionen der Lehrpersonen und der Schülerinnen und Schüler vom sozioökonomischen Status der Kinder abhingen. Je höher der soziökonomische Status, desto eher wurde Erfolg mit stabilen Ursachen erklärt. Stabile Erfolgsattributionen begünstigten im Vergleich zu variablen die Mathematik- und Deutschleistungen der Kinder. Der Zusammenhang zwischen den Erfolgsattributionen der Lehrpersonen und den Leistungen der Schülerinnen und Schüler wurde in beiden Fächern über die Leistungserwartungen der Lehrpersonen und in Mathematik zusätzlich über die Erfolgsattributionen der Kinder vermittelt.

Weil die Erfolgsattributionen von Lehrpersonen leistungswirksam sind, jedoch in Abhängigkeit des sozioökonomischen Status der Kinder variieren, werden Schülerinnen und Schüler aus tieferen Sozialschichten im Bildungssystem benachteiligt. Im Hinblick auf mehr Chancengerechtigkeit ist es zentral, Lehrpersonen auf leistungsrelevante Effekte ihrer Erfolgsattributionen zu sensibilisieren.



Berufswunsch Soldat/in? Der Einfluss sozialer Herkunft und der Schulbildung auf das Interesse an einer Tätigkeit als Soldat oder Soldatin der Bundeswehr.

Franziska Koch

Zentrum für Militärgeschichte und Sozialwissenschaften der Bundeswehr, Deutschland

Allgemein ist der Übergang in die Ausbildung oder den Arbeitsmarkt eine wichtige Stellschraube für den weiteren Bildungs- und Berufsweg. Die bisherige Forschung kann unter anderem zeigen, dass ein stabiler Erwerbsverlauf, Ausbildungen in großen Betrieben oder bestimmten Branchen und frühzeitige Beförderungen für die späteren Berufs- und Karrierechancen entscheidend sein können (Dietrich/Abraham 2018, Möller/Umkehrer 2015, Bellmann/Neubäumer 2001, Hurley/Sonnenfeld 1995). Die Erstplatzierung am Arbeitsmarkt über die berufliche Ausbildung unterliegt jedoch sozialen Herkunftseffekten, die zu sozialer Ungleichheit am Arbeitsmarkteintritt führen (Weil/Lauterbach 2009, Dietrich/Abraham 2018). Aus der theoretischen Perspektive der soziologischen Modelle zur Bildungswahl (Boudon 1974, Breen/Goldthorpe 1997), entscheiden sich weniger privilegierte Herkunftsgruppen eher für einen Ausbildungsweg, der mit weniger Verdienstausfällen einhergeht, somit weniger monetären Kosten unterliegt und schnell zum Erfolg führt. Hinzukommt, dass durch den sozialstrukturellen Wandel der Schulabsolventen, Jugendliche mit Hauptschulabschluss immer geringer werdende Chancen auf einen Ausbildungsplatz haben. (Konietzka/Hensel 2017).

Die Tätigkeit als Soldat oder Soldatin bei der Bundeswehr bietet eine Vielzahl an Bedingungen, die gerade für weniger privilegierte Herkunftsgruppen attraktiv sein können. Dazu gehören unter anderem der durchgängig vergleichsweise hohe Verdienst, die frühen Beförderungen, eine langfristige Perspektive und berufliche Sicherheit. Einher geht dies allerdings mit der militärischen Verpflichtung und dem Grundsatz „tapfer zu verteidigen“ (§9 Soldatengesetz), was mit dem Risiko einhergeht, das eigene Leben zu verlieren.

Ziel des Vortrages ist es, anhand des theoretischen Hintergrundes der soziologischen Modelle zur Bildungswahl, die beeinflussenden Faktoren auf das berufliche Interesse an einer Tätigkeit als Soldat oder Soldatin bei der Bundeswehr herauszuarbeiten und herauszufinden, ob und wie soziale Herkunftseffekte und der eigene Bildungshintergrund dabei eine Rolle spielen. National finden sich bisher zu diesem Thema keine Forschungsergebnisse. Lediglich international zeigen sich Anhaltspunkte, dass die soziale Herkunft für die Verpflichtung beim Militär bedeutend ist (bspw. Bachman et al. 2009, Lutz 2008)

Zur Beantwortung der Forschungsfrage werden die Daten der Jugendstudie 2011 des Sozialwissenschaftlichen Instituts der Bundeswehr verwendet. Hier wurden 3 543 Personen im Alter von 14 bis 23 Jahren zur Berufswahl und der Bundeswehr befragt (Hentschel 2013). In der Analyse werden multivariate logistische Regressionsmodelle berechnet mit der abhängigen Variable, ob man sich demnächst bei der Bundeswehr als Soldat oder Soldatin bewerben möchte. Als elterliche Herkunftsvariable geht der höchste Schulabschluss der Eltern ein.

Die Ergebnisse können unter Kontrolle aller Drittvariablen zeigen, dass für Personen mit einem Realabschluss oder höher die durchschnittliche Wahrscheinlichkeit sich demnächst bei der Bundeswehr zu bewerben geringer ist als für Personen mit einem Hauptschulabschluss. Gleiches zeigt sich für die soziale Herkunft. Es sind Personen aus bildungsferneren Familien, die eine höhere durchschnittliche Wahrscheinlichkeit aufweisen, sich bei der Bundeswehr zu bewerben. Ebenfalls hat der aktuelle Status einen signifikanten Einfluss. Befinden sich Personen in einem unsicheren Status, wie Arbeitslosigkeit, Elternzeit oder Sonstiges, dann ist für sie die Bewerbungsabsicht wahrscheinlicher. Berufsabschlüsse sind jedoch weniger bedeutend, was jedoch an der Stichprobe liegen könnte, da rund 70% noch keinen beruflichen Abschluss erreicht haben. Zudem finden sich Geschlechterunterschiede, Effekte einer positiveren Einstellung zur Bundeswehr, Ost-West-Unterschiede und Stadt-Land-Unterschiede.

Die soziale Herkunft gemessen am höchsten Schulabschluss der Eltern spielt somit eine Rolle dafür, ob jemand eine Bewerbungsabsicht zum Soldaten oder zur Soldatin bei der Bundeswehr erwägt. Dies entspricht der theoretischen Annahme, dass Personen aus weniger privilegierten Familien, sicherere berufliche Wege mit wenig monetären Kosten suchen, die bei der Bundeswehr mit guten Karrierechancen und je nach Laufbahn auch mit Aufstiegsmöglichkeiten verbunden sind. Ebenfalls ist jedoch auch der eigene Status entscheidend für die Berufswahl zum Soldat oder Soldatin. Inwieweit die Bewerbungsabsicht jedoch tatsächlich umgesetzt wurde und ein Eintritt als Soldat oder Soldatin stattfand, kann nicht beantwortet werden. Die Analysen können nur als erster Hinweis gesehen werden, wer sich in die Bundeswehr selektieren könnte.



Effekte der sozialen Herkunft auf Unterrichtswahrnehmung von Lernenden im Kunstunterricht

Susanne Weiß1, Katrin Rakoczy1,2, Ulrich Frick2, Miles Tallon2

1DIPF Deutsches Institut für Internationale Pädagogische Forschung, Deutschland; 2HSD Hochschule Döpfer

Theorie

Die ungleichheitstheoretische Bildungsforschung betont vorrangig die Einflussmacht von Struktur- und Prozessmerkmalen sozialer Herkunft als prä-determinierende Einflussgröße für institutionellen Bildungserfolg (Bourdieu 1982, 1983; Vester, 2006). Auch in der quantitativ-empirischen Unterrichtsforschung wird Bildungserfolg auf schülerbezogene Herkunftsmerkmale zurückgeführt, vor allem wird jedoch die ko-konstruktive Unterrichtsgestaltung durch Lehrende und Lernende als Einflussfaktoren untersucht (Baumert & Maaz, 2006; Watermann & Baumert, 2006) .Für den Kunstunterricht gelten die folgenden fünf Qualitätsdimensionen als besonders relevant (Berner, Faust & Lipowsky, 2010): Classroom Management, Kognitive Aktivierung, Unterrichts- und Lernklima, inhaltliche Relevanz und Assessment und Feedback.

In der vorliegenden Studie wurden die Ansätze der ungleichheitstheoretischen Bildungsforschung und quantitativ-empirischen Unterrichtsforschung miteinander verbunden. Es wurden sowohl die Zusammenhänge von Strukturmerkmalen (Bildungsabschluss der Eltern, Migrationshintergrund der Familie, Kunst- und Kulturbesitz im Elternhaus) und Prozessmerkmalen (elterliche Einstellungen und Bildungsaspirationen, gemeinsame kulturell-ästhetische Praxis von Eltern und Kind und alleinige kulturell-ästhetische Praxis des Kindes) untersucht (1) als auch die Effekte dieser Herkunftsmerkmale auf die schülerbezogene Wahrnehmung von Unterrichtsqualität im Kunstunterricht (2). Für die empirische Umsetzung der Fragestellungen wurde das Wirkmodell der Autoren McElvany, Becker & Lüdke (2009) adaptiert, um den Einbezug der Unterrichtsebene erweitert und in das theoretische Rahmenmodell des Angebots-Nutzungs-Modells eingebettet.

Methode

Die Fragestellungen wurden im Rahmen des BMBF-Verbundprojekts „Bildkompetenz in der Kulturellen Bildung“ (BKKB) untersucht, das vom DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation und der HSD Hochschule Döpfer durchgeführt wurde. Insgesamt 1018 Schüler*innen aus 49 Klassen der 9. und 10. Jahrgangsstufe an Gymnasien und Integrierten Gesamtschulen in Hessen, Nordrhein-West-falen und Schleswig-Holstein wurden via tabletbasiertem Fragebogen befragt (Rakoczy, Frick, Weiß, Tallon & Wagner, 2019). Familiärer Hintergrund, Kapitalausstattung und kulturell-ästhetische Praxis im Elternhaus sowie schülerbezogene Wahrnehmung der Unterrichtsqualität im Kunstunterricht wurden anhand von Fragebogenskalen erfasst – die internen Konsistenzen der Skalen reichten von Cronbachs α = .55 bis .89. Zur Berechnung der direkten und indirekten sowie totalen Effekte wurden, unter Berücksichtigung der Mehrebenendatenstruktur, Pfadmodelle mit Mediationsanalysen spezifiziert.

Ergebnisse

Fragestellung 1: Struktur- und Prozessmerkmale sozialer Herkunft zeigten signifikante Zusammenhänge, teilweise vermittelt über Drittvariablen. Die umfangreichsten Effekte gingen hierbei von den Strukturmerkmalen Migrationshintergrund der Familie und Bildungsabschluss der Eltern aus. Ein Migrationshintergrund der Familie zeigte einen positiven direkten Effekt auf die alleinige kulturell-ästhetische Praxis des Kindes und negative direkte und indirekte Effekte auf den Kunst- und Kulturbesitz im Elternhaus, auf elterliche Einstellungen und Bildungsaspirationen sowie auf die differenziert modellierte gemeinsame und alleinige kulturell-ästhetische Praxis. Der Bildungsabschluss der Eltern zeigte hingegen positive direkte und indirekte Effekte auf den Kunst- und Kulturbesitz im Elternhaus, auf elterliche Einstellungen und Bildungsaspirationen sowie auf die alleinige und gemeinsame kulturell-ästhetische Praxis. Das Strukturmerkmal des Kunst- und Kulturbesitzes im Elternhaus zeigte positive direkte und indirekte Effekte auf die gemeinsame und alleinige kulturell-ästhetische Praxis. Auch das Prozessmerkmal elterlicher Einstellungen und Bildungsaspirationen zeigte positive direkte und indirekte Effekte sowohl auf den Kunst- und Kulturbesitz im Elternhaus als auch auf die kulturell-ästhetische Praxis. Ebenso zeigte die gemeinsame Praxis von Eltern und Kind einen direkten positiven Effekt auf die alleinige Praxis des Kindes.

Fragestellung 2: Es zeigten sich erhebliche Unterschiede hinsichtlich des Einflusses von Struktur- und Prozessmerkmalen sozialer Herkunft auf die schülerbezogene Wahrnehmung der Unterrichtsqualität. Am stärksten hing diese von Inhaltlicher Relevanz, Kognitiver Aktivierung und dem Unterrichts- und Lernklima im Kunstunterricht von Struktur- und Prozessmerkmalen (Migrationshintergrund der Familie, Bildungsabschluss der Eltern, Kunst- und Kulturbesitz im Elternhaus und elterliche Einstellungen und Bildungsaspirationen) ab, wobei sich die Wirkung von Strukturmerkmale nur vermittelt über andere Strukturmerkmale sowie über Prozessmerkmale zeigte. Für die schülerbezogene Wahrnehmung der anderen beiden Dimensionen Classroom Management und Assessment und Feedback im Kunstunterricht zeigten sich deutlich geringere von Struktur- und Prozessmerkmalen ausgehende Effekte. Die im Elternhaus stattfindende kulturell-ästhetische Praxis war lediglich für die schülerbezogene Wahrnehmung der Inhaltlichen Relevanz der Lerninhalte im Kunstunterricht von Bedeutung.

 
11:15 - 13:00D11‒S24: Current measurement issues in the Programme for International Student Assessment (PISA)
S24 
 

Current measurement issues in the Programme for International Student Assessment (PISA)

Chair(s): Nina Jude (DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland), Frank Goldhammer (DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland)

DiskutantIn(nen): Claus Carstensen (Universität Bamberg)

The Programme for International Student Assessment (PISA) latest results were published in December 2018. This seventh round of PISA builds upon on 20 year of experience in international large scale assessments, especially internationally comparable measurement approaches. The contributors to this symposium have been involved in the development and analysis of the PISA measures as international contractors and national experts in Germany for more than a decade. The symposium will highlight latest developments and discuss current measurement issues from a methodological point of view.

Designed to assess and compare learning contexts and cognitive outcomes of 15 year olds around the world, the latest study features new methods and measurement approaches: Computer-based assessment was introduced in PISA 2015 already, opening up the discussion about potential mode-effects and influences on trend comparison over time. PISA 2018 saw adaptive testing approaches which added additional challenges to international comparison. Besides cognitive outcomes, the study describes learning settings around the world and tries to relate it to students’ achievements. To allow for comparison of education systems, context questionnaire scales need to be evaluated regarding their measurement invariance. This includes newly developed measures of self-efficacy and self-concept related to the major domain of reading.

This symposium combines four presentations highlighting different aspects of educational measurement in international large scale studies. It will point out significant changes in assessment design and analytical methods over the last cycles, discussing challenges for international large scale assessment.

The presentation by Dominique Lafontaine and Nina Jude elaborates on the process of developing questionnaire scales assessing different dimensions of self-efficacy. They will elaborate on all steps of the developing process, including the evaluation of dimensionality for the scales based on theoretical assumptions, testing of invariance and the predictive validity across all 80 countries participating in PISA. The question of measurement invariance in context measures is further discussed in the presentation by Janine Buchholz. She will provide a comprehensive overview of different approaches on detecting measurement invariance, and focus on latest findings using the Generalized Partial Credit Model for scaling the PISA 2018 questionnaire data.

The second part of the symposium will present results from a German add-on study that was conducted by the Centre for International Student Assessment (ZIB) in PISA 2018. The add-on study investigates the mode change from paper-based to computer-based assessment that happened in PISA 2015 and addresses questions of comparability and trend estimation in-depth. The presentation by Scott Harrison and colleagues will investigate the construct equivalence between paper-based and computer-based assessment by comparing the influence of construct-relevant item characteristics on item difficulty. The presentation by Alexander Robitzsch and colleagues will address how the mode change may have affected the comparability with the results of earlier PISA rounds in Germany. Finally, Claus Carstensen will discuss all four contributions and share his view on the PISA measurement issues highlighted in this symposium.

 

Beiträge des Symposiums

 

Developing measures for self-concept and self-efficacy in reading for PISA 2018

Dominique Lafontaine1, Nina Jude2
1Université de Liège, Belgien, 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland

Context and state of the art

In PISA 2018, reading was for the third time the major domain. A new reading framework has been developed to address the differences between print and online reading (Afflerbach & Cho, 2010). In parallel, all the reading non-cognitive constructs in the contextual questionnaires have been revisited; new scales have been developed to cover missing constructs in the previous cycles and aspects linked with online reading.

Because self-efficacy and self-concept are important motivational attributes and proved to be strong correlates of reading achievement (Baker & Wigfield, 1999; Marsh & Craven, 2006; Solheim, 2011, Morgan & Fuchs, 2007; Retelsdorf, Köller, & Möller, 2011), a self-concept and a self-efficacy scale have been developed for the PISA 2018 students’ questionnaire.

Typically, self-efficacy (Bandura, 1997) refers to the individual’s perceived capacity of doing specific tasks, whereas self-concept is a general measure of the individual’s own perceived abilities related to a domain (i.e. reading) (Marsh & Craven, 1997). The scales were successfully tested in the PISA-Field trial in 2017 and implemented in the Main Survey in 80 participating countries.

Measures

Following Chapman and Tunmer’s recommendations (1995), the self-concept scale comprises perceptions of competence in reading (3 items f.i. I am a good reader) and of difficulty in reading (3 items f.i. I always had difficulties with reading).

The self-efficacy scale comprises four items, one positively and three negatively oriented. Students were asked to consider the reading part of the PISA test and to evaluate their capacity to perform the test (f.i. I understood most of the texts, I was lost when I had to navigate between different pages). To our knowledge, it is the first time a reading self-efficacy scale is developed for reading in comparative studies. Many studies claimed having self-efficacy measures, but most of these scales are in fact self-concept measures (Schiefele, Schaffner, Möller, & Wigfield, 2012).

Aims of the study

The aims of the study were to validate the new self-concept and self-efficacy scales of PISA 2018. More specifically, we wanted to test:

- whether the self-efficacy scale measures a specific construct distinct from the self-concept;

- whether the self-concept scale is unidimensional or bidimensional;

- whether the new scales are cross-culturally invariant and whether an attitudes- achievement-paradox is observed (He & Van de Vijver, 2016);

- to what extent the self-concept and self-efficacy are related to reading proficiency (predictive validity).

Analyses

The analyses were performed for both OECD countries and partner economies participating in PISA 2018. The quality of scales was evaluated by their internal consistency across countries as well as factor analysis. Moreover, multigroupmodels (MGCFA) were implemented to test cross-cultural invariance. To analyse the attitudes- achievement-paradox, the students’ Plausible Value in reading were used to model relationships both on individual and on country level.

Preliminary results

[For the reviewers: Results of PISA 2018 are embargoed until December 2019 thus only technical findings from the Field Trial can be reported a this stage.]

Technical results from the Field Trial showed good scale reliabilities for self-concept and self-efficacy scales for all countries, indicating that these measures can be implemented in an international large scale assessment. The factor analysis showed clearly distinct constructs in all countries, again pointing to a valid measure. Results from IRT scaling and country specific correlations with reading competence will be presented at the conference.

 

Measurement invariance across the PISA 2018 Questionnaires: A comprehensive overview of findings

Janine Buchholz
DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland

Background

Questionnaires for the assessment of constructs such as attitudes, values and beliefs are essential in educational and psychological research. Many international large-scale assessments (ILSAs) such as Programme for International Student Assessment (PISA) aim at comparing these latent constructs between respondents from a large number of participating countries, an endeavor which requires measurement invariance (MI) across all countries to be established. Several statistical approaches have been developed to test for measurement invariance (MI). Of these, Multigroup Confirmatory Factor Analysis (MGCFA; Jöreskog, 1971) was found to be the most common one (e.g., Boer et al., 2018). However, given the large number of groups (i.e., participating countries) in ILSAs, the approach does not prove to be useful for operational application (Rutkowski & Svetina, 2014). In addition, it has been repeatedly noted that MI testing in ILSAs focused almost exclusively on the cognitive part of the assessments (Braeken & Blömeke, 2016; Hopfenbeck et al., 2018). This imbalance undermines the importance of questionnaire data as they contribute to the achievement estimation and allow for the “contextualization” of student performances in participating countries (Rutkowski & Rutkowski, 2010). In fact, a recent literature review on the nature of PISA-related publications demonstrated that the majority of secondary research focused on constructs administered with questionnaires (Hopfenbeck et al., 2018).

Study Aim

For PISA 2015, an innovative approach for testing the invariance of IRT-scaled constructs in the context questionnaires administered to students, parents, school principals and teachers (OECD, 2016) has been implemented. It is the scope of this presentation to provide a comprehensive overview of findings on MI regarding the constructs administered with the questionnaires in PISA 2018 using this relatively new method.

Method

Data pertaining to all scaled constructs in the in the PISA 2018 questionnaires are used for analysis, and MI is tested following the operational procedure in PISA 2015 (OECD, 2017) using mdltm (von Davier, 2005). On the basis of a concurrent calibration with equal item parameters across all groups (i.e., languages within countries) using the Generalized Partial Credit Model (GPCM; Muraki, 1992), a group-specific item-fit statistic (root-mean-square deviance; RMSD) is calculated, thus indicating whether a particular group’s data can be described well by the international parameters. The operational cutoff-criterion in PISA 2015 (i.e., RMSD < .3) is used to determine the presence of MI.

Results

Unfortunately, results can only be presented after the embargo for PISA 2018 and can therefore not be discussed here. In the presentation, the results on MI will be summarized from two different angles: scales and countries. Patterns can then be described with respect to properties of scales (e.g., number of items, content domain) and countries (e.g., geographic region, language group), respectively, providing an insight into MI regarding the PISA 2018 questionnaire scales.

 

Mode Effect, the PISA assessment framework, and construct equivalence – is there a link?

Scott Harrison1, Ulf Kröhne1, Frank Goldhammer1, Alexander Robitzsch2, Oliver Lüdtke2
1DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland, 2IPN Leibniz Institute for Science and Mathematics Education

Theoretical Background

The term mode effect refers to non-equivalence in psychometric items and tests arising from the mode of test administration. In the context of the 2015 OECD PISA report where mode was altered, mode effects were present, with computer based assessment (CBA) being harder than paper based assessments (PBA) for selected items (OECD, 2016, Appendix 6, p.6). The objective of this study is to further investigate the evidence regarding construct equivalence through a construct representation approach. To do this, the underlying PISA assessment framework is taken into account.

One way to investigate construct validity is the construct representation approach described by Embretson (1983). Construct-relevant facets as defined by the PISA assessment framework are expected to determine item difficulty. If item difficulty can be explained by facets as expected, this provides validity evidence for the construct interpretation of the test score. For construct equivalence across modes, it is expected that this pattern of effects of facets does not change across modes, and thus, if there is empirically no interaction between mode and facet, this provides evidence for construct equivalence across modes (and vice versa).

The PISA 2015 assessment framework is comprised of a number of facets within each domain, three in mathematics, three in reading, and six within science (Vayssettes, 2016). For example, the mathematics domain is divided into three facets, content, situation/context, and process. Within the content facet, it contains four levels, space and shape, quantity, change and relationships, and uncertainty and data. Each item reflects the underlying facets and levels of this analytical framework, and correlates to various aspects as to what the student is required to undertake in answering the question.

Research Question

The study combines PISA 2015 field trial data from twelve countries to address the main research question:

Is there a relationship between the PISA construct facets represented in the Assessment Framework, and the mode of assessment used by test takers?

For construct equivalence, it is expected that any mode effects will be evenly distributed among the levels of a construct facet, that is a particular facet of the assessment framework determines item difficulty comparably across modes.

Methods

The data from the twelve participating countries was pooled to create a sufficient sample to estimate a 2PL model. Sample sizes were: NMaths = 10,017; NReading = 9891; NScience = 9907. Using Mplus (Muthén & Muthén, 2017), a complex mixture model was used, incorporating maximum likelihood estimation and clustering from School ID’s, to estimate item discrimination and difficulty on the IRT scale for both the PBA and CBA questions. The difference in difficulties was estimated (PBA – CBA = Δβ) and then correlated onto the underlying facet levels within each facet independently.

Expected Research Contributions

Preliminary results confirm that all domains experienced mode effected items. Importantly however, not all domains showed a consistent difference between the levels within each facet. For example, Science Facet context 1 relates science items on personal, local/national, or global contexts. Results show that there is a significant mode effect on questions of both a local/national context (Δβ = -0.225, p < 0.001) and a global context (Δβ = -0.294, p < 0.001). However, there was no significant difference between the PBA and CBA questions when correlated to the personal context (Δβ = -0.099, p = 0.069). Differences between facet levels, indicates that mode effects within PISA can be linked to the underlying assessment framework, and warrants further investigation with respects to construct equivalence.

 

Marginal trend estimation of the PISA 2009 and 2018 trends: Comparison of the German results for computer- vs. paper-based assessments

Alexander Robitzsch1, Oliver Lüdtke1, Frank Goldhammer2, Scott Harrison2, Ulf Kröhne2, Olaf Köller1
1IPN Leibniz Institute for Science and Mathematics Education, 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland

In PISA 2015, the assessment mode was changed from paper to computer, giving rise to questions of comparability and trend estimation. One of the aims of the national extension study as part of PISA 2018 is to carry out in-depth analyses of the trend for Germany in the domains of reading, mathematics and science. For each domain, the question will be examined to what extent the internationally reported trend estimate (original trend) between PISA 2009 and PISA 2018 differs from a national trend estimate (marginal trend) which is based only on German PISA data without recurrence of international item parameters (Robitzsch et al., 2017). While the change of the test mode from paper to computer carried out in PISA 2015 has to be considered for the interpretation of the original trend estimate from PISA 2009 to 2018, the national extension study allows the estimation of a marginal trend from 2009 to 2018 only based on a paper-based test. The marginal trend provides information on how competencies in Germany have developed over different cohorts of the fifteen-year-old students while the test instruments and test design were held identical.

The estimation of the marginal trend for Germany was carried out using three different scaling methods. For the technical implementation of the scaling, a distinction can be made between a separate scaling with subsequent linking and a concurrent scaling procedure (Kolen & Brennan, 2014). In a separate scaling, the individual PISA surveys (2009, 2012, 2015, and 2018) were first scaled separately and then the actual parameters were transformed to a common metric in a simultaneous linking according to the Haebara method (see Kolen & Brennan, 2014). The 1PL model and the 2PL model were used as scaling approaches. Since the PISA study used a 1PL model as the scaling model until 2012 and then switched to a 2PL model (in 2015), it seemed appropriate to check the sensitivity of the marginal trend estimate with respect to the choice of the scaling model. In addition, a concurrent scaling based on the 2PL model was applied, in which the individual surveys were treated as groups in an IRT multi-group model. For all three methods, only the items (trend items) identified by the OECD as invariant (between PISA 2015 and 2018) were used for the (computer-based) link from 2015 to 2018. All scaling procedures were performed using student weights. One-dimensional models were used for each domain, including only those students to whom items in the domain were administered.

The changes between PISA 2009 and 2018 are slightly smaller for the marginal trend, which is based solely on paper based measurements, than for the original trend. Only minor differences were found between the three different scaling approaches. Moreover, the original and marginal trend for the changes between 2015 and 2018 appear to be very similar.

 
15:45 - 17:00Poster-S24: Entwicklung im Lehramtsstudium
S24 
 

Legitimation sozialer Unterschiede durch Lehramtsstudierende – eine Frage der Fachkultur?

Thomas Fischer, Marina Dangelat

Europa-Universität Flensburg, Deutschland

Problemstellung

Leher_innen sind maßgeblich für die Vermittlung und Legitimation normativer Orientierungen der nachwachsenden Generation verantwortlich. Vorliegende Studien zu den normativen Orientierungen von Studierenden, lassen sich überblicksartig folgendermaßen zusammenfassen: 1. Insgesamt unterscheiden sich die normativen Orientierungen aller Studierender an deutschen Hochschulen nach den Fächergruppen (Ramm 2014). 2. Die normativen Orientierungen von Lehramtsstudierende sind durch Indifferenz gekennzeichnet (Dippelhofer 2011). Belastbare empirische Befunde zur Verbindung der Ergebnisse dieser beiden Forschungslinien liegen bislang kaum vor.

Theoretischer Hintergrund

Der vorliegende Beitrag möchte dieses Desiderat aus der Perspektive der Fachkulturforschung aufgreifen und den fachkulturellen Einfluss der von den Lehramtsstudierenden gewählten Erst- und Zweifächern auf deren normativen Orientierungen untersuchen. Lehramtsstudierende lassen sich aus der Perspektive der Fachkulturforschung dadurch charakterisieren, dass sich diese zwischen verschiedenen Disziplinen (Fächern) bzw. Fachdidaktiken sowie bildungswissenschaftlichen Studien bewegen (Bernholt et al. 2018). Durch diese multidisziplinäre Verortung liegt das Lehramtsstudium quer zur Systematik mehr oder weniger an einer akademischen Disziplin orientierter Studiengänge (Wernet 2012). Nach Huber (1992) stellen neben Lehr- und Interaktionsstrukturen auch „normative Klimata“ (S. 102) Grundmerkmale von Fachkulturen dar. Eine Dimension normativer Klimata bilden „Bewertunge[n] der soziale[n] Ordnung„ (vgl. ebd.). Empirische Untersuchungen, die die Fachkultur lehramtsbezogener Studiengänge in den Blick nehmen, fokussieren hierbei allerdings in der Regel jeweils nur ein Fach bzw. den angestrebten Studienabschluss Lehramt. Dieses Vorgehen stellt vor dem Hintergrund der fachkulturellen Sonderstellung des Lehramtsstudiums eine Komplexitätsreduktion des Gegenstandes dar, weil zumindest mit Blick auf die Differenz von Geistes- bzw. Naturwissenschaften (Snow 2012) im Rahmen der Lehrerbildungsforschung von einer Konfundierungshypothese ausgegangen wird (Blömeke 2012: 193).

Methodische Anlage der Untersuchung

Konkret wird vor diesem Hintergrund varianzanalytisch überprüft, ob sich die normativen Orientierungen von Studierenden lehramtsbezogener Studiengänge nach den Fachkulturen in Anlehnung an die Differenz von Natur- und Kulturwissenschaften (Snow 2012) in Erst- und Zweitfach unterscheiden. Die Datengrundlage bildet die 12. Welle des Studierendensurveys (N=4200). Die normativen Orientierungen wurden über die Skala Affirmation meritokratischer Legitimation sozialer Unterschiede (α = .68; Beispielitem: „In unserer Gesellschaft hat jeder eine faire Chance, nach oben zu kommen“) in Anlehnung an Huber (1992) operationalisiert. Der fachkulturelle Hintergrund wurde in Anlehnung an Snow (2012) in drei Gruppen nach Erst- und Zweitfach differenziert (Naturwissenschaften-Geisteswissenschaften, Naturwissenschaften-Naturwissenschaften, Geisteswissenschaften-Geisteswissenschaften).

Ergebnisse und Schlussfolgerungen

Die Befunde zeigen, dass sich die Studierende im Hinblick auf ihre normativen Orientierungen signifikant zwischen den Fächergruppen unterscheiden (η² = 0.08). Jedoch weisen die Lehramtsstudierenden im Vergleich zu den Fächergruppen Rechtswissenschaften, Wirtschaftswissenschaft, Naturwissenschaften sowie den Ingenieurswissenschaften liberalere Orientierungen auf. Statistisch bedeutsame Unterschiede innerhalb des Lehramtsstudiums konnten jedoch nicht nachgewiesen werden. Die Ergebnisse sprechen insgesamt für eine homogene Fachkultur Lehramt. Ferner deuten die Ergebnisse daraufhin, dass fachkulturelle Prägungen innerhalb des Lehramtsstudium keinen Einfluss haben.



Persönliche Verbindungen zu Lerninhalten herstellen: Einfluss auf Nützlichkeitswert, Intention und akademische Leistung von Studierenden

Clara Mumme, Regina Vollmeyer

Goethe-Universität Frankfurt am Main, Deutschland

Im Rahmen von zahlreichen Theorien (z.B. Erwartungs-Wert-Modell, Selbstbestimmungstheorie) werden in der Bildungsforschung Faktoren postuliert, die neben der Leistung von Lernenden auch ihre Intention (Bereitschaft), das Gelernte zu nutzen und anzuwenden, beeinflussen können. Nach dem Erwartungs-Wert-Modell von Eccles (Eccles & Wigfield, 2002) ist die persönliche Relevanz, die Lernende einer Lernaufgabe zuschreiben, einer der grundlegenden Prädiktoren für Motivation, akademische Leistung, Wahlverhalten und die Intention, sich zukünftig mit den Lerninhalten zu beschäftigen (Hidi & Harackiewicz, 2000; Hidi & Renninger, 2006). Relevanz wird definiert als die persönliche Verbindung eines Individuums mit einem Stimulus (Priniski, Hecht & Harackiewicz, 2018) und kann unter anderem in Form eines hohen Nützlichkeitswerts auftreten. Wenn einem Lerngegenstand, einer Lernaktivität oder einem Lernthema ein hoher Nützlichkeitswert beigemessen wird, nimmt der Lernende diesen Stimulus als nützlich wahr, da dadurch wichtige persönliche Ziele erreicht werden können. Ausgehend von dem Erwartungs-Wert-Modell wurden bisher verschiedene Nützlichkeitswert-Interventionen für Lernende entwickelt, in denen der subjektive Nützlichkeitswert gefördert wird (z. B. Hulleman, Barron, Kosovich & Daniel, 2017). Nützlichkeitswert-Interventionen können zudem das Autonomieerleben der Lernenden fördern (Deci, Eghrari, Patrick & Leone, 2017). In der Selbstbestimmungstheorie nach Deci und Ryan (1985) ist das Autonomieerleben ein wichtiger Prädiktor für intrinsische Motivation und die Intention, Ausdauer bei einer Lerntätigkeit zu zeigen.

Für diese Studie wurde eine Nützlichkeitswert-Intervention für Lehramtstudierende (N = 89) konzipiert, um die Studierenden dazu zu ermutigen, mehr persönliche Verbindungen der Lerninhalte eines Psychologieseminars mit dem späteren Lehrerberuf herzustellen. Unsere Forschungsfrage war, ob sich durch die Auseinandersetzung mit persönlichen Verbindungen zwischen den Lerninhalten und den eigenen beruflichen Zielen zum einen die akademische Leistung und zum anderen die Intention der Studierenden erhöht, nach Abschluss des Studiums die Lerninhalte in der Berufspraxis eigenständig umzusetzen. In Anlehnung an bisherige Forschung (Hulleman et al., 2017; Rosenzweig et al., 2018) war unsere erste Hypothese, dass die Häufigkeit von persönlichen Verbindungen den Nützlichkeitswert und - darüber vermittelt - die Intention der Studierenden, das Gelernte in der Berufspraxis eigenständig umzusetzen (H1a), sowie die akademische Leistung (H1b) in einem Psychologieseminar vorhersagt. Die zweite Hypothese basiert auf den jüngsten Befunden, dass Nützlichkeitswert-Interventionen das Autonomieerleben im Seminar und die Intention der Studierenden fördern, die Lerngegenstände in der späteren Berufspraxis anzuwenden (Dübbers & Schmidt-Daffy, 2019). Daraus resultiere unsere zweite Hypothese, dass die Häufigkeit von persönlichen Verbindungen das Autonomieerleben vorhersagt und einen indirekten Einfluss zeigt auf die Intention der Studierenden, das Gelernte in der Berufspraxis eigenständig umzusetzen (H2a), und die Leistung (H2b) am Ende des Kurses, welcher über das Autonomieerleben vermittelt wird.

Es wurden vier Mediationsanalysen (Regressionen) gerechnet. Die Ergebnisse zur Überprüfung der ersten Hypothese zeigten, dass Studierende, die viele Zusammenhänge zwischen den Lerninhalten und den eigenen beruflichen Zielen herstellten, den Lerninhalten einen höheren Nützlichkeitswert beimaßen (β = .48; p < .001). Der Nützlichkeitswert konnte als Mediator für die Wirkung der persönlichen Verbindungen auf die Intention (β = .38; p < .01) jedoch nicht auf die akademische Leistung (β = .27; p = .09) bestätigt werden. Regressionsanalysen zur Überprüfen der zweiten Hypothese bestätigten, dass Studierende, die häufiger persönliche Zusammenhänge herstellten, sich in dem Seminar als autonomer erlebten (β = .54; p < .001). Das Autonomieerleben konnte jedoch weder die Intention (β = -.07; p = .60) noch die akademische Leistung (β = -.04; p = .79) der Studierenden vorhersagen.



Der Mythos der geborenen Lehrperson – Eine Analyse der Beliefs von Lehramtsstudierenden

Nico Dietrich, Birgit Ziegler

TU Darmstadt, Deutschland

Theoretischer Hintergrund

Die Frage, welche Aspekte eine gute Lehrer*innenpersönlichkeit ausmachen und welche Bedeutung ihr für das System Schule in all seinen Facetten zukommt, ist zweifelsfrei eine der meistdiskutiertesten und ältesten Fragestellungen in der Lehrer_innenbildung der letzten Jahrzehnte (vgl. Mayr 2016). Zwischenzeitlich rückte der Persönlichkeitsansatz im Diskurs der Lehrer*innenbildung deutlich in den Hintergrund (vgl. Neuweg 2010). Allerdings nimmt die Bedeutung der Lehrer*innenpersönlichkeit im aktuellen Diskurs im Vergleich zu einzelnen Kompetenzbereichen wieder zu, insbesondere im Kontext der Eignung für den Lehrberuf (vgl. Herzmann & König 2016). Zudem wird sich mit der Frage nach den Eigenschaften die Lehramtsstudierende vor Beginn ihrer Ausbildung schon mitbringen sollten um explizite Wissensbestände aufbauen zu können, die auf einer impliziten Wissensbasis beruhen, beschäftigt (vgl. Neuweg 2002). Dabei gilt die Biografie, insbesondere die pädagogische Vorerfahrung, als potentiell bedeutsamer Faktor der Entwicklung eines beruflichen Selbstkonzepts, der Berufswahlmotivation und -entscheidung, auch wenn es kritische Stimmen gibt, die vom Mythos pädagogische Vorerfahrung sprechen (vgl. Rothland 2014). Besonders relevant ist in diesem Zusammenhang auch die Bedeutung der Reflexionsbereitschaft der Studierenden für die Lehrer*innenbildung, die immer stärker in den Vordergrund rückt (vgl. Hilzensauer 2017). In Ergänzung zu den bisherigen systematischen Studien, die eher die Kriterien tatsächlicher Eignung oder Studierende mit Berufswahlunsicherheiten im Blick haben, soll nun die eigene Perspektive der Studierenden auf ihre Persönlichkeit in den Fokus genommen werden. Ein besonderes Augenmerk liegt dabei auf Studierenden und Studienanfänger*innen mit hoher Selbstüberzeugung und hoher Berufswahlsicherheit.

Fragestellung

Ist die Überzeugung, eine geborene Lehrkraft zu sein, bei Studienanfänger*innen im Lehramt an Gymnasien und Lehramt an beruflichen Schulen (LaG & LaB) vorhanden, und wenn ja in welcher Ausprägung? Welche persönlichen und biographischen Voraussetzungen führen zu der Entwicklung eines solch positiven Selbstkonzepts hinsichtlich der individuellen Berufswahlentscheidung? In welchem Zusammenhang steht diese Überzeugung mit der Reflexionsbereitschaft der Probanden? Welche Konsequenzen ergeben sich aus dieser Überzeugung für das Studieninteresse und den individuellen Studienverlauf der Probanden?

Methode

Im Zeitraum vom Wintersemester 16/17 bis zum Wintersemester 19/20 wurden insgesamt vier Kohorten Lehramtsstudierender (LaG & LaB) im ersten Semester an der TU Darmstadt erhoben und hinsichtlich ihrer Studienzugangswege und der motivationalen Voraussetzung untersucht. Insgesamt konnten 468 Studierende befragt werden, davon studieren 132 im LaB und 336 im LaG. Es wurden neben der Berufswahlmotivation mit FEMOLA-Skalen (Pohlmann & Möller 2010), der Reflexionsbereitschaft (vgl. Niggli 2004), dem Belief ‚Persönlichkeit‘ (Kreilinger & Ziegler 2018) sowie der Selbstwirksamkeitserwartung (Schwarzer & Schmitz 1999), pädagogische Vorerfahrungen und weitere biographische Aspekte erhoben. Auf Basis dieser quantitativen Daten wurden bisher 19 Lehramtsstudierende des ersten Semesters interviewt, welche in einer Panelstudie an späteren Zeitpunkten ihres Studiums wiederholt qualitativ befragt werden.

Ergebnisse

Die bisherige Datenlage zeigt, dass die Studierenden bei den drei an dieser Stelle beispielhaft ausgewählten Items „Ich habe das Lehramtsstudium gewählt, weil ich denke, dass ich für den Lehrer*innenberuf geboren bin“, „Ich habe das Lehramtsstudium gewählt, weil ich denke, dass ich eine gute Lehrkraft sein werde“ und „Ich habe das Lehramtsstudium gewählt, weil ich denke, dass ich später einmal eine bessere Lehrkraft sein werde als meine eigenen Lehrer*innen“ eine überdurchschnittlich hohe Selbstüberzeugung zeigen und diese Einstellungen miteinander korrelieren. Zudem lässt sich eine klare Verknüpfung von pädagogischen Vorerfahrungen mit einem starken Selbstkonzept feststellen. Die Korrelation zwischen Persönlichkeitsorientierung und dem Interesse an Reflexion ist relativ gering (r = .107*). Es herrscht – dies wird deutlich im qualitativen Interview – ein sehr heterogenes Verständnis von Begrifflichkeiten der Lehrer*innenpersönlichkeit („geboren sein“ / „Talent“ / „Begabungen“) vor. Grundsätzlich sehen die interviewten Studienanfänger*innen einen deutlichen Mehrwert des fachwissenschaftlichen Studiums gegenüber den pädagogischen Anteilen der ersten Phase der Lehramtsausbildung.



Digitale Vorbereitung auf studentische Forschung im Praxissemester – Auswirkungen auf Motivation und forschungsmethodische Kenntnisse

Fabian Schumacher1, Claudia Mertens2, Melanie Basten1

1Universität Bielefeld, Deutschland; 2Technische Hochschule Ostwestfalen-Lippe

Theoretischer Hintergrund

Das Praxissemester in NRW beinhaltet für Lehramtsstudierende die Durchführung von eigenen Forschungsvorhaben mit einem kompletten Durchlaufen des Forschungszyklus nach Huber (2009). Ziel ist die Ausbildung einer Forschenden Grundhaltung als Teil einer Forschungskompetenz (Kullmann, 2011; MSW, 2010). Ein Vorbereitungsseminar soll den Studierenden die forschungsmethodischen Fähigkeiten vermitteln, Forschungsfragen zu entwickeln, den Forschungsprozess zu planen und das Projekt durchzuführen (vgl. Wilde & Stiller, 2011). Mehrere Faktoren erschweren die Ausbildung der Forschenden Haltung. Rahmenbedingungen fordern die Abgabe einer Skizze des Forschungsprojekts nach nur fünf Wochen. Studien weisen auf eine mangelnde forschungsmethodische Kompetenz (Riewerts et al., 2018) sowie eine mangelnde Forschungsmotivation (Fichten, 2010b) bei Studierenden hin.

In dieser Pilotierungsstudie wurden die forschungsmethodischen Inhalte als Inverted Classroom (IC) (bspw. Weidlich & Spannagel, 2014) vermittelt. Der Wissenserwerb geschieht dabei selbstverantwortet und flexibel mit Videos vor den Präsenzsitzungen. In den frei gewordenen, verstärkt konstruktivistisch gestalteten Präsenzsitzungen, werden die Forschungsvorhaben eng mit dem Dozierenden zusammen geplant (vgl. Lage et al., 2000). Im Sinne der Self-Determination-Theory (SDT; Ryan & Deci, 2017) soll sich dies positiv auf die Ausbildung einer Forschenden Haltung auswirken (Fichten, 2010b).

Problematisch ist, dass sich Misserfolgserlebnisse während der Forschungsarbeit negativ auf die Forschende Haltung auswirken (Fichten, 2010b). Die IC-Struktur soll dem im Sinne der SDT begegnen. Autonomie wird im Kurs u.a. durch Flexibilisierung der Wissensaneignung erreicht, wobei Kompetenz sowie soziale Eingebundenheit u.a. durch individuellere Unterstützung in den Sitzungen ermöglicht wird. Es wird angenommen, dass sich IC positiv auf die Grundbedürfnisse (Sergis et al., 2018) und deren Erfüllung sich auf die selbstbestimmte Motivation auswirkt (vgl. Ryan & Deci, 2017). Studienergebnisse zum Nutzen eines IC-Seminars sind widersprüchlich (Giannakos et al., 2018). Positive Befunde (Huang & Hong, 2016; nicht nachweisbare (Chen, 2016) und negative Ergebnisse (Arnold-Garaza, 2014) liegen vor.

Fragestellung

Wie wirkt sich die Gestaltung eines Seminars als IC-Konzepts auf die Erfüllung der Grundbedürfnisse, die motivationale Regulation und den Wissenserwerb aus?

Ergebnisse

Die Gelegenheitsstichprobe dieser Pilotierungsstudie setzt sich aus zwei Vorbereitungsseminaren (MSemester = 8; SoSe 2018) zusammen. Ein Seminar mit IC (N=16; 13 weiblich) und eine Kontrollgruppe ohne IC (KG; N=15; 9 weiblich). Die Seminare folgten einem Vor-/Nachtest-Interventions-Design und waren inhaltlich gleich aufgebaut, bis auf die vorbereitenden Videos zu Forschungsmethoden. Der Workload beider Seminare wurde durch ergänzende Aufgaben in der KG gleich gehalten. Als abhängige Variablen wurden die Erfüllung der Grundbedürfnisse basierend auf der Basic Psychological Needs Scale (BPNS, Deci & Ryan, 2000) erfasst (Autonomie fünf Items; Cronbachs Alpha=.650 (IC) / .814 (KG); Kompetenz sechs Items (Alpha=.888 (IC) / .701 (KG); soziale Eingebundenheit acht Items (Alpha=.734 (IC) / .844 (KG)).

Die motivationale Regulation wurde basierend auf dem Self-Regulation-Questionnaire (SRQ-L, Black & Deci, 2000; Thomas & Müller, 2015) erhoben. Zu drei Tätigkeiten mit Bezug zum Kurs wurden sieben autonome (Alpha=.867 (IC) / .786 (KG)) und sieben kontrollierte (Alpha=.722 (IC) / .831 (KG)) Begründungen für die eigenen Handlungen beurteilt.

Forschungsmethodische Kenntnisse wurden mit Wissensfragen (selbst entwickelt) erfasst.

Beide Gruppen unterschieden sich nach dem Kurs nicht signifikant in ihrer wahrgenommenen Autonomie (t(28)=0.51, p=.62). In der wahrgenommenen Kompetenz unterschieden sie sich tendenziell zugunsten der KG (t(28)=-1.98, p=.06). Die IC-Gruppe empfand jedoch eine höhere soziale Eingebundenheit mit dem Dozierenden als die KG (t(28)=2.35, p=.03).

Es gab keine signifikanten Unterschiede zwischen IC und KG in autonomen (t(28)=-0.12, p=.91) und kontrollierten (t(28)=-0.67, p=.51) Begründungen für das Handeln im Kurs.

Die IC-Gruppe schnitt in dem Test zu den forschungsmethodischen Kenntnissen besser ab als die KG (t(28)=2.11, p=.04).

Diskussion

Durch die Ergebnisse scheint es unplausibel, dass die bessere Leistung hinsichtlich Forschungsmethoden durch ein höheres Kompetenzerleben und eine selbstbestimmtere Motivation im Kurs begründet ist. Plausible Gründe sind hingegen die flexible Nutzbarkeit der Videos und die höhere individuelle, problemorientierte Beratungszeit. Weitere Variablen und Ergebnisse einer qualitativen Studie werden neben Implikationen für die Lehre diskutiert.



Evaluation der Intervention „LMU Teacher Coaching & Training“

Daniel Fiedler, Anne Frenzel

Ludwig-Maximilians-Universität München, Deutschland

Theoretischer und konzeptioneller Hintergrund

Grundlegend für die Entwicklung von Lehrerprofessionalität ist die oft kritisierte erste Phase der Lehrerbildung (vgl. Czerwenka & Nölle, 2014). Ansatzpunkt der Kritik ist, dass im Mittelpunkt des Studiums die spätere Berufstätigkeit der Studierenden nur bedingt im Mittelpunkt steht und dass das Studium durch Zusammenhangslosigkeit, Beliebigkeit und Praxisferne gekennzeichnet sei (Czerwenka & Nölle, 2014, S. 468). In diesem Kontext möchte die „Qualitätsoffensive Lehrerbildung“ von Bund und Ländern eine praxisorientierte Ausbildung von Lehramtsstudierenden etablieren. Eine hier geförderte Maßnahme ist das Projekt “LMU Teacher Coaching & Training” an der Ludwig-Maximilians-Universität München. LMU Teacher Coaching & Training zielt darauf ab, den Berufsfeldbezug zu stärken und die Lehramtsstudierenden bei ihrem professionellen Entwicklungsprozess zu unterstützen. Das Konzept von LMU Teacher Coaching & Training beruht darauf, dass die Intervention von Lehrkräften angeboten werden, die ihrerseits eine Train-the-Trainer-Ausbildung sowie Coaching-Grundausbildung absolviert haben, und regelmäßig an verpflichtenden Super- und Intervisionen teilnehmen. So konnten bereits vereinzelte Studien bei Lehrkräften im Schuldienst positive Effekte von Coachingmaßnahmen auf Dimensionen des Lehrerwissens und das unterrichtliche Handeln (vgl. Garet et al., 2008; Neuman & Cunningham, 2009) nachweisen (Überblick bei Lipwosky, 2014, S. 524-527). Diese positiven Effekte waren laut Lipowsky (2014, S. 526) mit der Bedeutsamkeit von Feedback und mit der Förderung der Lehrerselbstwirksamkeit erklärbar.

Zentrale Outcomes der vorliegenden Studie, für welche wir durch die Coaching-Intervention positive Effekte erwarten (vgl. Lipowsky, 2014, S. 524-527), sind Reflexion(sbereitschaft), Selbstwirksamkeit und (antizipierte) Unterrichtsemotionen. Dabei gehen wir dem Modell von Frenzel (2014) folgend davon aus, dass Wirkungen auf die Unterrichtsemotionen über günstigere Appraisals hinsichtlich Erfolgs- und Misserfolgserlebnissen beim Unterrichten mediiert sind.

Ziel der Studie und Methode

Ziel der vorliegenden Studie ist es, die Wirkung der Intervention „LMU Teacher Coaching & Training“ mittels eines Kontrollgruppen-Messwiederholungsdesigns mit drei Messzeitpunkten (Prä, Post, Follow-up) zu untersuchen. Lehramtsstudierende, die eine „LMU Teacher Coaching & Training“-Veranstaltung belegen, werden mit Lehramtsstudierenden, die eine vom zeitlichen Rahmen und organisatorischen Ablauf vergleichbare fachdidaktische Veranstaltung besuchen („positive control“), vor und nach der Veranstaltung sowie in einem „follow-up“ nach 3 Monaten befragt und miteinander verglichen. Zur Erfassung der Outcomes werden folgende etablierte Fragebogeninventare eingesetzt: Reflexion (Kunter at al., 2017), eine deutsche Übersetzung der Norwegian Teacher Self-Efficacay Scale (NTSES, Skaalvik & Skaalvik, 2007) sowie die Teacher Emotions Scale (TES; Frenzel et al., 2016). Zudem kommen Eigenentwicklungen zur Vignetten-basierten Erfassung von Appraisals von unterrichtsbezogenen Misserfolgen zum Einsatz. Als Kontrollvariablen erfassen wir zudem reflexionsbezogene Selbstwirksamkeit (Fraij, 2018) und Persönlichkeit (NEO-FFI-30, Körner et al., 2008, 2015) sowie ausgewählte Facetten des berufsbezogenen Selbstkonzepts (ERBSE-L, Retelsdorf, et al., 2014).

Ergebnisse

Es liegen noch keine Ergebnisse vor, da die Datenerhebungen aktuell laufen. Zum Zeitpunkt des Kongresses werden Daten einer ersten Interventions- und Kontrollgruppenkohorte vorhanden sein.



Und täglich stören die Schüler – Bedeutsame Ereignisse in Schulpraktika und ihre Bewertung seitens der Studierenden

Anne Böhnert, Deborah Milwa

Universität Kassel, Deutschland

Praxisphasen in der Lehramtsausbildung rücken seit einigen Jahren vermehrt in den Fokus der Lehrer*innenforschung (Arnold, Gröschner & Hascher, 2014), wobei insbesondere untersucht wird, wie Praxisphasen effektiv genutzt werden können und welche Wirkungen sie auf das Erleben oder die Kompetenzentwicklung der Studierenden haben können. Trotz einer großen Beliebtheit von Schulpraxis bei Studierenden, liefert die bisherige Forschung nur wenig Ergebnisse dahingehend, inwiefern Praxisphasen tatsächlich Lernerfolge auslösen oder wie entsprechende Lernprozesse aussehen könnten (Hascher, 2014; Hascher & Kittinger, 2014). Nur vereinzelt erforscht ist dabei auch, mit welchen konkreten Situationen sich Studierende im Praktikum beschäftigen und inwiefern sie diesen selbst Bedeutsamkeit zuschreiben. Dabei könnten gerade Einblicke in bedeutsame Lernsituationen Aufschluss darüber geben, wie Lernprozesse in Praxisphasen initiiert werden können.

In der bisherigen Forschung konnte festgestellt werden, dass Themen wie die Konfrontation mit Schüler*innenverhalten bzw. der Umgang mit Klassenführung sowie Lehr-Lernsituationen im Unterricht und emotionales Belastungserleben von Studierenden als besonders bedeutsam eingestuft werden (Harrison & Lee, 2011). Hascher und Kittinger (2014) konnten in einer Tagebuchstudie insbesondere die Themen Unterrichtsplanung und -reflexion, adaptives Lehrverhalten, Klassenführung, Lernstandsevaluation sowie die Entwicklung der Lehrerrolle aufdecken. Meyer und Kiel (2014) kamen zu dem Schluss, dass besonders Situationen oder Prozesse, die das Selbstbild der Studierenden bedrohten, für diese im Praktikum bedeutsam waren. Zudem scheinen besonders häufig negative Situationen im Fokus der Studierenden zu stehen (Farrell, 2008).

Anknüpfend an die Emotionsforschung ist von einem Zusammenhang zwischen dem Auftreten von Emotionen und der persönlichen Bedeutsamkeit einer Situation auszugehen (Frenzel, 2014). Dabei implizieren negative Gefühle aufgrund einer Inkongruenz zwischen dem Ist-Zustand und dem Ziel-Zustand eine Handlungsnotwendigkeit, während bei positiven Emotionen der Ziel-Zustand bereits erreicht ist - sie sind entsprechend handlungsneutral (Lazarus, 1991; Mees & Schmitt, 2008). Folglich könnte angenommen werden, dass negativ wahrgenommene Situationen im Praktikum ebenfalls einer Folgehandlung bedürfen, während positive Situationen vermutlich eher in sich abgeschlossen wahrgenommen werden.

Der Beitrag möchte untersuchen, welche Situationen von Studierenden in schulischen Praxisphasen als bedeutsame Ereignisse benannt werden und wie diese bewertet werden. Genauer soll untersucht werden, (1) welche Thematiken in den geschilderten Praxissituationen eine Rolle spielen, (2) welche Handlungen und Handlungsträger dabei auftreten, (3) inwiefern die Situationen einer Bewertung zugeordnet werden können und (4) ob vermehrt negative Situationen genannt werden. Abschließend soll untersucht werden, ob (5) negative Situationen weitere Handlungen implizieren, d.h. ob insbesondere im Anschluss an negative Situationen weitere Handlungen geschildert werden.

Zur Beantwortung der Forschungsfrage greifen wir auf Daten von N=1076 Lehramtsstudierenden der Universität Kassel zurück, welche in einem offenen Antwortformat (in Anlehnung an Meyer, 2010) nach besonders bedeutsamen Ereignissen während ihres Praktikums/Praxissemesters befragt wurden. Dabei wurden die Studierenden zum einen aufgefordert, eine Situation im Praktikum zu beschreiben, welche rückblickend für sie am bedeutsamsten war sowie die wichtigste Handlung in dieser Situation zu benennen. Die Antworten werden entsprechend der Fragestellungen mithilfe einer zusammenfassenden qualitativen Inhaltsanalyse (Mayring, 2015) dahingehend analysiert und kategorisiert, (1) welche Thematiken von den Studierenden beschrieben werden, (2) welches die primären Handlungen und Handlungsträger der Situation sind und (3) ob die Situationen und Handlungen negativ, positiv oder neutral beurteilt werden. Bei der Beurteilung wird zwischen dem ursprünglichen Ereignis und der anschließenden Handlung unterschieden.

Die Ergebnisse zeigen, ähnlich der bisherigen Forschungslage, in den Studierendenantworten eine häufige Schilderung von Situationen zu den Themen Unterrichtsstörung und Klassenführung, sowie Unterrichtsgestaltung, Lehrer*innen-Schüler*innen-Beziehungen und Schüler*innenleistung. Darüber hinaus zeigt sich, dass in den Ereignissen zwar durchaus überdurchschnittlich häufig negative Situationen beschrieben werden, diese aber meist durch eine positive Handlung (des Studierenden oder einer Lehrperson) aufgelöst werden. Generell bestätigt sich die Annahme, dass eine negative Situation eine Folgehandlung impliziert, während positive Situationen i.d.R. in sich abgeschlossen berichtet werden. Es wird diskutiert, inwiefern diese Befunde auf unterschiedliche Verarbeitungstypen hinweisen könnten.



Zur Bedeutung der Qualität der Mentor-Mentee-Beziehung für die Zielorientierungen und das Hilfesuchen im Schulpraktikum

Clara Kuhn, Gerda Hagenauer

Universität Salzburg, Österreich

Das Schulpraktikum ist ein essentieller Teil der Lehrer*innenbildung und wird von vielen Lehramtsstudierenden als wichtigster Teil ihrer Ausbildung erachtet (Clarke, Triggs & Nielsen, 2014). Im Schulpraktikum arbeiten die Studierenden mit einer Lehrperson der Schule zusammen, welche in ihrer Rolle als Mentor*in fungiert. Für erfolgreiche Lernprozesse im Schulpraktikum ist es von Bedeutung, dass die Studierenden bei Unklarheiten „Hilfe“ beim*bei der Mentor*in suchen. Doch es ist anzunehmen, dass nicht alle Praktikant*inn*en adaptiv nach Hilfe suchen. Das hilfesuchende Verhalten lässt sich in instrumentelles Hilfesuchen, exekutives Hilfesuchen und das Vermeiden von Hilfesuchen einteilen (Ryan, Patrick & Shim, 2005). Unterschiedliche Faktoren können das hilfesuchende Verhalten erklären. So haben Studien in der Schule und im hochschulischen Bereich gezeigt, dass die Zielorientierungen eine Bedeutung für die Art der Hilfesuche haben. Die Zielorientierungstheorie wird im Bereich Schule oft herangezogen, um die motivationalen Ziele der Schüler*innen in Bezug auf ihr Lernverhalten zu untersuchen. Dahingegen sind die Zielorientierungen von Lehrer*innen und Lehramtsstudierenden erst seit kurzem im Fokus der Forschung. Es werden fünf Zielorientierungen unterschieden: Lernzielorientierung, Annäherungs- und Vermeidungs-Leistungszielorientierung, Arbeitsvermeidung (Spinath, 2009) und Beziehungszielorientierung (Butler, 2012).

Es kann angenommen werden, dass die Qualität der Mentor*in-Mentee-Beziehung bedeutsam sowohl für die Zielorientierung als auch das hilfesuchende Verhalten ist. Da Menschen nach positiven Beziehungen streben (Baumeister & Leary, 1995) und diese eine wesentliche Grundlage für deren Motivation darstellen (siehe z.B. SDT; Ryan & Deci, 2017) wird folglich davon ausgegangen, dass die Qualität der Beziehung die Motivation und das Verhalten im Schulpraktikum bestimmt. Im Hinblick auf die Motivation wird in der vorliegenden Untersuchung auf die Zielorientierungen der Lehramtsstudierenden fokussiert; das Verhalten der Studierenden wird unter dem Aspekt der Hilfesuche näher betrachtet.

Der Studie liegen folgende Fragestellungen zugrunde:

1. Welchen Effekt hat die Qualität der Beziehung von den Studierenden zum*zur Mentor*in auf die Zielorientierungen (als motivationales Merkmal) und das hilfesuchende Verhalten der Studierenden?

2. In welcher Beziehung stehen die Zielorientierungen mit dem hilfesuchenden Verhalten?

3. Inwieweit mediieren die Zielorientierungen den Zusammenhang zwischen Beziehungsqualität und hilfesuchendem Verhalten?

Methodisch wurde eine fragebogenbasierte Querschnittsstudie durchgeführt, bei der österreichische Lehramtsstudierende (N = 146) befragt wurden. Voraussetzung zur Teilnahme war, dass die Studierenden bereits fortgeschritten in ihrem Studium waren und ausreichend Praxiserfahrung hatten. In der Beantwortung des Fragebogens bezogen sie sich auf das zuletzt absolvierte Praktikum. Zur Messung der Beziehungsqualität wurde auf die Skala von Bach (2012) und Schüpbach, (2007) zurückgegriffen; die Skalen zur Messung der Zielorientierungen und zum hilfesuchenden Verhalten wurden für den Praktikumskontext auf Basis bewährter Skalen adaptiert (Retelsdorf et al., 2010; Spinath et al., 2002; Karabenick, 2003). Alle Reliabilitätskennwerte sind zufriedenstellend. Konfirmatorische Faktorenanalysen belegen die faktorielle Validität der adaptierten Skalen zu den Zielorientierungen und dem hilfesuchenden Verhalten im Schulpraktikum.

Zur Modelltestung wurden Pfadanalysen in Mplus berechnet. Die Ergebnisse zeigen, dass die Beziehungsqualität zum*zur Mentor*in einen positiven Effekt auf das instrumentelle Hilfesuchen aufweist, sowie negativ mit dem vermeidenden Hilfesuchen korreliert: Wird die Qualität der Beziehung zum*zur Mentor*in als positiv gesehen, so weisen die Studierenden folglich ein instrumentelles hilfesuchendes Verhalten auf und vermeiden es nicht, nach Hilfe zu fragen. Auch korreliert die Qualität der Beziehung signifikant mit den Zielorientierungen der Praktikant*innen. Entgegen der Erwartungen gibt es allerdings nur geringe Assoziationen zwischen den Zielorientierungen und dem hilfesuchenden Verhalten: Es konnte lediglich ein hoch signifikanter Zusammenhang zwischen der Zielorientierung Anstrengungsvermeidung und dem exekutiven Hilfesuchen gefunden werden.

Der Beitrag überträgt die Forschungslinien Zielorientierungen und hilfesuchendes Verhalten auf das Lernen im Schulpraktikum. Aus den Ergebnissen kann die Schlussfolgerung gezogen werden, dass die Beziehungsqualität im Schulpraktikum eine wichtige Komponente ist, welche die Motivation und insbesondere das hilfesuchende Verhalten der Studierenden wesentlich beeinflusst. Zukünftige Studien sollten Faktoren, welche eine positive Beziehung zwischen Mentor*in und Mentee fördern, vertiefter untersuchen.



Wahrnehmung summativer und formativer Leistungsbeurteilung durch Studierende im Lehramt

Nicole Bellin-Mularski

Universität Potsdam, Deutschland

1 Theoretischer Hintergrund

Die Transparenz von Leistungsbeurteilung und Leistungsbewertung stellen einen

wesentlichen Teil der Merkmale von Qualität in der universitären Lehre dar. Auf der

Mikroebene wird insbesondere die didaktische Qualität der Seminargestaltung

thematisiert, wie auch Aspekte der Kommunikation zwischen Dozenten und Studierenden

(Schmidt, 2008). In wie weit eine Kommunikation über Beurteilungskriterien und

Leistungsanforderungen jedoch stattfindet, ist bislang für Deutschland wenig erforscht

(Tremp & Reusser, 2007; Schaper, 2012). Neben summativen Prüfungsleistungen sollten

im Rahmen der kompetenzorientierten Lehre auch (digitale) formative

Leistungsrückmeldungen in Lehrveranstaltungen umgesetzt werden, da diese die

Studierenden motivieren, eine Reflexion über den Lernstand bieten und somit

lernförderliche Wirkungen haben können (Wildt & Wildt, 2011; Clarke & Boud, 2016;

Broadbent et al., 2017). Auch hier zeigt sich die Notwendigkeit der Transparenz und der

Qualität des Feedbacks (Clarke & Boud, 2016). Die durchgeführte Studie untersucht

explorativ die Wahrnehmung Studierender hinsichtlich summativer und formativer

Leistungsbeurteilung an einer Hochschule. Im Fokus stehen die Wahrnehmung

unterschiedlicher Prüfungs- und Rückmeldeformate, die Transparenz der Kommunikation

und Qualität der Rückmeldung hinsichtlich summativer und formativer Leistungen. Als ein

Instrument zur formativen Leistungsbeurteilung wird das elektronische Portfolio näher

untersucht. Insbesondere in der Lehramtsausbildung bietet das (e)Portfolio den Rahmen

für die Reflexion von Erfahrungen und Lernprozessen, die sich auf das professionelle

Handeln beziehen (Wade & Yarbrough, 1996).

2 Fragestellung

Vor diesem Hintergrund ergeben sich die folgenden Fragestellungen:

1. Welche Formen von Leistungsnachweisen können im Rahmen von Lehrveranstaltungen

erbracht werden?

2. Wie beurteilen die Studierenden die Transparenz und die Kommunikation über

Anforderungen der Leistungsbewertung (sowohl summativ als auch formativ)?

3. Welche Erfahrungen haben Studierende mit formativer Leistungsrückmeldung (u.a.

Einbettung in die Seminargestaltung, Qualität des Feedbacks)?3 Methode

Neben einer Dokumentenanalyse zu Leistungsnachweisen in der Hochschullehre wurde

eine quantitative Fragebogenstudie mit Lehramtsstudierenden an einer Universität

durchgeführt. Insgesamt haben 150 Lehramtsstudierende an der Befragung teilgenommen.

Die Mehrheit studiert auf den Abschluss Lehramt am Gymnasium (87%) und ein kleiner

Teil strebt einen Abschluss für die Grundschule bzw. Sekundarstufe I an (13%). Die

Fragenkomplexe umfassten u.a. Items zur Häufigkeit formativer Verfahren, Einschätzung

der Transparenz und Kommunikation zu formativen Leistungsrückmeldungen (Walzik,

2012). Weiterhin wurden Studierende befragt, die Erfahrungen mit der Erstellung von

Portfolios im Lehramtsstudium haben. Die Fragen zielten auf die Einschätzung der

Portfolioarbeit hinsichtlich des Nutzens für die berufliche Praxis (6 Items; α = .87) und der

Wichtigkeit der Reflexion (4 Items; α = .73). Weiterhin wurden Aspekte abgefragt, die sich

auf die Erfahrung mit Portfolioarbeit (3 Items, α = .91) und auf den weiteren

Informationsbedarf (2 Items; α = .62) beziehen.

4 Ergebnisse

In einer ersten deskriptiven Analyse werden die Ergebnisse zur Dokumentenanalyse und

zur Einschätzung der Kommunikation über die Anforderungen der Leistungsbeurteilung

dargestellt. In den Modulordnungen sind sowohl summative als auch formative

Leistungsnachweise verankert. Formative Elemente werden in den Seminaren jedoch

selten umgesetzt und auch Feedbackregeln kaum besprochen. Deutlich wird weiterhin,

dass Studierende Prüfungsformate bevorzugen, die auf summative Aspekte abzielen und

sich im Anschluss wenig bis kaum mit ihrem Lernergebnis und Lernprozess

auseinandersetzen. In der weiteren Auswertung zeigt sich, dass insbesondere für das

Portfolioformat detaillierte Anforderungen und Kriterien durch die Dozentinnen und

Dozenten formuliert und gemeinsam besprochen werden sollten. Hier besteht ein

besonders hoher Informationsbedarf. Für eine formative Auswertung von Portfolios ist es

darüber hinaus wichtig ein Feedbackgespräch zu führen. Feedback durch andere

Studierende wird eher als wenig förderlich eingeschätzt, wenn keine Standards

kommuniziert werden. Dies belegen auch internationale Studien (Carless et al., 2011).

Insbesondere im Lehramtsstudium wäre eine Vermittlung und Umsetzung von

prozessbezogener Leistungsbewertung von Bedeutung und sollte als Teil der

Prüfungskultur an Hochschulen stärker etabliert werden.



Lehrerprofessionalität im Bereich der geographischen Perspektive des Sachunterrichts - Überzeugungen und fachdidaktisches Wissen von angehenden Grundschullehrpersonen

Melanie Haltenberger

Universität Augsburg, Deutschland

Grundlage der Studie bildet das Modell der professionellen Handlungskompetenz von Lehrpersonen (Baumert & Kunter 2006), wonach Professionswissen und Überzeugungen als zwei zentrale Aspekte für den Lernerfolg von Schülerinnen und Schüler erachtet werden. Fachdidaktisches Wissen als Teilbereich des Professionswissens wird vor allem in der ersten und zweiten Ausbildungsphase erworben, während Überzeugungen sich überwiegend vor oder während der Studienzeit herausbilden (Hartmann 2019, Krauss et al. 2008, Kuhl et al. 2013). Eine Entwicklung und Veränderung der beiden Konstrukte ist daher im Verlauf der universitären Lehramtsausbildung sowie im Rahmen längerfristiger Interventionsprogramme möglich (Doll 2004, Schlichter 2012). Bislang liegen überwiegend Ergebnisse aus dem naturwissenschaftlichen und mathematischen, jedoch nicht für den geographischen Bereich vor. Zudem konzentrieren sich die vorhandenen Studien meist auf Kompetenzen der Schüler(innen) oder auf Sekundarstufenlehrpersonen.

Vor dem Hintergrund der skizzierten Forschungsdesiderata ist das zentrale Anliegen dieser Studie, Ausprägungen und Veränderbarkeit von Überzeugungen und fachdidaktischem Wissen im Bereich der geographischen Perspektive des Sachunterrichts zu untersuchen. Daher wird der Frage nachgegangen, welches fachdidaktische Wissen und welche Überzeugungen Grundschullehramtsstudierende zur geographischen Perspektive des Sachunterrichts aufweisen und inwieweit sich diese durch universitäre Ausbildung verändern lassen. Die Zielgruppe stellen angehende Grundschullehrpersonen ab dem dritten Semester dar.

Anhand einer empirisch, quasi-experimentellen Interventionsstudie im Prä-, Post- und Follow- Up Design werden die Überzeugungen und das fachdidaktische Wissen von Grundschullehramtsstudierenden (N=500) mittels Fragebogen zu drei Messzeitpunkten erfasst. Eine Teilgruppe der Stichprobe (N=250) besucht als Intervention ein Seminar zur geographischen Perspektive im Sachunterricht. Der andere Teil der Befragung (N=250) fungiert als Kontrollgruppe, um Effekte des Fragebogens ausschließen zu können und besucht ein klassisches Sachunterrichtsseminar. Die Studie wird nicht nur an der Universität Augsburg, sondern auch an anderen Universitäten durchgeführt.

Erste Ergebnisse der Pilotstudie des Pretests (N=80) zeigen, dass Grundschullehramtsstudierende vor allem Belange der Nachhaltigkeit (M=4,1; Bezug: fünfstufige Likert-Skala), den Raum als Container (M=4,2) und das Mensch-Umwelt-System (M=3,9) bei geographischen Fragestellungen fokussieren. Erklären lässt sich dies u.a. durch die Tatsache, dass Grundschullehramtsstudierende in Bayern über kein dezidiertes Fachstudium verfügen und daher eher auf „klassische“ geographische Fragestellungen und Themen zurückgreifen. Auch kann gezeigt werden, dass durch die Intervention und die gezielte Vermittlung fachdidaktischen Wissens eine Veränderung in die intendierte Richtung bewirkt wird. Auf dem Poster werden erste Ergebnisse aus der Hauptstudie (N=240) im Prä-Post-Vergleich präsentiert



(Praxis-)Reflexion durch Mehrebenen-Mentoring in der frühen Praxisphase von Lehramtsstudierenden – eine Anwendung der Grounded-Theory

Ute Volkert, Frances Hoferichter

Universität Greifswald, Deutschland

Theoretischer Hintergrund

In der Lehreraus- und -weiterbildung wird Reflexion als Basiskonstante für den beruflichen Selbstlernprozess verstanden (Niggli, 2004). Korthagen und Kollegen (2002) definieren Reflexion als einen mentalen Prozess, der die (Re-)Strukturierung von Erkenntnissen, einer Erfahrung, eines Problems oder bereits existierenden Wissens beinhaltet. Studien zeigen, dass Reflexionsprozesse insbesondere durch die kontinuierliche Begleitung von Mentor*innen unterstützt und angeregt werden (Hobson, Ashby, Malderez, Tomlinson, 2009). Obwohl mittlerweile eine Vielzahl von theoretischen Modellen zu Reflexionsprozessen in der Literatur zu finden ist, gibt es nur wenige empirische Studien zur Rolle von Mentoren für Reflexionsprozesse in den frühen Praxisphasen des Lehramtsstudiums. Die vorliegende Studie greift dieses Desideratum auf, indem die Wirksamkeit eines Mehrebenen-Mentorings in Form von (1) Peer-, (2) Schul- und (3) Tandem-Mentoring für Reflexionsprozesse von Lehramtsstudierenden in der ersten Praxisphase ihrer universitären Ausbildung qualitativ untersucht wird. Peer-Mentoren sind Studierende, die das Schulpraktikum bereits absolviert haben, Schul-Mentoren sind Lehrpersonen aus den Praxisschulen. Als Tandem-Mentoren werden Studierende bezeichnet, die gleichzeitig ihr Praktikum an der Praxisschule absolvieren, d.h. zwei Praktikanten durchlaufen ihr Praktikum gemeinsam und unterstützen sich somit gegenseitig.

Fragestellung

Die vorliegende Studie untersucht folgende Fragestellungen:

1. Welche Aspekte des Mehrebenen-Mentorings unterstützen den Reflexionsprozess von Lehramtsstudierenden im ersten Schulpraktikum aus der Sicht der Studierenden?

2. Wie werden Peer-, Schul- und Tandem-Mentor in ihrer Rolle für die Reflexionsprozesse in der Praxisphase von den Praktikanten wahrgenommen?

Methodisches Vorgehen

An der Studie nahmen 38 Studierende zwischen dem vierten und siebten Fachsemester (24 weiblich, MAlter= 24,84) des Lehramtes für Regionalschule (n= 9) und Gymnasium (n = 29) nach Abschluss ihres semesterbegleitenden Schulpraktikums im Winter- und Sommersemester 2017 bis 2018 teil. Mit den Studierenden wurden semi-strukturierten Leitfadeninterviews zu Reflexionsprozessen in Bezug auf die Begleitformate Schulmentor, Peermentor und Tandemmentor geführt. Die Interviews wurden mittels Grounded Theory (Strübing 2008) analysiert, wobei zum Organisieren, Kodieren von Interviewdaten, Anfertigen von Memos, Auswerten und Erstellen des aufkommenden Modells MAXQDA Analytics Pro 2018 genutzt wurde.

Ergebnisse

Folgende sechs Kernkategorien und Subkategorien wurden aus den Interviewsequenzen ermittelt: 1. Reflexion, 2. Verfügbarkeit, 3. Unterstützung, 4. gemeinsame Basis, 5. Beziehung, 6. Teamgeist. Für die Kernkategorie (1) Reflexion nannten die befragten Studierenden den Austausch miteinander, das Reden und Nachdenken über Beobachtungen und Wahrnehmungen an der Praxisschule wie auch die Kommunikation im Allgemeinen. Darüber hinaus wurde die Kernkategorie (2) Verfügbarkeit von Tandem-, Schul- und Peer-Mentoren herausgearbeitet, welche durch semantische Konzepte wie den Kontakt zueinander und die gemeinsame Zeit für Reflexionsprozesse bei Bedarf abgebildet wird. Als weitere Kernkategorie wurde (3) Unterstützung mit den beiden Subkategorien emotional und konstruktiv herausgearbeitet. Dabei beschreibt die emotionale Unterstützung die Reduzierung von Unsicherheit in der Praxisphase und die konstruktive Unterstützung bezieht sich auf Koordination und Organisation von - sowie Unterstützung bei - Aufgaben im Schulkontext wie auch an der Universität. Als weitere Kernkategorie wurde die (4) gemeinsame Basis herausgearbeitet, welche sich nur auf die Rolle des Tandem-Mentors bezieht. In diesem Sinne wurden von den Studierenden ein gemeinsamer Erlebnishorizont, geteiltes kontextinternes Wissen und ähnliche Fähigkeiten genannt, welche den Reflexionsprozess unterstützen. Des Weiteren stellt die Kernkategorie (5) Beziehung einen Aspekt für das Gelingen von Reflexion dar. Diese Kernkategorie beschreibt die Beziehung zum Tandem-, Schul- und Peer-Mentor in verschiedener Intensität. Eine weitere Kernkategorie stellt der (6) Teamgeist dar, der im Rahmen des Mehrebenen-Mentorings erlebt wurde. Der Teamgeist bezieht sich beispielsweise auf die Verlässlichkeit, die Verantwortung und das Vertrauen, die Zugehörigkeit, den Zusammenhalt, das Gemeinschaftsgefühl, die Akzeptanz und den gegenseitigen Respekt.

Insgesamt zeigen die Ergebnisse, dass Reflexionsprozesse während der ersten Praxisphase in der Lehramtsausbildung durch Mentoring unterstützt werden können und dabei Schul-Peer- und Tandem-Mentoren unterschiedliche Rollen einnehmen. Implikationen für die Lehramtsausbildung werden diskutiert.

 

Datum: Freitag, 27.03.2020
9:00 - 10:45F9‒S24: Making video more than but a tool – Effektive Nutzung eigener, fremder und inszenierter Unterrichtsvideos in der Lehrkräfteausbildung
S24 
 

Making video more than but a tool – Effektive Nutzung eigener, fremder und inszenierter Unterrichtsvideos in der Lehrkräfteausbildung

Chair(s): Christopher Neil Prilop (Leuphana Universität Lüneburg, Deutschland), Kira Elena Weber (Leuphana Universität Lüneburg, Deutschland), Marc Kleinknecht (Leuphana Universität Lüneburg, Deutschland)

DiskutantIn(nen): Bernadette Gold (Universität Erfurt)

Ziele des Symposiums

Im Symposium werden Ergebnisse von vier videobasierten Studien im Kontext der Lehrkräfteausbildung präsentiert. In den Studien wurden authentische fremde und inszenierte Unterrichtsvideos zum Training und eigene Unterrichtsvideos zur Reflexion und zur Messung von professionellen Kompetenzen eingesetzt. Das Symposium bietet einen umfassenden Überblick über die effektive Implementierung von verschiedenen Unterrichtsvideotypen in der Lehrkräfteausbildung.

Theoretischer Hintergrund

Unterrichtsvideos werden weltweit zunehmend in der Lehrkräfteausbildung eingesetzt (Gaudin & Chaliès, 2015; Major & Watson, 2018), da sie die Komplexität von Unterrichtssituationen abbilden (Borko et al., 2009) und als situierter Stimulus dienen können, um die professionelle Kompetenz von Lehrkräften zu fördern (Seidel & Stürmer, 2014; Kersting, 2008). Des Weiteren ermöglichen sie eine eingehende Analyse, indem bestimmte Situationen wiederholt beobachtet und untersucht werden können (Sherin, 2007). In der Lehr-Lern-Forschung werden einerseits Videos des eigenen Unterrichts (eigene Videos) und andererseits Videos fremder Lehrpersonen (fremde Videos) eingesetzt um professionelle Kompetenzen von Lehrkräften zu fördern (z.B., Seidel et al., 2011; Hellermann et al., 2015; Weber et al., 2018). Fremde Videos können entweder authentischen Unterricht zeigen oder inszeniert sein (Piwowar et al., 2017). Neben videobasierten Interventionen zur Professionalisierung von Lehrkräften, werden Unterrichtsvideos zunehmend auch zur Kompetenzmessung eingesetzt (Seidel & Thiel, 2017).

Zusammenfassung der Einzelbeiträge

Im ersten Beitrag stellen Bönte, Gösch und Göbel Ergebnisse der kooperativen Videoreflexion von eigenen Unterrichtsvideos im Setting Reflective Team auf die Einstellungen in Bezug auf Feedback und den Nutzen videobasierter Reflexion auswirkt. Mit einem quasi-experimentellen Design konnten sie feststellen, dass Studierende, die eigene Unterrichtssequenzen während des Praxissemesters in Kleingruppen reflektierten, Feedback positiver einschätzten als die Experimentalgruppe ohne eigenes Video. In Bezug auf den Nutzen videobasierter Reflexion zeigten sich nur signifikant positive Entwicklungen für die Experimentalgruppe mit eigenem Video.

Im zweiten Beitrag befassen sich Prilop, Weber und Kleinknecht mit dem Effekt von Videoanalysen und ExpertInnenfeedback auf die professionelle Wahrnehmung von Klassenführung. Studierende analysierten authentische fremde Unterrichtsvideos auf einer Onlineplattform. Teilnehmende der Interventionsgruppe erhielten zusätzlich ExpertInnenfeedback im Anschluss an ihre Analysen. Mit einem Prä-Intervention-Post-Test Design konnten sie erfassen, dass ExpertInnenfeedback zu einer signifikant höheren Steigerung der professionellen Wahrnehmung bei Studierenden der Interventionsgruppe führte als bei Teilnehmenden der Kontrollgruppe ohne ExpertInnenfeedback.

Im dritten Beitrag präsentieren Wilkes, Stark, Trempler und Stark Ergebnisse einer Studie zur Förderung anwendbaren bildungswissenschaftlichen Wissens. In einem quasi-experimentellen Prä-Post-Design analysierten Lehramtsstudierende inszenierte fremde Videos, die entweder funktionale oder dysfunktionale Herangehensweisen zeigten. Studierende, die das dysfunktionale Video vor dem funktionalen analysierten, schnitten in den Anwendungsaufgaben besser ab als die funktional-dysfunktional Gruppe. Eine nicht-videobasierte Kontrollgruppe erreichte schlechtere Ergebnisse als beide Videogruppen.

Im letzten Beitrag befassen sich Weber, Greve, Brandes und Maier mit der Entwicklung der Unterrichtsqualität von Sportstudierenden während der Praxisphase. Eigene Unterrichtsvideos wurden mithilfe des CLASS K-3 geratet. Ihre Auswertungen zeigen, dass sich die Unterrichtsqualität nicht signifikant durch die Praxisphase verbesserte. Im Hinblick auf die Dimension Instructional Support stellte sich die Frage, inwiefern das CLASS K-3 Verfahren auch für die Analyse von Sportstunden anwendbar ist.

Struktur des Symposiums

Im Symposium werden Studien präsentiert, die authentische oder inszenierte fremde Videos zur Kompetenzförderung nutzten sowie Forschungsprojekte, die eigene Videos zur Professionalisierung oder Kompetenzmessung einsetzten. Während die Beiträge von Prilop et al., Weber et al. und Bönte et al. quantitative Verfahren verwendeten, wurden bei Wilkes et al. quantitative und qualitative Daten herangezogen. Bernadette Gold als Diskutantin weist umfassende Expertise im Bereich fremder und eigener Videos auf sowie bezogen auf die Entwicklung videobasierter Testinstrumente.

Wissenschaftliche Signifikanz des Symposiums

Die Studien zeigen, dass für die Einbindung von Videos in Lehrpläne, Interventionen und Testungen sorgfältig ausgewählte Kurs- und Studiendesigns erforderlich sind, um das volle Potenzial von Unterrichtsvideos auszuschöpfen. Daher ist die in diesem Symposium vorgestellte Forschung von hoher praktischer Relevanz und bietet Einblicke in die Implementierung von Unterrichtsvideos an verschiedenen Standorten.

 

Beiträge des Symposiums

 

Potentiale und Grenzen der kooperativen videogestützten Unterrichtsreflexion im Praxissemester der Lehrpersonenausbildung

Julia Bönte, Andreas Gösch, Kerstin Göbel
Universität Duisburg-Essen

Theoretischer und empirischer Hintergrund

Über die Vermittlung theoretischer Konzepte hinaus gehört die Schaffung von Möglichkeiten zur Erprobung und Weiterentwicklung von Kompetenzen zu den zentralen Zielen der Lehramtsausbildung (Oser, 2001). Dabei können „[…] Lernangebote […] zur theoriegeleiteten Reflexion von Praxisproblemen […]“ (Lersch, 2006, 175) die angehenden Lehrpersonen unterstützen, ein tieferes Verständnis der theoretischen Konzepte zu erlangen sowie gleichzeitig ihre Handlungskompetenzen zu erproben und zu festigen. Insbesondere die videogestützte Unterrichtsreflexion kann diesen Prozess vielfältig unterstützen (Göbel & Gösch, 2019).

Der Nutzen von Unterrichtsvideos in der Aus-, Fort- und Weiterbildung von Lehrkräften wurde bereits hinreichend empirisch bestätigt (u. a. Seidel & Thiel, 2017). Kooperative Reflexionsstrukturen haben sich zur Reflexionsunterstützung als besonders ertragreich erwiesen, da durch den Austausch neue Anregungen und Impulse entstehen können (Wyss, 2013). Relevant für die Ausübung professionellen Reflexionshandelns sind positive Einstellungen gegenüber der Unterrichtsreflexion (Ajzen, 1991). Da die Reflexion eigener Unterrichtsvideos mit einer hohen persönlichen Relevanz einhergeht (Kleinknecht & Schneider, 2013), scheint insbesondere in der Lehrpersonenausbildung ein sensibler Umgang mit der Reflexion von Videoaufzeichnungen wichtig. Das aus der systemischen Beratung entstammende Konzept des Reflecting Teams (Andersen, 1990) kann daher eine sinnvolle Grundlage für eine strukturierte Reflexion im kooperativen Setting bieten, um positive Einstellungen gegenüber Unterrichtsreflexion zu begünstigen (Göbel & Neuber, 2018) und die Reflexionskompetenzen der Studierenden zu entwickeln (Krieg & Kreis, 2014).

Fragestellung

Wird die kooperative Videoreflexion im Reflecting Team als ertragreich erlebt und hat sie einen Einfluss auf die Veränderung der Einstellung zum Feedback im Reflexionskontext?

Methode

In einem quasi-experimentellen Kontrollgruppendesign erhielten Praxissemesterstudierende (Experimentalgruppe mit eigenem Video: n=21, Experimentalgruppe ohne eigenes Video: n=36) Gelegenheit zur videogestützten Reflexion eigenständig durchgeführter Unterrichtsstunden. Die Reflexion über drei- bis fünfminütige Videoausschnitte, deren inhaltliche Ausrichtung eine von den Studierenden gewählte Facette von Unterrichtsqualität bildete (Helmke, 2015), erfolgte in Anlehnung an das Reflecting Team (Andersen, 1990) mit Unterstützung von Reflexionsprompts (Goeze, Hetfleisch & Schrader, 2013). Die Teilnehmenden wurden mittels Prä-Post-Fragebogenerhebung zu ihrer Einstellung zu Feedback (Behnke, 2016; Skala Feedbackkultur im Allgemeinen; α=.67) sowie zur Einschätzung des Ertrags videogestützter Reflexion (Kleinknecht, Ottinger & Schneider, 2014; Skala Ertrag von videobasierter Unterrichtsreflexion; α=.83) befragt. Die Kontrollgruppe (n=26) nahm an einem Seminar im gleichen Studienmodul mit anderem thematischen Fokus teil.

Ergebnisse

Bezüglich der Einstellung zu Feedback ergab die RM-ANOVA keine signifikanten Haupteffekte für Zeit (F(1.00, 65.00)=0.760, p=.386) und Gruppe (F(1.00, 65.00)=0.773, p=.466), jedoch einen signifikanten Interaktionseffekt zwischen Zeit und Gruppe (F(2.00, 65.00)=3.613, p=.033, partielles η²=.10). Die Einstellung zu Feedback stieg in der Experimentalgruppe mit eigenem Video deutlich stärker an als in den anderen beiden Gruppen (Mprä=3.40, SDprä=0.36; Mpost=3.57, SDpost=0.24). In der EG ohne eigenes Video sowie in der Kontrollgruppe fand keine signifikante Veränderung statt.

Für den empfundenen Ertrag von videobasierter Unterrichtsreflexion ergab die RM-ANOVA keinen signifikanten Haupteffekt für Zeit (F(1.00, 45.00)=1.295, p=.261), jedoch einen signifikanten Haupteffekt für die beiden Experimentalgruppen (F(1.00, 45.00)=19.163, p<.001, η²=.06) sowie einen signifikanten Interaktionseffekt (Signifikanz auf 10%-Niveau) zwischen Zeit und Gruppe (F(1.00, 45.00)=3.017, p=.087, η²=.07). In der EG mit eigenem Video veränderte sich die Bewertung des Ertrags von videobasierter Unterrichtsreflexion positiv, die Veränderungsanalyse zeigte signifikante Ergebnisse für diese Gruppe (Mprä=3.16, SDprä=0.42; Mpost=3.36, SDpost=0.39). In der EG ohne eigenes Video fand keine signifikante Veränderung statt.

Die Ergebnisse weisen insgesamt auf eine positivere Entwicklung der Reflexionseinstellung von Studierenden mit eigenem Unterrichtsvideo hin, gerade diese Gruppe profitiert von dem eingesetzten Reflexionssetting. Mittels größerer Stichproben sollen weitere Analysen zur Wirksamkeitsprüfung erfolgen. Zudem sollen weitere qualitative Analysen erfolgen, um die Reflexionsqualität im Reflexionsprozess vertiefend zu untersuchen.

 

Förderung der professionellen Wahrnehmung von Klassenführung von Lehramtsstudierenden durch online Videoanalyse und Expertenfeedback

Christopher Neil Prilop, Kira Elena Weber, Marc Kleinknecht
Leuphana Universität Lüneburg

Theoretischer Hintergrund

Effektive Klassenführung hat einen bedeutenden Einfluss auf die kognitiven, affektiven und motivationalen Ergebnisse von SchülerInnen (Hattie, 2009). Produktive Klassenführung zeichnet sich durch eine Lernumgebung aus, die einen hohen Anteil von time-on-task gewährleistet (Evertson & Emmer, 2012; Gold & Holodynski, 2017). Um solche Lernumgebungen aufrechtzuerhalten, benötigen Lehrkräfte professionelle Wahrnehmung von Klassenführung (PWKF; van Es & Sherin, 2002). PWKF umfasst die Fähigkeit, klassenführungsrelevante Ereignisse im Unterricht erkennen und interpretieren zu können (Hellermann et al., 2015). Bisherige Studien konnten zeigen, dass Lehramtsstudierende ihre PWKF durch die Analyse fremder und eigener Unterrichtsvideos im Rahmen universitärer Trainings verbessern können (Gold et al., 2013; Hellermann et al., 2015; Weber et al., 2018). Obwohl eine Kombination eigener und fremder Videos die PWKF von Lehramtsstudierenden am wirksamsten zu fördern scheint, wird der Einsatz eigener Videos durch strikten Datenschutz und hohen organisatorischen Aufwand eingeschränkt (Prilop et al., 2020). Fremde Videos können daher umfassender in Seminare und Fortbildungen eingebunden werden. Fadde und Sullivan (2013) und Weber et al. (2018) konnten aufzeigen, dass die Wirkung fremder und eigener Videos durch ExpertInnenfeedback erhöht werden konnte. Die vorliegende Studie untersucht daher in einem Prä-Post-Kontrollgruppendesign folgende Fragestellung:

Inwiefern verbessern Lehramtsstudierende ihre professionelle Wahrnehmung von Klassenführung durch Videoanalyse fremder Unterrichtsvideos in einer online Lernumgebung, die entweder ExpertInnenfeedback beinhaltet (Interventionsgruppe: IG) oder kein ExpertInnenfeedback bietet (Kontrollgruppe: KG)?

Methode

Die Intervention wurde mit 54 Lehramtsstudierenden im vierten Mastersemester durchgeführt. Die Studierenden nahmen an zwei identischen blended learning Seminaren zur Videobasierten Professionalisierung von Lehrkräften teil. Im Seminar analysieren die Studierenden Unterrichtssequenzen fremder Lehrpersonen in Bezug auf Facetten der Klassenführung (Monitoring/ Strukturierung/ Regeln und Routinen). Die Videoanalysen fanden auf der online Lernplattform Moodle während der Präsenzsitzungen statt. In beiden Seminaren wurden Studierende zufällig der IG bzw. KG zugeordnet. Auf die schriftlichen Analysen erhielten die Studierenden der IG (n=25) online Feedback von der Seminarleitung (Expertenfeedback), während die KG (n=29) kein Feedback erhielt.

Die PWKF wurde mithilfe eines standardisierten, videobasierten Tests gemessen (Gold & Holodynski, 2017). Neben einer allgemeinen PWKF wurden die Facetten Monitoring, Strukturierung und Regeln und Routinen erfasst.

Ergebnisse

Varianzanalysen und multivariate Varianzanalysen zeigten, dass die Kontrollgruppe sich nicht signifikant in Bezug auf die PWKF verbesserte, Wilks‘ Lambda: KG, F(3,26)=2.407, p=.09, ηp2=0.22, während die Interventionsgruppe signifikante Verbesserungen der PWKF, F(1,24)=19.247, p<.001, ηp2=0.45, und der Facetten Monitoring, F(1,24)=7.953, p=.009, ηp2=0.25, Strukturierung, F(1,24)=14.755, p<.001, ηp2=0.38, und Regeln und Routinen, F(1,24)=15.945, p<.001, ηp2=0.40, aufwies. Des Weiteren zeigte sich ein signifikanter Interaktionseffekt (Zeit x Gruppe) für die Facette Regeln und Routinen, F(1,52)=4.618, p=.036, ηp2=0.08. Demnach verbesserten sich Studierende, die ExpertInnenfeedback erhielten, signifikant mehr als Teilnehmende der KG.

Diskussion

Konträr zu vorherigen Studien (Gold et al., 2013) verbesserte sich die PWKF nicht in der Gruppe, die ohne ExpertInnenfeedback fremde Videos analysierte. Dies kann einerseits auf die kürzere Gesamtzeit an Videoanalysen zurückgeführt werden und andererseits den Videotyp. In der Studie von Gold et al. (2013) analysierten Studierende eine größere Anzahl an fremden Videos und auch Videos, die gesamte Stunden wiedergaben. Insbesondere die Analyse von gesamten Unterrichtsstunden könnte ein höheres Maß an Komplexität bieten, die für die Entwicklung von PWKF notwendig ist (Sherin et al., 2009). Des Weiteren zeigte sich, dass ExpertInnenfeedback zu einer höheren Steigerung von PWKF führte. Dies bestätigt die Ergebnisse von Fadde und Sullivan (2013) und Weber et al. (2018). Da ExpertInnen relevante Klassenführungssituationen effektiver wahrnehmen (Wolff et al., 2015), können sie Lehramtsstudierende gezielt auf entscheidende Situationen hinweisen. ExpertInnenfeedback kann somit als “specific lens for observing and analyzing” (Santagata & Angelici, 2010, S. 346) aufgefasst werden.

Insgesamt zeigte unsere Studie, dass ExpertInnenfeedback die Effektivität fremder Unterrichtsvideos steigern lässt. Unsere Studie deutet darauf hin, dass konkretes, personalisiertes Feedback verstärkt in die universitäre Lehre eingebunden werden sollte.

 

Videobasiertes advokatorisches Lernen aus Fehlern – ein Ansatz zur Förderung anwendbaren bildungswissenschaftlichen Wissens bei Lehramtsstudierenden

Theresa Wilkes1, Lisa Stark1, Kati Trempler2, Robin Stark1
1Universität des Saarlandes, 2Bergische Universität Wuppertal

Theoretischer Hintergrund

Der Begriff der Evidenzorientierung hat im bildungswissenschaftlichen Sektor an Bedeutung gewonnen (Stark, 2017). Die Fähigkeit von Lehrkräften, bildungswissenschaftliches Wissen anzuwenden, wird als wichtiger Teil ihrer professionellen Kompetenz angesehen (Baumert & Kunter, 2006; KMK, 2014). Allerdings zeigen Lehramtsstudierende und erfahrene Lehrkräfte Schwierigkeiten bei der Anwendung bildungswissenschaftlichen Wissens (z.B. Hetmanek et al., 2015): Sie besitzen träges Wissen (Renkl, 2018). Um dieser Problematik entgegenzuwirken bzw. die Wissensanwendung in diesem Feld zu fördern, sollten in der universitären Lehramtsausbildung instruktionale Ansätze herangezogen werden, die bildungswissenschaftliche Theorien und Forschungsergebnisse mit der Schulpraxis verknüpfen. Vielversprechend erscheint hier eine Integration von Konzepten wie dem advokatorischen Lernen aus Fehlern (Oser et al., 2012; Oser, Hascher & Spychiger, 1999) und situiertem, fallbasiertem Lernen mittels inszenierten Unterrichtsvideos (scripted videos; Piwowar et al., 2017). Inszenierte Unterrichtsvideos ermöglichen die Darstellung eines funktionalen und eines dysfunktionalen Verlaufs derselben Unterrichtssituation und dabei die exemplarische Anwendung bildungswissenschaftlicher Evidenz im konkreten Handlungskontext (ebd.). Beim videobasierten advokatorischen Lernen aus Fehlern lernen die Studierenden aus Fehlern einer Lehrkraft bzw. eines Videomodells, indem sie unter Berücksichtigung ihres bildungswissenschaftlichen Wissens (1) “Fehler”, das heißt für den Unterrichtsverlauf dysfunktionale Handlungsweisen erkennen, (2) diese durch die Kontrastierung mit funktionalen Handlungsweisen rekonstruieren und (3) Unterschiede zwischen beiden reflektieren (Oser, 2007; Oser & Spychiger, 2005). Ausgehend von der Kritik am Lernen aus Fehlern, dass dysfunktionale Handlungsmöglichkeiten elaboriert und nicht durch funktionale „überschrieben“ werden könnten (siehe Mecalfe, 2017), stellt sich die Frage, ob anstelle des dysfunktionalen zunächst der funktionale Verlauf präsentiert werden sollte. Diese Fragestellung steht im Zentrum der hier dargestellten Studie. Untersucht werden mögliche Reihenfolgeeffekte sowie Effekte videobasierten advokatorischen Lernens aus Fehlern generell auf die Anwendung bildungswissenschaftlichen Wissens.

Methode

In einer Interventionsstudie mit einem einfaktoriellen dreistufigen quasi-experimentellen Prä-Post-Design bearbeiteten N=153 Lehramtsstudierende eine Lernumgebung zum Classroom Management (CM), in der neben Lernmaterial zum CM ein dysfunktionales und ein funktionales Unterrichtsvideo (Freie Universität Berlin, 2018) eingesetzt wurden. Die Gruppe dys-fun (N=53) analysierte zunächst das dysfunktionale Video und kontrastierte dieses mit dem funktionalen. Bei der Gruppe fun-dys (N=55) war die Reihenfolge umgekehrt. Instruktionale Unterstützung der Videoanalysen (Barth et al., 2019) wurde in beiden Gruppen durch dieselben Reflexions- und Kontrastierungsprompts gewährleistet, welche auf der Theorie des Lernen aus Fehlern (Oser, 2007), dem Modell der Theorieanwendung (Beck & Krapp, 2006), den Schritten der professionellen Unterrichtswahrnehmung (Sherin & van Es, 2009) sowie der Skripttheorie (Fischer et al. 2013) basierten. Die Kontrollgruppe th (N=45) erhielt nur das Lernmaterial zum CM, aber keine Videopräsentation.

Ergebnisse

Entsprechend unserer Hypothese (dys-fun>fun-dys>th) ergab eine ANOVA signifikante Unterschiede (F(2,150)= 59.42, p<.001, η2p=.429) in der Wissensanwendung (6 Posttest-Aufgaben; max. 28 Punkte; α= .73). Bonferroni-korrigierte Post-hoc-Tests ergaben signifikante Unterschiede zwischen den einzelnen Gruppen (alle p<.001). Die Gruppe dys-fun (M=14.24, SD=3.41) schnitt in den Anwendungsaufgaben besser ab als fun-dys (M=10.69, SD=3.0); th (M=6.81, SD=3.69) zeigte eine schlechtere Leistung als dys-fun sowie fun-dys.

Diskussion

Die Überlegenheit von videobasiertem advokatorischen Lernen aus Fehlern gegenüber nicht videobasiertem, „traditionellem“ Lernen könnte dadurch erklärt werden, dass die Videos die theoretischen Konzepte anschaulich illustrierten sowie Anwendungsmöglichkeiten spezifizierten (Stark et al., 2002). Erste inhaltsanalytische Auswertungen der Prozessdaten weisen darauf hin, dass insbesondere das dysfunktionale Video und die Kontrastierung mit dem funktionalen zu Selbsterklärungen und einer tieferen Verarbeitung beitrugen (Durkin & Rittle-Johnson, 2012). Die Überlegenheit der Reihenfolge dys-fun gegenüber fun-dys könnte auf die Entstehung eines kognitiven Konflikts nach der Beschäftigung mit dem Lernmaterial hindeuten, der durch die Kontrastierung mit dem funktionalen Handeln aufgelöst wurde (Piaget, 1986). Bei fun-dys könnten im Gegenzug Verstehensillusionen verursacht worden sein (Glenberg, Wilkinson & Epstein, 1982). Insgesamt ließ die Studie keine Anhaltspunkte für eine Kritik am Lernen aus Fehlern erkennen. Speziell videobasiertes advokatorisches Lernen aus Fehlern scheint ein vielversprechender Ansatz im Kontext einer evidenzorientierten Lehramtsausbildung zu sein.

 

Wie entwickelt sich die Unterrichtsqualität von Lehramtsstudierenden während der Praxisphase – Eine videobasierte Analyse mit dem CLASS-PRE-K-3

Kira Elena Weber1, Steffen Greve1, Björn Brandes2, Jessica Maier3
1Leuphana Universität Lüneburg, 2Universität Osnabrück, 3Universität Hamburg

Theoretischer Hintergrund

Fächerübergreifend werden drei Basisdimensionen der Unterrichtsqualität unterschieden, die sich auf Klassenführung, kognitive Aktivierung und emotionale Unterstützung beziehen (Klieme & Rackoczy, 2008; Pianta & Hamre, 2009). In der universitären Lehramtsausbildung sollen insbesondere schulpraktische Phasen dazu beitragen, den Erwerb dieser unterrichtlichen Kompetenzen zu fördern (Gröschner et al., 2015). Bisherige Studien zur Wirksamkeit von Praxisphasen fokussieren jedoch zumeist selbsteingeschätzte Kompetenzen und professionelles Wissen. Entsprechend existieren bislang nur wenige empirische Befunde, die überprüfen, inwiefern Praxisphasen das konkrete unterrichtliche Handeln von Lehramtsstudierenden verbessern (Gröschner, Klaß & Dehne, 2018). Die vorliegende Studie begegnet diesem Forschungsdesiderat und analysiert, ob und in welchen Bereichen sich das Handeln von Lehramtsstudierenden im Fach Sport während der Praxisphase verändert. Um Unterrichtsqualität beurteilen zu können, bieten sich hoch-inferente videobasierte Analysen des Unterrichts an (Lotz, Gabriel & Lipowsky, 2013). Ein im internationalen Raum etabliertes Verfahren stellt das Classroom Assessment Scoring System (CLASS) von Pianta, La Paro und Hamre (2008) dar.

Methode

Die Stichprobe umfasste 11 Sportstudierende (Malter = 23.85, SDalter = 1.68) die eine 16wöchige Praxisphase im zweiten Mastersemester durchliefen. Die Studierenden erhielten drei Beratungsbesuche im Fach Sport. Es wurden je drei Unterrichtsstunden vor dem ersten Besuch und drei Unterrichtsstunden nach dem letzten Unterrichtsbesuch gefilmt und mit CLASS K-3 (Pianta, La Paro & Hamre, 2008) ausgewertet. CLASS bezieht sich auf die drei Basisdimensionen von Unterrichtsqualität und umfasst verschiedene Subdimensionen (siehe Tabelle 1). Die Videos wurden anhand einer 7-stufigen Ratingskala (1-2 = niedrig, 3-5 = mittlerer range, 6-7 = hoch; Pianta et al., 2008) von zwei lizensierten CLASS RaterInnen unabhängig voneinander geratet. Als Reliabilitätsindikator wurde der PWO (percent-within-one) verwendet (Pianta et al., 2008). Danach gelten Werte von +/- 1 als übereinstimmend. Ein Ratingcyle besteht aus zwanzigminütigen Beobachtungsphasen (live oder videobasiert) und einer zehnminütigen Rating Phase. Der PWO wurde für jeden Cycle einzeln berechnet: 82%-100% (Cycle 1),73%-100% (Cycle 2),91%-100% (Cycle 3),73%-100% (Cycle 4),82%-100% (Cycle 5) und 91%-100% (Cycle 6).

Ergebnisse

Unsere Ergebnisse zeigen, dass sich die Unterrichtsqualität der Studierenden nicht durch die Praxisphase verändert. Signifikante Verbesserungen zeigten sich nur in der Subdimension Negative Climate, t(10)=5.93, p <.001. Die Studierenden erreichen in ihrer Klassenführung und ihrer emotionalen Unterstützung bereits zu Beginn des Praktikums Werte im hohen mittleren Bereich (Klassenführung zu T1: M = 4.85, SD = .22 und zu T2: M = 4.90, SD = .47; Emotionale Unterstützung zu T1: M = 4.84, SD = .27 und zu T2: M = 4.97, SD = .47). Die Werte für kognitive Aktivierung liegen hingegen im niedrigen Bereich (T1: M = 1.85, SD = .38 und zu T2: M = 1.81, SD = .37).

Diskussion

Die Praktikumsbegleitung ist darauf ausgerichtet, insbesondere die Planungs- und Reflexionskompetenz der Lehramtsstudierenden zu fördern. Zudem handelt es sich bei der Praxisphase um ein Fachpraktikum, sodass in den Unterrichtsnachgesprächen vorranging fachliche Inhalte besprochen werden. Die nicht signifikanten Veränderungen ließen sich hierdurch erklären. Die signifikante Verbesserung bei Negative Climate könnte daran liegen, dass die Studierenden während ihrer ersten eigenen Unterrichtsstunden angespannter waren als am Ende des Praktikums. Im Vergleich zu Studien mit erfahrenen Lehrkräften (Pianta et al., 2008; Longobardi et al., 2018) sind die Ergebnisse in den Dimensionen Klassenführung und emotionale Unterstützung vergleichbar (Werte im oberen mittleren Bereich). Für die Dimension kognitive Aktivierung gibt es bislang keine Studien mit Sportlehrkräften, sodass die Ergebnisse unserer Studie nicht mit anderen vergleichbar sind. Obwohl CLASS fächerübergreifend einsetzbar ist, stellt sich die Frage, ob das Ratingverfahren auch im Hinblick auf diese Dimension für die Analyse von Sportunterricht geeignet ist. Auf der Konferenz werden diese Aspekte vertiefend diskutiert.

 
11:15 - 13:00F11‒S24: Computergestütztes Lehren und Lernen in der beruflichen Bildung
S24 
 

Computergestütztes Lehren und Lernen in der beruflichen Bildung

Chair(s): Stephan Abele (TU Dresden), Stephan Schumann (Universität Konstanz)

DiskutantIn(nen): Dirk Ifenthaler (Universität Mannheim)

Aufgrund des dynamischen Wandels der Arbeitswelt spielt Digitalisierung in der beruflichen Bildung im Vergleich zu anderen Bildungsbereichen eine besonders wichtige Rolle. Vor diesem Hintergrund adressiert das Symposium auf einer generellen Ebene die Digitalisierung von Lehr-Lern-Prozessen in der beruflichen Bildung. Angesichts der vergleichsweise geringen wissenschaftlichen Erschließung der berufsbildenden Domäne sind die Ziele des Symposiums bewusst breit angelegt: Erstens werden Effekte computerbasierter Lehr-Lern-Umgebungen in der kaufmännischen und gewerblich-technischen Ausbildung mithilfe zweier quasi-experimenteller Studien untersucht und damit zwei zentrale Berufsfelder adressiert (Beiträge von Spener & Schumann sowie von Leon & Abele). Zweitens widmet sich das Symposium der theoriegestützten Entwicklung und Evaluation digitaler Umgebungen (Tools), die eine valide Diagnostik individueller Lernstände und Lernverläufe sowie eine bedarfsgerechte Unterstützung ermöglichen sollen (Beiträge von Warwas & Kärner sowie von Rausch et al.). Im Zentrum stehen somit Fragen, ob und unter welchen Bedingungen digitale Lehr-Lern-Umgebungen effektives Lernen in der beruflichen Ausbildung ermöglichen, und wie Computerumgebungen für individuelles Lernen und adaptives Lehren genutzt werden können, womit angesichts der äußerst heterogenen Schülerschaft an berufsbildenden Schulen zentrale Herausforderungen aufgegriffen werden.

(1) Spener und Schumann präsentieren in ihrem Beitrag die Befunde einer quasi-experimentelle Studie mit kaufmännischen Auszubildenden (n≈400). Im Mittelpunkt steht die Frage, ob mit dem Einsatz einer integrierten Unternehmenssoftware im berufsschulischen Unterricht das Geschäftsprozesswissen in der kaufmännischen Ausbildung effektiv gefördert werden kann. Vorgestellt werden die Effekte von vier Interventionsbedingungen. Die aktuell vorliegenden Ergebnisse zeigen zwar einen erwartbaren Anstieg des Geschäftsprozesswissens, jedoch keine substanzielle Überlegenheit einer der verglichenen Gruppen. Jedoch deutet sich an, dass v.a. leistungsstärkere Auszubildende vom Einsatz der Unternehmenssoftware profitieren.

(2) Leon und Abele untersuchen bei gewerblich-technischen Auszubildenden in einer ebenfalls quasi-experimentellen Studie (n≈300), welche Wirkungen computerbasiertes Feedback vs. Lehrpersonenfeedback auf den Erwerb von problemlöserelevantem Wissen und der Problemlösefähigkeit im Bereich der Elektrotechnik haben. Das Treatment wurde jeweils in einer nach dem Four-Component-Instructional-Design-Ansatz (van Merriënboer & Kirschner, 2017) gestalteten Lernumgebung umgesetzt. Die bislang zur Verfügung stehenden Daten legen nahe, dass das Lehrerfeedback effektiver ist als das Computerfeedback. Differenzielle Analysen deuten an, dass motivierte Lernende in beiden Bedingungen ähnlich viel lernen, wogegen weniger Motivierte beim Computerfeedback weniger lernen als beim Lehrerfeedback.

(3) Im Mittelpunkt der Studie von Warwas und Kärner stehen das didaktische Potential und erste Befunde zur Qualität eines Teachers' Diagnostic Support Systems (TDSS). TDSS ist eine von den Autoren entwickelte digitale Umgebung für die kontinuierliche Diagnose von Lernständen und Erlebensqualitäten, die Echtzeiteingaben und -analysen erlaubt und damit Lehrpersonen dabei unterstützen kann, Lernende im Unterricht trotz Zeitdruck auf der Basis einer validen Diagnostik bedarfsgerecht einzuschätzen und zu fördern. Die befragten Lehrkräfte beruflicher Schulen attestierten TDSS eine hohe Bedienerfreundlichkeit und Nützlichkeit.

(4) Rausch et al. diskutieren die Potenziale und Konzeption einer computerbasierten Arbeitsplatzsimulation zur Förderung der Problemlösekompetenz kaufmännischer Auszubildender. Vorgestellt werden die Konzeption der Software-Architektur sowie die Anforderungen an die Definition von Problemszenarien und sogenannter Scoring Rubrics. Der Fokus liegt auf der Implementierung einer logdatenbasierten Echtzeitanalytik, anhand derer sowohl den Lehrerinnen und Lehrern als auch den Lernenden valide Rückmeldungen zum Lernprozess gegeben und Lernhilfen während der Problembearbeitung bedarfsgerecht zur Verfügung gestellt werden können.

Die Interventionsstudien (Beiträge 1 und 2) legen nahe, dass berufliche Kompetenzen mit computerbasierten Lehr-Lern-Umgebungen effektiv gefördert werden können, wobei das nur unter spezifischen Bedingungen zu gelten scheint. Die Ergebnisse beider Interventionsstudien deuten an, dass derartige Lern- und Feedbackumgebungen mit Nachteilen für lernschwächere Auszubildende einhergehen können, was u.a. dafür sensibilisiert, bei der Gestaltung solcher Umgebungen v.a. auch die Bedarfe lernschwacher Auszubildender zu berücksichtigen. Diese Befunde machen darauf aufmerksam, dass die „Digitalisierung“ von Bildungsprozessen „Matthäus-Effekte“ verschärfen kann. Die Beiträge zu den Computerumgebungen mit Echtzeitanalyse zeigen Wege auf, wie die individuellen Bedürfnisse im Lernprozess systematisch beachtet und damit die Lernpotentiale in heterogenen Lerngruppen optimal genutzt werden können.

 

Beiträge des Symposiums

 

Der Einsatz von integrierter Unternehmenssoftware und expliziter Modellierung zur Förderung des Geschäftsprozesswissens kaufmännischer Auszubildender

Claudio Spener, Stephan Schumann
Universität Konstanz

Ausgehend von ihrer Rolle als betriebswirtschaftliches Organisationsprinzip hat sich die Geschäftsprozessorientierung zu einem immer bedeutsamer werdenden Gestaltungsprinzip in der kaufmännischen Bildung entwickelt (Busian, 2006; Schlicht, 2019; Tramm, 2009). Der Einsatz von integrierter Unternehmenssoftware, den sogenannten ERP-(Enterprise-Ressource-Planning)-Systemen, ist heute in der Mehrzahl der mittelständischen und großen Unternehmen zentraler Bestandteil der Planung, Steuerung und Kontrolle betrieblicher Abläufe (Gadatsch, 2012; Mertens et al., 2017; Zimmermann, 2016). Dem ERP-Einsatz wird im kaufmännischen Unterricht in der beruflichen Schule als Ausgestaltung einer geschäftsprozessorientierten Didaktik das Potential zur Förderung des Geschäftsprozesswissens zugesprochen, insbesondere bei dem begleitenden Einsatz von Modellierungstechniken wie den Ereignisgesteuerten Prozessketten [EPKs] (Arndt, 2006; Frötschl, 2015; Häuber, 2009). EPKs beschreiben den Ablauf des Prozesses mithilfe von Ereignissen (z. B. „Ware ist eingetroffen“), die im Unternehmen Aktivitäten (z. B. „Wareneingang prüfen“) auslösen, die wiederum Ereignisse zur Folge haben (z. B. „Wareneingang ist geprüft“). Theoretisch lässt sich die Förderung des Geschäftsprozesswissens durch das Lernhandeln in und an den im ERP-System abgebildeten bzw. explizit modellierten Geschäftsprozessen in der Tradition der Handlungsorientierung (Aebli, 1980, 1981; Hacker, 1978; Resch, 1988; Volpert, 1983; vgl. Tramm, 2009) und der Sensory Semantic Theory (Achtenhagen & Getsch, 2000; Arndt, 2006; Getsch & Preiß, 2003; Nelson, 1979) bzw. der Cognitive Theory of Multimedia Learning (Mayer, 1989, 2005; Soffer, Kaner & Wand, 2012) begründen. Empirisch sind die Annahmen zur Wirksamkeit des ERP- und/oder EPK-Einsatzes bislang jedoch kaum geprüft (Frötschl, 2015; Schlicht, 2019). Für den berufsschulischen Einsatzbereich liegt nur eine Studie mit Kontrollgruppendesign vor: Im Querschnitt vergleicht Zardini (2012) die Employability (Beschäftigungsfähigkeit) angehender Bürokaufleute (n=120) in der dualen und der vollzeitschulischen Ausbildung mit und ohne den Einsatz von ERP und der Prozessmodellierung (EPK). Vorteile für die Versuchsgruppe (ERP+EPK) zeigen sich nur für das Konstrukt der analytischen Problemlösefähigkeit, hier könnte (bei Annahme vergleichbarer Eingangsvoraussetzungen) der Einsatz der Prozessmodellierung zu einem verbesserten Geschäftsprozessverständnis geführt haben. Sonstige Studien haben, wenn überhaupt, evaluativen Charakter.

Als Forschungsdesiderat wird neben der generellen Frage nach dem Stellenwert des ERP-Einsatzes im Unterricht (Busian, 2011; Schlicht, 2019) auf den vermuteten Effekt des kombinierten Einsatzes von ERP-Systemen und der Prozessmodellierung hingewiesen (Getsch & Preiß, 2003). Die Studie untersucht vor diesem Hintergrund diese Effekte mittels eines quasiexperimentellen Pre-/Posttest-Designs mit Industriekaufleuten (n≈240) und Einzelhandelskaufleuten (n≈160) im 2. Ausbildungsjahr an 12 Beruflichen Schulen in Baden-Württemberg. In der neun Einzelstunden umfassenden Intervention wird der Basis-Geschäftsprozess thematisiert. Dabei werden bei den Industriekaufleuten mit 2x2 Interventionsbedingungen die verbreiteten Materialien (ERP ohne Prozessmodellierung mittels EPK, vgl. Hahn & Häuber, 2014), deren Ergänzung um die Prozessmodellierung (ERP+EPK), die alleinige Modellierung (EPK) sowie als weitere Gruppe die „übliche“ schulische Praxis (no Treatment) verglichen. Die Einzelhandelskaufleute werden in zwei Gruppen (ERP vs. no-Treatment) aufgeteilt.

In den beiden ERP-Versuchsgruppen der Industriekaufleute (mit/ohne EPK) liegen die Daten zum gegenwärtigen Zeitpunkt vollständig vor. Die IRT-skalierten Leistungsdaten des Geschäftsprozesswissens zeigen für die Entwicklung des WLE-Schätzers keinen signifikanten Interaktionseffekt zwischen dem Messwiederholungsfaktor und der Gruppenzugehörigkeit (F(1, 114) = 2.79, p = .098, partielles η2 = .024). Der Haupteffekt der Intervention ist signifikant (F(1, 114) = 10.66, p = .001, partielles η2 = .086). Moderiert wird der Anstieg des Geschäftsprozesswissens durch die BWL-Note des 1. Lehrjahrs (F(1, 114) = 4.55, p = .035, partielles η2 = .038): Vor der Intervention unterschieden sich nur die Mittelwerte der WLE-Schätzer der Auszubildenden, die als BWL-Note eine 3 oder schlechter angaben (M3+ = .265), signifikant von denjenigen mit einer 2 (M2 = .641) und einer 1 (M1 = .894); nach der Intervention alle drei voneinander (M3+ = .398; M2 = .827; M1 = 1.435; p < .05). Diese Ergebnisse deuten darauf hin, dass von dem Einsatz von ERP-Systemen vor allem leistungsstärkere Auszubildende profitieren – unabhängig davon, ob der ERP-Einsatz von der Prozessmodellierung flankiert wurde oder nicht (Leistung über Fachnote erfasst). Folgeanalysen werden derartigen ATI-Effekten verstärkt nachgehen.

 

Computerbasiertes Erlernen beruflichen Problemlösens – unterschiedliche Feedbackformen, unterschiedliche Lerneffekte?

Andreas Leon, Stephan Abele
TU Dresden

Angesichts des Forschungsstands (z.B. Hattie & Wollenschläger, 2014) wird unterstellt, dass Feedback das computergestützte Erlernen beruflichen Problemlösens substantiell beeinflusst. Wenig untersucht ist die Frage, die sich Lehrkräften im Kontext digitalen Lernens stellt: Wie sollte Feedback im computerbasierten Unterricht aussehen? Möglich ist es, Feedback im Klassenkontext und ähnlich wie im traditionellen Unterricht zu geben. Im Vergleich dazu ist ein Feedback via Computer eher aufwändig, aber potentiell individueller und mit Blick auf den digitalen Wandel der Berufs- und Lebenswelt wohl auch mit einer höheren Akzeptanz verbunden. Aus Forschungssicht wäre ein intelligentes, adaptives computerbasiertes Feedback wünschenswert (Narciss, 2008), aus praktischer Sicht ist ein solches Feedback gegenwärtig aber eher unrealistisch, weil es kaum entsprechende Softwarelösungen gibt. Unter gleichzeitiger Berücksichtigung des Forschungsstands und der Unterrichtspraxis beschäftigt sich der Beitrag mit den Effekten eines Lehrer- und Computerfeedbacks in einer digitalen Lernumgebung zur Förderung beruflichen Problemlösens in der Domäne „Elektrotechnik“. Untersucht wird, ob sich die Effekte beider Feedbackformen unterscheiden und inwiefern die Effekte von Lernendenvoraussetzungen abhängen.

Die Lernumgebung wurde in Orientierung am Four-Component-Instructional-Design-Ansatz (van Merriënboer & Kirschner, 2017) entwickelt und beinhaltet 12 Lernprobleme (entwerfen und analysieren authentischer elektrischer Schaltungen), die sich auf drei nach aufsteigender Komplexität angeordneten Lernklassen verteilen. Die Umgebung enthält Links zu Erklärvideos (Strategieerwerb) und berufstypischen Informationsmaterialien (Wissenserwerb) sowie Übungsaufgaben zu häufig wiederkehrenden Anforderungen (Fertigkeitserwerb). Beim Computerfeedback konnten die Lernenden direkt nach der Bearbeitung eines Lernproblems eigenständig auf das Feedback bzw. digitale Musterlösung sowie erläuternde Informationen zugreifen. Beim Lehrerfeedback erhielt die gesamte Klasse nach Bearbeitung mehrerer Lernprobleme zu definierten Zeitpunkten eine strukturierte Rückmeldung anhand eines vorgefertigten Skripts sowie Antworten auf individuelle Fragen. Es wurde jeweils ein erklärendes Feedback (Musterlösung mit kommentiertem Lösungsweg) nach Butler et al. (2013) gegeben.

Angenommen wurde, dass die Wirkung beider Feedbackformen vom Lernpotential, d.h. den kognitiven (Vorwissen, IQ) und motivationalen Voraussetzungen der Lernenden abhängt: Bei „Lernschwächeren“ sollte das Lehrerfeedback wirksamer sein als das Computerfeedback, da die Lehrkraft die Lernenden durch das Feedback „führt“, was die Selbstregulierungsanforderung, das Überforderungsrisiko und die kognitive Belastung (Sweller et al., 2011) minimiert. „Lernstärkere“ sollten dagegen eher vom Computerfeedback profitieren, da es ein individuelles Lerntempo und Autonomieerleben ermöglicht (Deci & Ryan, 1985). Da beide Feedbackformen lernbezogene Vor- und Nachteile aufweisen, wurde keine Hypothese zum generellen Effekt formuliert, sondern exploratorisch untersucht, ob eine Feedbackform effektiver ist.

Es wurde eine quasi-experimentelle Studie in einem Prä-Post-Test-Design mit zwei Gruppen (Lehrkraft- vs. Computerfeedback) durchgeführt und eine Gelegenheits- sowie Klumpenstichprobe (N=300, 9 Klassen, 1. Ausbildungsjahr, Elektro- und Metallberufe) gezogen. Erfasst wurden der Lernerfolg (Wissen, Problemlösen), Intelligenz, Motivation und Vorwissen (α>.74). Die Intervention dauerte inklusive Feedback 210 min.

Aufgrund einer zeitlich gestuften Erhebung wurden bislang Daten von 213 Probanden ausgewertet. Bezogen auf die Lernvoraussetzungen unterschieden sich die Gruppen nicht. Nach der Intervention schnitt die Lehrerfeedback-Gruppe besser ab als die Computerfeedback-Gruppe (F(1, 199)=8.09, p<.01, dcorr=.28). Bezogen auf die kognitiven Voraussetzungen offenbarten die Moderatoranalysen keine, bezogen auf die Motivation schwache differenzielle Effekte (F(1, 194)=5.10, p<.05, R²change=.02): Wenig Motivierte profitierten demnach stärker vom Lehrerfeedback als Motivierte. Die Analyse der region of significance (Hayes, 2014, S. 238 ff.) belegte, dass sich die Effekte der Feedbackformen im oberen Motivationsbereich nicht mehr unterscheiden. Allerdings kehrte sich der Effekt nicht um, d.h. das Computerfeedback war bei sehr Motivierten nicht effektiver als das Lehrerfeedback.

Die Studie zeigt, dass sich die Effekte erklärenden Feedbacks bereits bei einer relativ kurzen Interventionszeit abhängig von der Darbietungsform substantiell unterscheiden können und computerbasiertes Feedback für wenig Motivierte lernhinderlich sein kann. Es werden Implikationen für die Feedbackgestaltung, Unterschiede beider Feedbackformen und daran anknüpfend potentielle Gründe der Effektunterschiede diskutiert. Denkbar ist z.B., dass Motivation die Nutzungsintensität des Computerfeedbacks beeinflusst und wenig Motivierte deshalb beim Computerfeedback weniger lernen als beim Lehrerfeedback, was in einer Replikationsstudie mit Logfileanalysen untersucht wird.

 

Unterrichtsbegleitende Erfassung von Lernständen und Erlebensqualitäten: Evaluation eines Client-Server-basierten Unterstützungssystems für Lehrkräfte

Julia Warwas1, Tobias Kärner2
1Universität Göttingen, 2Universität Konstanz

Um didaktischen Gestaltungsaufgaben wie der Schaffung adaptiver Lernumgebungen (z. B. Brühwiler & Blatchford, 2011) oder der Gewährung individueller Rückmeldungen und konstruktiver Hilfestellungen (z. B. Hattie & Wollenschläger, 2014; Minnameier et al., 2015) gerecht zu werden, bedarf es formativer Assessments (im Überblick z.B. Schütze et al., 2018). Digitale Systeme, die Lehrkräfte bei der Erfüllung dieser Aufgaben unterstützen, sind gegenwärtig jedoch an deutschen Schulen lediglich ansatzweise in Gebrauch (vgl. die Beiträge in Hasselhorn et al., 2014). Dies unterstreicht auch eine systematische Sichtung der Funktionsumfänge marktgängiger digitaler Anwendungen (Kärner et al., 2019). Sie lässt erkennen, dass Systemfunktionen zur gezielten Analyse, Integration und Darstellung verschiedener unterrichts- und schülerbezogener Informationen aktuell unterrepräsentiert sind. Im Regelfall sammeln Lehrkräfte diagnostische Informationen, die unmittelbar für didaktische Maßnahmen der Lernbegleitung und -unterstützung verwertet werden könnten, nach wie vor nur beiläufig und routinebasiert durch subjektive Spontaneindrücke. Unterstützungsbedürftig scheint diese gängige Praxis jedoch angesichts empirischer Hinweise auf unzureichende diagnostische Kompetenzen von Lehrpersonen bzgl. nicht-kognitiver Merkmale ihrer Schüler/innen (z.B. Südkamp, Praetorius & Spinath, 2017; Stang & Urhahne, 2016) sowie auf eine erhöhte Fehleranfälligkeit diagnostischer Urteile in laufenden Unterrichtsprozessen, in denen u.a. Zeit- und Handlungsdrücke sowie die beschränkte Beobachtbarkeit lernrelevanter Erlebensqualitäten (bspw. situative Interessiertheit) die Informationsverarbeitung der Lehrkräfte erheblich erschwert (Warwas et al., 2015).

Vor diesem Hintergrund berichten wir Konstruktionsprinzipien und Evaluationsbefunde eines digitalen Unterstützungssystems für kontinuierliche Diagnosen von Lernständen und Erlebensqualitäten, das unter der Zielstellung entwickelt wurde, bei einem unterrichtsbegleitenden Einsatz sowohl informatorisch reichhaltig als auch flexibel und ökonomisch handhabbar zu sein. Das als Client-Server-Modell implementierte Teachers' Diagnostic Support System (TDSS; Kärner et al., eingereicht) erlaubt die Erfassung schüler- sowie lernkontextbezogener Informationen und bietet verschiedene Analyse- und Darstellungsoptionen in Echtzeit, um die erhobenen Daten zu verdichten und aufeinander zu beziehen. Hierzu gehören etwa schülerindividuelle Entwicklungsverläufe oder unterrichtliche Erlebensqualitäten in Abhängigkeit von unterrichtlichen Sozialformen.

Im Frühjahr 2019 wurde die Bedienerfreundlichkeit und Nützlichkeit einer Prototyp-Version des TDSS durch praktizierende Lehrkräfte an beruflichen Schulen in Bayern und Niedersachsen einer ersten Prüfung unterzogen (14 Teilnehmer/innen; 4 männlich, 10 weiblich; Ø 34 Jahre alt; Ø 6 Jahre Berufserfahrung). Alle Lehrkräfte füllten einen für Anwendungszweck und -kontext des TDSS adaptierten Fragebogen aus, der mittels geschlossener und offener Fragekategorien zentrale Design-Standards der ISO (International Organization for Standardization, 9241 Teil 10) für Softwareprogramme mit grafischen Benutzeroberflächen widerspiegelt. Im Einzelnen sind die Kriterien Aufgabenangemessenheit, Selbstbeschreibungsfähigkeit, Steuerbarkeit, Erwartungskonformität, Fehlerrobustheit, Individualisierbarkeit sowie Erlernbarkeit einzuschätzen (Hamborg & Gediga, 2002). Im Ergebnis zeigen sich überwiegend positive Beurteilungen des TDSS, die sich auf einer fünfstufigen Antwortskala im Bereich von 3.73 für die Aufgabenangemessenheit bis 4.55 für die Fehlerrobustheit bewegen. Eine Sichtung der offenen Antworten lässt Wünsche u. a. bzgl. einer Optimierung der Menüführung, zusätzlicher Speicher- und Abrufmöglichkeiten für hinterlegte Dokumente (z. B. Sitzpläne, Notenlisten) sowie mehr Freiheiten für lehrpersonenindividuelle Systemkonfigurationen erkennen.

Der Beitrag erörtert zum einen, welche Konsequenzen aus der Evaluationsstudie für die Weiterentwicklung des Diagnoseunterstützungssystems gezogen werden können. Zum anderen setzt er sich mit unterrichtspraktischen Implikationen der Systemnutzung unter organisatorischen und didaktischen Gesichtspunkten auseinander.

 

Problem Solving Analytics (PSA) – Konzeption einer logdatenbasierten Echtzeitrückmeldung beim Lernen in einer computerbasierten Bürosimulation

Andreas Rausch1, Jürgen Seifried1, Viola Deutscher1, Esther Winther2, Steffen Brandt3
1Universität Mannheim, 2Universität Duisburg-Essen, 3opencampus.sh, Kiel

Der Beitrag diskutiert die Potenziale und Konzeption einer computerbasierten Bürosimulation zur Förderung der Problemlösekompetenz kaufmännischer Auszubildender. Der Fokus liegt auf der Implementierung einer logdatenbasierten Echtzeitanalytik, die unter anderem automatisierte Hilfestellungen während der Problembearbeitung ermöglicht.

Kaufmännische Arbeitsplätze wiesen lange Zeit hohe Anteile repetitiver Routinetätigkeiten auf, die jedoch zunehmend automatisiert oder ausgelagert werden. Daher rückt die Bewältigung komplexer Problemstellungen stärker in den Fokus kaufmännischen Handelns (Autor, Levy & Murnane, 2003; Bonin, Gregory & Zierahn, 2015; Brötz et al., 2014; Frey & Osborne, 2017; Zehnhäusern & Vaterlaus, 2017; Zobrist & Brandes, 2017). Problemstellungen im kaufmännischen Kontext sind i. d. R. analytische Probleme (Leutner et al., 2005) und üblicherweise Metaprobleme (Jonassen, 2000), die sich als Bündel verschiedener Problemtypen (z. B. algorithmische Probleme, Diagnoseprobleme, Entscheidungsprobleme etc.) darstellen. Diese authentischen, analytischen Metaprobleme variierender Komplexität (Dörner, 1996; Funke, 2003) bezeichnen wir als Problemszenarien. In der Berufsausbildung gibt es allerdings nur wenige Möglichkeiten, solche Problemszenarien selbstständig zu bearbeiten. Ziel des durch das BMBF geförderten Projekts „Problemlöseanalytik in Bürosimulationen (PSA-Sim)“ ist es daher, authentische Problemszenarien für die kaufmännische Ausbildung zu entwickeln, die in einer computerbasierten Bürosimulation bearbeitet werden. Eine logdatenbasierte Echtzeitanalyse ermöglicht die Identifikation individueller Strategien, Fortschritte und Fehler im Problemlöseprozess (Rausch et al., 2017). Auf Basis dieser Analytik werden individualisierte und automatisierte Hilfestellungen i. S. e. Scaffolding ermöglicht (z. B. Informationen zu Fachtermini, Rechenalgorithmen etc.), die den Problemlöseprozess fördern sollen. Der Beitrag geht der Frage nach, wie diese logdatenbasierten Hilfestellungen aus technischer und fachdidaktischer Sicht zu konzipieren sind.

Die dem Projekt PSA zugrundeliegende Software-Architektur weist vier Komponenten auf. (1) Die Bearbeitung der Problemszenarien durch die Lernenden erfolgt in einer simulierten Büroumgebung („PSA-Office“), die typische Werkzeuge wie E-Mail-Client, Ordnerstruktur, Tabellenkalkulationsprogramm, Taschenrechner, Notizblock sowie ein rudimentäres ERP-System (Enterprise-Ressource-Planning) bereitstellt. (2) Der PSA-Editor erlaubt das Einpflegen neuer Problemszenarien, die aus einem Bündel relevanter und irrelevanter Dokumente (Geschäftsbriefe, Rechnungen, Berechnungsschemata etc.) sowie szenarienspezifischen Scoring Rubrics bestehen. (3) Im PSA-Manager werden aus einer Szenariendatenbank ein oder mehrere Szenarien für ein Lernprojekt ausgewählt und konfiguriert. (4) Während des Einsatzes wird den Lehrenden im so genannten „PSA-Cockpit“ (Dashboard) eine visuell aufbereitete Echtzeitanalytik der Problembearbeitung ihrer Lernenden auf Basis von Logdaten bereitgestellt. Lehrende haben dann die Möglichkeit, über verschiedene Kommunikationskanäle individualisierte Hilfestellungen und Rückmeldungen bereitzustellen.

Auch die Konzeption automatisierter Hilfestellungen basiert auf einer automatisierten und prozessbegleitenden Logdaten-Analyse. Hierbei sind verschiedene konzeptionelle Ansätze unterscheidbar. Die Analyse orientiert sich inhaltlich zum einen an den szenariospezifischen Scoring Rubrics. Werden bspw. definierte Teilziele (Meilensteine) bis zu einem bestimmten Zeitpunkt nicht erreicht, können vordefinierte Hilfen (z. B. die vorbereitete E-Mail einer hilfsbereiten Kollegin) ausgelöst werden. Ferner kann bei der Anwendung von domänenspezifischen Algorithmen (z. B. Berechnung eines Einstandspreises im Rahmen der Lieferantenauswahl) anhand der Logdaten leicht überprüft werden, ob die Berechnung korrekt ist, da eine bestimmte Zelle der Tabellenkalkulation einen bestimmten Wert aufweisen muss. Außerdem können auf Basis fachdidaktischer Erfahrungen typische Fehler anhand der Logdaten identifiziert werden und Hilfen auslösen. Typische Fehler bei der Berechnung von Einstandspreisen sind die Verwendung des Bruttopreises oder die falsche oder fehlende Berücksichtigung von Skonti, Rabatten etc. Die aus den typischen Fehlern resultierenden Logdaten (d. h. die entsprechenden Werte) können dann entsprechende Hilfen auslösen. Darüber hinaus können allgemeine, szenarioübergreifende Verhaltensweisen wie bspw. „Gaming“ identifiziert werden und spezifische Hilfen auslösen. Schwieriger gestaltet sich die Identifikation von Lösungsprozessen und Fehlern im Bereich des Abwägens qualitativer Argumente wie bspw. der Berücksichtigung von Lieferzeiten, Qualitätsunterschieden oder ökologischen Aspekten bei der Lieferantenauswahl. Mit Hilfe von Pilotstudien mit Think-Aloud-Protokollen werden die Interpretationen der Logdaten auf ihre kognitive Validität hin überprüft. Von der einsatzreifen Software wird erwartet, dass sie das Lernen aus der Bearbeitung domänenspezifischer Problemszenarien fördert, weil Rückmeldungen automatisiert, zeitnah und zielgerichtet erfolgen.