Sitzung | ||
1-19: Methodische Entwicklungen in der Unterrichts- und Lehrkräfteforschung
| ||
Präsentationen | ||
Paper Session
A Constitutional AI Approach for Educational Helpfulness of Large Language Models opencampus.sh Theoretical Background Large Language Models (LLMs) are assumed to play a core role in future education with serving as learning assistant or tutor being one of the potential roles (cf. Dwivedi et al., 2023; Kasneci et al., 2023). In educational research such applications are called intelligent tutoring systems (ITS). However, to the author’s knowledge there is currently no theoretical framing of LLMs in terms of ITS that are commonly considered using Wenger’s architecture framework (Wenger, 2014). Considering LLMs serving as chatbot assistants their optimization is focused on a training towards the three “H”: helpfulness, harmlessness, and honesty (Bai, Jones, et al., 2022).. To the author’s knowledge there is currently no LLM specifically trained on educational helpfulness, that is on answering in a Socratic style common for ITS (Chi, De Leeuw, Chiu, & LaVancher, 1994; Paladines & Ramirez, 2020)). Research Questions
Method The Zephyr-7B-α model (Hugging Face, 2023) is fine-tuned via training data generated according to the Constitutional AI approach. Hereby, the model is requested to critique its generated answers and generate improved answers. The new data is then used for further fine-tuning. A set of 1000 questions on physics and history with difficulty levels ranging from Kindergarten to 12th grade is generated using GPT-4 (OpenAI, 2023b). On each of these, fifteen different critique and revision prompt pairs like the following are applied: [Critique] [Revision] For a baseline comparison answers of OpenAI’s GPT-3.5 and GPT-4 default models are used with custom prompts soliciting an educational helpful, Socratic style answer as proposed by OpenAI (OpenAI, 2023a, 2023b). To evaluate the answer quality, GPT-4 is prompted to rank the answers of the different models for a given question according to the rules defined by the prompt to generate the training data. Additionally, a qualitative review is conducted by educational experts to provide further insights. Results RQ1: The following mapping to Wenger’s four modules of ITS is proposed:
More explanations are given in the presentation. RQ2: The model training and evaluation will be conducted in the coming month and will be presented at the conference. Discussion The mapping proposed in (1) of LLM-based chat applications is hoped to help in comparing previous work on ITS with LLM-based approaches. Future directions for improving LLMs as ITS might be the integration of student characteristics in custom prompts and of further expert knowledge via vector databases that additionally help preventing hallucination. Paper Session
Eine längsschnittliche Mehrebenen-Erweiterung des linear-logistischen Testmodells (LLTM) zur Vorhersage der Instruktionssensitivität von Testitems 1DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland; 2Institut für Schulentwicklungsforschung, TU Dortmund; 3Pädagogische Hochschule St. Gallen (PHSG) Theoretischer Hintergrund Schulische Leistungsmessungen dienen regelmäßig als ein zentrales Kriterium für die Beurteilung der Wirkungen und der Wirksamkeit von Unterricht (z.B. Klieme, 2018; Kultusministerkonferenz, 2006). Üblicherweise werden Unterrichtsprozesse dann als wirksam angesehen, wenn sie mit höheren Testwerten der Schülerinnen und Schüler einhergehen, und entsprechend als unwirksam, wenn nicht. Allerdings setzt eine solche Vorgehensweise voraus, dass die eingesetzten Tests und Items prinzipiell dazu in der Lage sind, mögliche Effekte des Unterrichts zu erfassen, also instruktionssensitiv sind (z.B. Naumann, Musow, Aichele, Hochweber & Hartig, 2019; Popham, 2007). Entsprechend kann die empirische Untersuchung der Instruktionssensitivität von Tests und Items notwendige Belege für eine valide Nutzung und Interpretation der Testwerte liefern (AERA, APA, NCME, 2014). Zur empirischen Untersuchung der Instruktionssensitivität von Tests und Items sind im Laufe der letzten Jahre verlässliche und kohärente Verfahren vorgeschlagen worden (z.B. Naumann, Hartig & Hochweber, 2017; Naumann, Rieser, Musow, Hochweber & Hartig, 2019). In der Regel werden Sensitivitätsmaße jedoch (wenn überhaupt) erst dann erhoben, nachdem die Itemkonstruktion abgeschlossen und ein Test angewendet wurde. Entsprechend gibt es nach wie vor nur wenig systematisches Wissen darüber, wie neue, instruktionssensitive Items zielgerichtet konstruiert werden können. Im Idealfall wäre jedoch das Wissen über solche Merkmale von Items, die deren Instruktionssensitivität beeinflussen, bereits während der Itemkonstruktion vorhanden, um Items gezielt so zu konstruieren, dass sie das erforderliche Maß an Instruktionssensitivität erreichen. Fragestellung und Methode Unsere Arbeit zielt auf diese Forschungslücke. Wir schlagen ein Modell zur Vorhersage der globalen und differentiellen Instruktionssensitivität anhand von Itemmerkmalen vor, das auf dem von Naumann und Kollegen (2017) vorgeschlagenen psychometrischen Rahmen zur Messung von Instruktionssensitivität basiert. Dazu formulieren wir das längsschnittliche Mehrebenen-IRT (LMLIRT)-Modell zur Messung der Instruktionssensitivität von Items im Sinne eines erklärenden IRT-Modells mit Itemprädiktoren um (Wilson & De Boeck, 2004). Das heißt, wir modifizieren das LMLIRT-Modell so in Anlehnung an das linear logistische Testmodell (LLTM; Fischer, 1973), um Regressionskoeffizienten zu schätzen, die den Beitrag der einzelnen Itemmerkmale zur klassenspezifischen Veränderung der Itemschwierigkeit über Messzeitpunkte zu quantifizieren. Zusätzlich fügen wir dem resultierenden längsschnittlichen Mehrebenen-LLTM-Modell einen Fehlerterm hinzu, der es ermöglicht, die vergleichsweise strenge Annahme zu lockern, dass die Itemmerkmale die Itemschwierigkeit vollständig erklären können (Janssen, Schepers, & Peres, 2004). Zur Veranschaulichung wenden wir das Modell auf Daten aus der DESI-Studie (DESI-Konsortium, 2008) an. In DESI wurde die Sprachbewusstheit von Schüler:innen (N = 10.965 Schüler:innen in 427 Klassen) zu Beginn und am Ende der neunten Jahrgangsstufe anhand von 34 Items gemessen, die den grammatikalisch angemessenen Sprachgebrauch erfassen sollen. In der DESI-Studie wurden Itemmerkmale definiert, die sich auf theoretische Modelle der Sprachbewusstheit beziehen, und von Expert:innen eingeschätzt. Zehn Merkmale der Items des Sprachbewusstheitstests wurden für die Analysen ausgewählt. Ergebnisse und Diskussion Die Ergebnisse legten nahe, dass neun der zehn Itemmerkmale statistisch bedeutsam zur Vorhersage der mittleren Veränderung der Itemschwierigkeiten im Laufe der neunten Jahrgangsstufe beitrugen (globale Sensitivität). Ein Vergleich mit dem konventionellen LMLIRT-Modell zeigte, dass 49% der Variation in der globalen Sensitivität erklärt wurde (64%, wenn ein Ausreißer eliminiert wurde). Ein Vergleich mit dem LMLIRT-Modell zeigte, dass 63% der Varianz in der differentiellen Sensitivität durch die Itemmerkmale erklärt werden konnten. Zusammenfassend funktionierte das Modell gut in der Anwendung auf empirische Daten. Die Möglichkeit, gezielt instruktionssensitive Items zu konstruieren, wird dazu beitragen, die Instruktionssensitivität von Tests und Items zu gewährleisten, ohne umfangreiche Pretests oder Pilotierungen durchzuführen oder sich auf bestehende Instrumente stützen zu müssen, was ökonomisch vorteilhafter ist. Darüber hinaus liefert derartiges Wissen über die Konstruktion von instruktionssensitiven Items einen wichtigen Beitrag zur validen Nutzung von Testverfahren, wenn es um gültige Rückschlüsse über die Wirksamkeit von Unterricht anhand von Testwerten aus schulischen Leistungsmessungen geht. Paper Session
Ich sehe was, was du nicht siehst – eine Laborstudie zur Untersuchung von Expertiseunterschieden in der professionellen Wahrnehmung von Unterrichtsstörungen mittels mobilem Eye-Tracking Universität Leipzig, Deutschland Theoretischer Hintergrund: Forschungsfragen: Methode: Im Erhebungssetting dieser Studie unterrichteten die Teilnehmenden eine 15-minütige, selbst vorbereitete Unterrichtseinheit in einer Laborumgebung vor einer "Klasse" von drei Schauspielenden, die neun typische Unterrichtsstörungen (z. B. mit dem Nachbarn plaudern) simulierten. Während der Lektion trug die Versuchsperson eine mobile Eye-Tracking-Brille von Tobii Pro Glasses 2, welche visuelle Daten über das Blickverhalten der Lehrperson auf relevante Bereiche sammelte. Als lernrelevante Bereiche wurden zum einen generell alle Schüler:innen definiert, zum anderen speziell die Person, die die Störung ausführte. Die Analyse der Eye-Tracking-Daten erfolgte in der Tobii Pro Lab Analyzer Software, um die entsprechenden Eye-Tracking-Parameter auszuwählen (Fixationsanzahl, Fixationsdauer und Zeit bis zur ersten Fixation auf die störende Person). Weitere statistische Analysen wurden in RStudio (RStudio Team, 2020) durchgeführt. Aufgrund der zu geringen Stichprobe wurde bisher nur die Effektstärke d berechnet, um eine Tendenz der Ergebnisse zu indizieren. Mit der finalen Stichprobe werden Mittelwertunterschiede zwischen den Expertisegruppen mittels t-Tests für unabhängige Stichproben für alle drei Hypothesen untersucht. Ergebnisse: Diskussion: Paper Session
Computerbasierte Qualitätsbewertung schriftlicher Fremdreflexionen 1Universität Potsdam; 2Pädagogische Hochschule Heidelberg Hintergrund und Forschungsanliegen Reflexion gilt in der Lehrkräftebildung als eine Schlüsselkategorie der professionellen Entwicklung (Korthagen & Kessels, 1999; Wyss & Mahler 2021). So werden Reflexionsprodukte häufig unter Verwendung von Stufenmodellen für beispielsweise deskriptives, analytisches oder reflexives Argumentieren (z.B. Hatton & Smith, 1995; Larrivee, 2008) herangezogen oder einzelne Facetten aus Prozessmodellen (z.B. Aeppli & Lötscher, 2016; Nowak et al., 2019), wie die Breite adressierter Themen oder die Tiefe der Argumentation bewertet. Eine wesentliche Herausforderung hierbei besteht darin, dass die Qualität einer Reflexion auf mehreren Dimensionen bewertet werden kann, ohne quantifizierbare, absolute Aussagen treffen zu können. Studien im Bereich der Reflective Writing Analytics (z.B. Buckingham Shum et al., 2017; Ullman, 2019; Wulff et al., 2022) könnten bei dieser Herausforderung Abhilfe schaffen, auch da sie (im Prinzip) nicht durch menschliche Schwächen wie begrenztes Kurzzeitgedächtnis, Tagesform oder unterschiedliches Sprachgefühl und Vorwissen eingeschränkt sind. Unklar bleibt jedoch, inwieweit aus diesen ML-basierten Bewertungen quantifizierbare und belastbare Rückschlüsse auf die Qualität schriftlicher Reflexionen möglich sind. Methode Aus diesem Grund, wurde unter Verwendung von bereits validierten Machine-Learning-Algorithmen (nach Wulff et al., 2022 und Mientus et al., 2023) ein quantifizierbares Qualitätsmaß für schriftliche Fremdreflexionen zu einer videografierten Unterrichtssituation entwickelt, welches unabhängig menschlicher Ressourcen die Qualität eines Argumentationsprozesses abschätzen kann. Im Rahmen der Studie verfassten N = 134 (angehende) Physiklehrkräfteschriftliche Fremdreflexionen zu einer Unterrichtsvideographie. Expert*innen erstellten theoriegeleitet Qualitätsbewertungen zur Breite, Tiefe, Kohärenz und Spezifität (k > .67) eines jeden Reflexionstextes, um auf ein bekanntes kategoriales Qualitätsmaß zurückgreifen zu können. Unter Verwendung von ML-Algorithmen aus den vorangegangenen Studien wurden für jeden Reflexionstext Informationen zur Argumentationsstruktur aus den Texten extrahiert. Hierzu gehören beispielsweise relative und absolute Häufigkeiten von Beschreibungen, Bewertungen, formulierten Alternativen und abgeleiteten Konsequenzen. Mittels einer explorativen Faktorenanalyse konnten unter Verwendung von 80% der Daten die Faktoren Qualität, Quantität und Deskriptivität interpretiert werden (Inkludierte Variablen mit Kaiser-Meyer-Olkin-Faktor ≥ .45). Ergebnisse und Schlussfolgerungen Da alle kategorialen Qualitätsbewertungen durch den Faktor Qualität repräsentiert wurden und quadratische Zusammenhänge zu den extrahierten Informationen der ML-Algorithmen identifiziert werden konnten, konnte ein maximales Qualitätskorrelat kalkuliert werden. Die quadratischen Regressionen aller Gegenüberstellungen stellten sich hierbei mit p < .001 als signifikant geeigneter dar, als lineare Regressionen. Zum identifizierten maximalen Qualitätskorrelat kann dank der vorliegenden Studie für jeden neuen Reflexionstext im Kontext des gesehenen Unterrichtsausschnitts automatisiert eine Distanz bestimmt werden. Diese Distanz zum maximalen Qualitätskorrelat konnte mit den übrigen 20% der Reflexionstextdaten validiert werden (k = .64***) und kann die Qualität der schriftlichen Reflexionen fortan unabhängig von menschlichen Ressourcen quantifizieren. Methodisch verdeutlicht diese Arbeit im Kontext der fachdidaktischen Reflexionsforschung die Möglichkeit, aussagekräftige Quantifizierungen auch in der Analyse komplexer Konstrukte, wie der Qualität von Reflexionsprozessen,vornehmen zu können. |