Veranstaltungsprogramm

Eine Übersicht aller Sessions/Sitzungen dieser Veranstaltung.
Bitte wählen Sie einen Ort oder ein Datum aus, um nur die betreffenden Sitzungen anzuzeigen. Wählen Sie eine Sitzung aus, um zur Detailanzeige zu gelangen.

 
 
Sitzungsübersicht
Sitzung
Schreibförderung mit generativer KI: Empirische Beiträge zur Bewertung von Texten, Erstellung von Feedback und dessen Nutzung im Unterricht
Zeit:
Montag, 18.09.2023:
15:45 - 17:15

Chair der Sitzung: Jens Möller
Chair der Sitzung: Thorben Jansen
Ort: LS01 - Klaus-Murmann-Hörsaal

LS1 - Klaus-Murmann-Hörsaal (340),

Zeige Hilfe zu 'Vergrößern oder verkleinern Sie den Text der Zusammenfassung' an
Präsentationen

Schreibförderung mit generativer KI: Empirische Beiträge zur Bewertung von Texten, Erstellung von Feedback und dessen Nutzung im Unterricht

Chair(s): J. Möller (Universität Kiel), T. Jansen (IPN Kiel, Deutschland)

Diskutant*in(nen): S. Keller (Universität Basel)

Schreiben ist eine zentrale Kompetenz, um in vielen Schulfächern erfolgreich zu sein (Graham et al., 2020). Feedback kann Schülerinnen und Schülern bei dem Erwerb dieser Kompetenz unterstützen (Graham et al., 2015) und sie zum Schreiben motivieren (Fong & Schallert, 2023; Graham, 2018; Graham & Harris, 2017). Eine zentrale Herausforderung für die Nutzung von Feedback im Unterricht besteht darin, dass die Erstellung für Lehrkräfte einen aufwendigen Prozess darstellt, der sowohl die Beurteilung von Texten als auch die Entwicklung geeigneter Rückmeldungen auf der Grundlage dieser Bewertungen umfasst. Automatische Schreibbewertung, unterstützt durch Algorithmen aus dem Bereich der künstlichen Intelligenz, kann diesen Prozess bereits für einige Schreibaufgaben erleichtern (Ngo et al., 2022). Hierbei "trainieren" die Algorithmen, menschliche Urteile zu spezifischen Schreibaufgaben anhand einer großen Anzahl an Beispielen vorherzusagen. Meta-Analysen haben die positiven Auswirkungen dieser Systeme auf die Schreibleistung empirisch gestützt (Cai et al., 2022; Lv et al., 2021). Dennoch können die Systeme noch nicht flächendeckend in Schulen eingesetzt werden, da die Erstellung der Systeme für jede Schreibaufgabe aufwändig ist.

Jüngste Entwicklungen in der künstlichen Intelligenz im Bereich große Sprachmodelle (large language model, LLM) ermöglichen es, diese Herausforderung zu überwinden und Feedback ohne aufgabenspezifisches Training zu erstellen. Während das Potenzial von LLM für die Erstellung von Feedback in der wissenschaftlichen Gemeinschaft (Kasneci et al., 2023) und ausgelöst durch ChatGPT auch in den Median aktiv diskutiert wird, fehlt es aktuell noch an empirischen Belegen. Im vorliegenden Symposium befassen sich die einzelnen Beiträge mit den Möglichkeiten und Schwierigkeiten der Verwendung von LLM bei der Bewertung von Texten, bei der Gabe von Feedback und bei der Schreibförderung.

 

Beiträge des Symposiums

 

Automatisierte Bewertung argumentativer Aufsätze von L1- und L2-Schüler*innen unter Berücksichtigung verschiedener Teilaspekte von Textqualität - Ein Vergleich verschiedener Machine Learning-Ansätze

J. Lohmann1, F. Junge1, A. Horbach2, R. Trüb3, J. Fleckenstein2, J. Möller1
1Universität Kiel, 2Universität Hildesheim, 3PH Nordwestschweiz

Die automatisierte Bewertung von Schüler*innen-Essays ist nach wie vor ein wichtiges und ungelöstes Forschungsproblem. Dies gilt insbesondere für die analytische Bewertung verschiedener Aspekte von Textqualität wie beispielsweise Sprachliche Qualität, Struktur und Inhalt. Eine detaillierte Bewertung ist nicht nur für eine umfassendere Diagnose der Schreibfähigkeiten der Schüler*innen wichtig, sondern auch um den Schüler*innen aussagekräftiges und detailliertes Feedback zu geben, damit sie ihre Fähigkeiten verbessern können. Bei dem Ziel, solche analytischen Textbewertungen durch Machine Learning-Algorithmen zu automatisieren, ist Expertise aus der Fachdidaktik, der Diagnostik und des Machine Learning bedeutsam. Welche Aspekte von Textqualität sind relevant und sollten von Schüler*innen erlernt und erfüllt werden können? Welche analytischen Kriterien von Textqualität lassen sich reliabel und valide bewerten, sowie inhaltlich und empirisch voneinander trennen? Und: welche textinhärenten Merkmale sind für das jeweilige analytische Kriterium relevant und sollten von einem Algorithmus erfasst und zur Vorhersage herangezogen werden?

In der vorliegenden Studie verwenden wir vier verschiedene Korpora, die Texte von L1- und L2-Lernenden sowie zugehörige analytische Bewertungen von menschlichen Rater*innen enthalten. Um die Qualität der Essays nach den verschiedenen analytischen Kriterien automatisch zu beurteilen, werden drei verschiedene Machine Learning-Modelle verwendet. Wir vergleichen ein Deep Neural Network (DNN), das auf lexikalischen Features beruht, ein BERT-Embedding-basiertes DNN und ein hybrides DNN, das beide Inputs verwendet. Dabei untersuchen wir, (1) ob sich die drei Modelle bei der Bewertung bestimmter analytischer Kriterien hinsichtlich der Bewertungsgenauigkeit unterscheiden und (2) ob das hybride Modell den Einzelmodellen bei allen analytischen Kriterien überlegen ist. Darüber hinaus untersuchen wir (3) die korrelative Beziehung zwischen den analytischen Skalen innerhalb einzelner Korpora und ob diese Zusammenhänge durch die Bewertungsalgorithmen systematisch verändert werden. Hierbei wird die Korrelationsmatrix der menschlichen Bewertungen mit der Korrelationsmatrix der durch den Algorithmus vorhergesagten Bewertungen verglichen.

Die Ergebnisse deuten darauf hin, dass ein DNN, das auf einer großen Anzahl lexikalischer Merkmale basiert, vergleichbar gut abschneidet wie ein DNN, das die kontextualisierten Embeddings des vortrainierten Transformers BERT verwendet, um die verschiedenen Aspekte der Textqualität vorherzusagen (RQ 1). Das hybride Modell scheint den beiden Einzelmodellen über alle Aspekte von Textqualität und über alle Korpora hinweg leicht überlegen zu sein (RQ 2). Darüber hinaus zeigt sich eine Inflation der Zusammenhänge zwischen den analytischen Kriterien (RQ 3). Implikationen und Limitationen der Ergebnisse, die die angrenzenden Fachbereiche Fachdidaktik, Diagnostische Kompetenz, und Machine Learning betreffen, werden diskutiert.

 

Wie bewerten Lehramtsstudierende die Qualität von KI-generiertem Feedback zu Schülertexten im Vergleich zu Feedback von erfahrenen Lehrkräften?

T. Jansen1, L. Höft1, L. Bahr1, J. Fleckenstein2, J. Möller3, O. Köller1, J. Meyer1
1IPN Kiel, 2Universität Hildesheim, 3Universität Kiel

Schreibkompetenzen sind wichtig für die Schulleistung in vielen Schulfächern (Graham et al., 2020), können durch effektives Feedback gefördert werden. Allerdings stellt das Erstellen von Feedback zu Schülertexten eine bedeutende Herausforderung für Lehrkräfte dar. Large Language Models (LLMs), wie ChatGPT, könnten Feedback anhand der Vorgaben von Lehrkräften erstellen und sie damit bei der Feedbackerstellung unterstützen. Obwohl dieses Potenzial von LLMs aktiv in der wissenschaftlichen Gemeinschaft diskutiert wird (Kasneci et al., 2023), fehlt es an Belegen für die Ansichten von Lehrkräften zu solch aufkommenden Bildungstechnologien (Kizilcec, 2023).

Diese Studie befasste sich mit der Frage, wie angehende Lehrerinnen und Lehrer die Qualität von LLM-generiertem Feedback im Vergleich von Feedback einschätzen, welches von erfahrenen Lehrkräften erstellt wurde. Daher baten wir 89 angehende Lehrerinnen und Lehrer, die Qualität von je zwei Feedbacks zu acht authentischen argumentativen Texten von Schülerinnen und Schülern aus der 10. Klassenstufe einzuschätzen. Je ein Feedback wurde dabei von ChatGPT 3.5 Turbo erstellt und ein Feedback im gleichen Format von einer erfahrenen Lehrkraft. Die Teilnehmenden wussten nicht, welches Feedback von wem erstellt wurde.

Die Ergebnisse zeigten, dass die Teilnehmenden in 59/60/64% der Bewertungen den Aussagen zustimmten (d.h., sie vergaben eine Bewertung höher als fünf auf einer Skala von 1 [überhaupt nicht] bis 10 [sehr]), dass das von einem LLM erstellte Feedback nützlich wäre/dem Text entspricht/die Schülerinnen und Schüler davon profitieren würden, es bei der Textüberarbeitung zu verwenden (das von Expertinnen und Experten erzeugte Feedback erhielt 88/87/88% Zustimmung). Als wir die Teilnehmenden fragten, welches Feedback sie den Schülerinnen und Schülern lieber geben würden, wählten sie in 23% der Fälle das LLM-generierte Feedback. Wir diskutieren die Ergebnisse hinsichtlich der Verwendung von LLM-generiertem Feedback im Sekundarschulunterricht.

 

Large Language Models im Unterricht: Effekte KI-generierten Feedbacks auf Schreibleistung, Motivation und Emotionen von Lernenden

J. Meyer1, T. Jansen1, R. Schiller1, L. Liebenow1, M. Steinbach1, A. Horbach2, J. Fleckenstein2
1IPN Kiel, 2Universität Hildesheim

Schreiben ist eine fächerübergreifend hochrelevante Kompetenz, die in der Sekundarstufe II gefördert werden soll. Effektives Feedback kann dazu einen Beitrag leisten – dessen Erstellung ist jedoch zeitaufwändig und stellt eine große Herausforderung für Lehrkräfte dar. Dies führt dazu, dass die Schüler*innen kein ausreichendes Feedback zu ihren Texten erhalten. Das Aufkommen von generativer KI und großen Sprachmodellen (Large Language Models; LLM) bietet eine vielversprechende Lösung durch die Automatisierung der Feedbackerstellung. Es ist jedoch offen, ob der Einsatz von LLM-Feedback beim Schreiben in der Schule effektiv sein kann. Um eine erste Antwort auf diese Frage zu geben, untersucht die aktuelle Studie die Effektivität von LLM-generiertem Feedback beim Schreiben im Englischunterricht. Eine Stichprobe von N = 464 Schüler*innen der Sekundarstufe II bekam die Aufgabe, argumentative Essays auf Englisch zu schreiben. Die Schüler*innen der Experimentalgruppe wurden gebeten, ihren Text nach einem Feedback zu überarbeiten, das durch das LLM GPT3.5-Turbo basierend auf einem fachdidaktisch fundierten Prompt generiert wurde. Das Feedback wurde in tabellarischer Form dargestellt, die drei Dimensionen der Textqualität anspricht: Sprache, Struktur und Inhalt. Die Kontrollgruppe überarbeitete ihre Essays, ohne ein Feedback zu erhalten. Die Verbesserung der schriftlichen Leistung wurde mithilfe einer automatischen Textbeurteilung gemessen. Die Ergebnisse zeigten, dass das Feedback die Schreibleistung (d = 0.19) und die Motivation (d = 0.17) der Schüler*innen signifikant erhöhte. Außerdem steigerte es die positiven Emotionen (d = 0.37) der Lernenden. Die Ergebnisse zeigen, dass LLM-basiertes Feedback lernförderlich sein kann und sich auch affektiv-motivational positiv auf die Schüler*innen auswirkt. Es werden Perspektiven und Implikationen für Forschung und Praxis bei der Verwendung von KI-generiertem Feedback in intelligenten tutoriellen Systemen diskutiert.

 

Verbesserung von Schüler*innen-Essays mittels ChatGPT-Prompts

F. Junge, J. Lohmann, J. Möller
Universität Kiel

Mit der zunehmenden Verfügbarkeit von Diensten wie ChatGPT, die Schreibaufgaben zu nahezu beliebigen Themen bewältigen können, stellt sich die Frage, wie abseits von Betrugsversuchen der Einsatz in Lehr-Lern-Settings möglich ist. Naheliegend ist es, ChatGPT bei der Förderung von Schreibkompetenzen einzusetzen. Dazu sollte mehr über die Schreibfertigkeiten von ChatGPT bekannt sein. Beispielsweise ist unklar, wie gut solche Instrumente Schüler*innentexte verbessern können. In unserer Studie haben wir von Schüler*innen (Deutschland und Schweiz, 11. Klasse Gymnasium, Englisch als Fremdsprache) geschriebene Essays verwendet. Wir überprüfen, ob ChatGPT in der Lage ist, die Schüler*innenessays signifikant zu verbessern. Dazu werden N = 4577 authentische Schüler*innenessays zu zwei Schreibaufgaben verwendet, die von geschulten Rater*innen auf einer holistischen Skala bezüglich der Textqualität eingeschätzt wurden. Mittels dreier Prompts (Text verbessern, Text verbessern anhand fachdidaktischer Erwartungen und Text verbessern im Stil eine*r Schüler*in der entsprechenden Klassenstufe) werden diese authentischen Schüler*innentexte durch ChatGPT überarbeitet.

In Teil 1 der Studie werden die resultierenden Essays dann mit einem BERT-basierten Neuronalen Netz bewertet, das auf den originalen 4577 Essays und Rater*innenbenchmarks trainiert wurde. Mit den Daten wird eine einfaktorielle Varianzanalyse mit Messwiederholung durchgeführt, mit einem post hoc-Test werden die Unterschiede zwischen den drei Bedingungen berechnet. Die Hypothese lautet, dass die überarbeiteten Texte signifikant besser beurteilt werden als die primären Texte, was insbesondere gelten sollte, wenn der Prompt fachdidaktisch begründete inhaltliche Kriterien zur Verfügung stellt. Neben der Beantwortung dieser Fragestellung würde bei dem Projekt erstmals ein auf Schüler*innentexten basierender, mit künstlicher Intelligenz hergestellter Textkorpus entstehen. Dabei interessiert uns, inwiefern menschliche Beurteiler die künstlich erstellten Texte bewerten.

In Teil 2 der Studie werden 50 menschliche Texte zufällig ausgewählt und mit den entsprechenden von ChatGPT überarbeiteten 150 Texten durch geschulte Expert*innen bewertet, um zu überprüfen, ob die menschlichen Bewertungen mit den Bewertungen durch das neuronale Netz vergleichbar sind. Mit diesen Daten werden identische Analysen durchgeführt. Zu diskutieren ist dann die Implikation und mögliche Anwendung in Lehr-Lern-Settings.



 
Impressum · Kontaktadresse:
Datenschutzerklärung · Veranstaltung: PAEPS 2023
Conference Software: ConfTool Pro 2.8.101+TC
© 2001–2024 by Dr. H. Weinreich, Hamburg, Germany