Symposium
Aktuelle Entwicklungen im Bereich des automatisierten Assessments: Zur computergestützten Analyse und Überarbeitung von schriftlichen und mündlichen Texten
Chair(s): Birgit Heppt (Humboldt-Universität zu Berlin, Deutschland), Jennifer Meyer (IPN – Leibniz-Institut für die Pädagogik der Naturwissenschaften und der Mathematik)
Diskutant*in(nen): Katrin Böhme (Universität Potsdam)
Sprache ist in den Bildungsinstitutionen sowohl Lernmedium als auch Lerngegenstand und -ergebnis (vgl. Heppt & Schröter, 2023). So werden Lerninhalte sprachlich vermittelt, etwa durch sprachliche Aushandlungsprozesse im Unterrichtsgespräch oder anhand anspruchsvoller Sachtexte. Gleichzeitig besteht ein zentrales Lernziel von Schule und Unterricht darin, dass Schüler:innen nicht nur in der Unterrichtssprache Deutsch, sondern auch in mindestens einer Fremdsprache solide kommunikative Kompetenzen erwerben. Bis zum Ende der Sekundarstufe I sollen sie beispielsweise in der Lage sein, orthografisch und grammatisch korrekte englischsprachige Texte zu verfassen, die sowohl adressat:innengerecht gestaltet als auch logisch-kohärent aufgebaut sind (KMK, 2023). Die differenzierte Analyse schriftlicher und mündlicher Texte ist somit sowohl für Beschreibung sprachlicher Lerngelegenheiten als auch für die Bewertung und Beurteilung von Lernprodukten von Bedeutung. Herkömmliche Verfahren zur Textanalyse und -bewertung, wie Kodierungen sprachlicher Merkmale oder analytische Bewertungsverfahren, gehen jedoch mit einem erheblichen Ressourcenaufwand einher (z. B. Meyer et al., 2023). Computerlinguistische Methoden erlauben es demgegenüber, Textproduktionen automatisiert und differenziert zu analysieren und ihre Qualität zu bewerten. Überdies ermöglichen sie die Erfassung prozessbezogener Merkmale, die zu einem besseren Verständnis der Bearbeitung von Texten beitragen können.
Ziel des Symposiums ist es, aktuelle Forschungsbefunde im Bereich des automatisierten Assessments komplexer Sprachproduktionen zusammenzutragen und im Hinblick auf zukünftige Potentiale zur Analyse und Förderung sprachlicher Kompetenzen zu diskutieren. Dabei verbindet das interdisziplinär ausgerichtete Symposium Expertise aus der Pädagogischen Psychologie, der Erziehungswissenschaft, der Computerlinguistik und der Sprachwissenschaft. Die drei empirischen Beiträge betrachten Sprachproduktionen entweder in ihrer Bedeutung als Lernmedium (Beitrag 1) oder als Lernergebnis (Beiträge 2 und 3) und setzen unterschiedliche computerlinguistische Maße ein: Während die Beiträge 1 und 2 auf die linguistische Komplexität von Sprachproduktionen fokussieren und diese als Zielvariable berücksichtigen, nimmt Beitrag 3 mithilfe computerlinguistischer Auswertungen den Überarbeitungsprozess schriftlicher Textproduktionen in den Blick. Als Ansatzpunkte zur Förderung (produktiver) sprachlicher Kompetenzen werden sowohl die Rolle der Lehrkraft (Beitrag 1) als auch die Effektivität automatisierten Feedbacks mithilfe computerlinguistischer Merkmale (Beitrag 3) adressiert.
In Studie 1 dienen ausgewählte Merkmale der linguistischen Komplexität (z. B. lexikalische Vielfalt) als differenzierte Zielvariable, um die Effektivität einer Lehrkraftprofessionalisierung im Bereich Sprachbildung bei Grundschullehrkräften zu überprüfen. Dabei wurde anhand von 50 Unterrichtstranskripten computerlinguistisch analysiert, inwiefern die mündliche Unterrichtssprache von Lehrkräften der Experimentalgruppe (EG) nach der Teilnahme an einer Fortbildung im Vergleich zu einer Kontrollgruppe (KG) eine höhere sprachliche Komplexität aufwies. Zwar sprachen Lehrkräfte der EG zunächst insgesamt mehr als Lehrkräfte der KG; unter Berücksichtigung der Textmenge bestanden jedoch nur vereinzelt Gruppenunterschiede in der sprachlichen Komplexität.
Auch in Beitrag 2 wird die linguistische Komplexität zur Messung der sprachlichen Qualität von Textproduktionen eingesetzt. Ziel ist es, die linguistische Komplexität schriftlicher Abiturleistungen im Fach Englisch in Abhängigkeit von den inhaltlichen und sprachlichen Anforderungen der Aufgaben zu analysieren. Die computerlinguistische Analyse der Englischaufsätze von 362 Abiturient:innen zeigt, dass die sprachliche Komplexität der Texte in Abhängigkeit von den Aufgabenmerkmalen variiert und dass bei Textformen mit höheren Anforderungen an die sprachliche Selbstständigkeit besonders starke Zusammenhänge zwischen der sprachlichen Komplexität und den Schulnoten im Fach Englisch bestehen .
In Beitrag 3 schließlich werden, ähnlich wie in Beitrag 1, linguistische Merkmale als Indikatoren für die Wirksamkeit einer Intervention analysiert. Im Falle von Beitrag 3 handelt es sich bei der Intervention um automatisiertes Feedback, welches Schüler:innen der Sekundarstufe I dabei unterstützen sollte, ihre englischsprachigen Texte zu überarbeiten. Die experimentelle Studie zeigt, dass anhand der computerlinguistischen Indikatoren das Ausmaß der Veränderungen am Text operationalisiert und damit die Leistungsverbesserung in der Textüberarbeitung erklärt werden kann.
In der abschließenden Diskussion der drei Beiträge durch eine Expertin in den Bereichen Sprachdiagnostik und Sprachförderung sowie Digitalisierung werden zukünftige Potentiale und Herausforderungen im Bereich des automatisierten Assessments sprachproduktiver Leistungen aufgezeigt.
Beiträge des Symposiums
Sprachlicher Input im naturwissenschaftlichen Sachunterricht der Grundschule: Bedeutung einer Professionalisierungsmaßnahme für die mündliche Unterrichtssprache von Lehrkräften
Birgit Heppt1, Denise Löfflad2, Sofie Henschel3, Katrin Gabler4, Ilonca Hardy5, Detmar Meurers2 1Humboldt-Universität zu Berlin, 2Eberhard Karls Universität Tübingen, 3Institut zur Qualitätsentwicklung im Bildungswesen (IQB), 4Freie Universität Berlin, 5Goethe-Universität Frankfurt am Main
Qualitativ hochwertige fachliche Instruktionsprozesse bieten das Potenzial, sowohl die fachliche als auch die sprachliche Lernentwicklung von Schüler:innen zu unterstützen. Von zentraler Bedeutung ist hierbei das realisierte Sprachangebot. So belegen empirische Studien die Relevanz fachsprachlicher Äußerungen der Fach- bzw. Lehrkraft für den fachlichen Lernzuwachs der Schüler:innen (z. B. Studhalter et al., 2021); gleichzeitig trägt ein reichhaltiger sprachlicher Input bedeutsam zur sprachlichen Kompetenzentwicklung bei (z. B. Kane et al., 2023). Inputtechniken, bei denen Lehrkräfte als Sprachvorbilder bewusst auf einen differenzierten, korrekten und anregungsreichen sprachlichen Input achten (z. B. durch handlungsbegleitendes Sprechen), gelten daher als wirkungsvolles Element sprachlicher Bildung (z. B. Gabler et al., 2020). Neben einer Reihe weiterer Sprachfördertechniken (z. B. sprachanregende Fragen, korrektives Feedback) bildeten sie einen wesentlichen Bestandteil einer Professionalisierungsmaßnahme, in der Grundschullehrkräfte zur fachbezogenen Sprachbildung im Sachunterricht der Grundschule fortgebildet wurden (Authors, 2020). Die Professionalisierung trägt nachweislich zum Wissen der fortgebildeten Lehrkräfte im Bereich Sprachbildung bei und schlägt sich in ausgewählten Aspekten des sprachbildenden Unterrichtshandelns nieder (z. B. Authors, 2022a). Offen ist jedoch, ob sich Lehrkräfte der Experimentalgruppe (EG) auch hinsichtlich der Quantität und Qualität des mündlichen Sprachgebrauchs von Lehrkräften der (KG) unterscheiden.
Pädagogisch-psychologische Studien, die die mündliche Sprache von Lehrpersonen untersuchen, basieren in der Regel auf aufwendigen Kodierungen ausgewählter sprachlicher Teilbereiche (z. B. Dokter, Aarts, Kurvers, Ros & Kroon, 2017) oder auf Ratings des sprachlichen Anregungsniveaus (z. B. Classroom Assessment Scoring System [CLASS]; Pianta, La Paro & Hamre, 2008). Computerlinguistische Verfahren ermöglichen es demgegenüber, (transkribierte) Texte hinsichtlich einer Vielzahl sprachlicher Merkmale automatisiert zu analysieren und Unterschiede im Sprachgebrauch somit zeitökonomisch zu bestimmen. Vor diesem Hintergrund wird in dem vorliegenden Beitrag unter Rückgriff auf computerlinguistische Analysen überprüft, ob die mündliche Unterrichtssprache der EG-Lehrkräfte anregungsreicher und anspruchsvoller ist als die der KG-Lehrkräfte.
Im Rahmen des Projekts waren Lehrkräfte beider Gruppen (nEG = 8, nKG = 17) zunächst für die Umsetzung ausgearbeiteter Curricula zu den Themen „Schwimmen und Sinken“ (6 Doppelstunden) und „Verdunstung und Kondensation“ (5 Doppelstunden) fortgebildet worden. EG-Lehrkräfte nahmen zusätzlich an einer Professionalisierung zur fachbezogenen Sprachbildung teil, in der die Grundlagen des Scaffolding-Ansatzes nach Gibbons (2002) exemplarisch anhand des Schwimmen und Sinken-Curriculums erarbeitet wurden. Anschließend unterrichteten EG- und KG-Lehrkräfte beide Themen im regulären Sachunterricht der dritten Jahrgangsstufe. Dabei wurde jeweils die zweite Doppelstunde gefilmt und in wesentlichen Teilen transkribiert. Die insgesamt 50 Transkripte (2 je Lehrkraft und Klasse) wurden anschließend mithilfe der Software Common Text Analysis Platform (CTAP; Chen & Meurers, 2016) computerlinguistisch analysiert, wobei vor allem sprachliche Merkmale berücksichtigt wurden, die in der Fortbildung oder den Curricula fokussiert worden waren (z. B. lexikalische Vielfalt).
Die Analysen weisen darauf hin, dass Lehrkräfte der EG während des ersten Unterrichtsthemas (Schwimmen und Sinken) insgesamt mehr sprachen als Lehrkräfte der KG (Anzahl der Types/Tokens/Sätze: d = 1.34/2.38/1.19). Unter Berücksichtigung der Gesamtmenge an sprachlichem Input war ihr mündlicher Sprachgebrauch jedoch nur vereinzelt durch erhöhte sprachliche Elaboriertheit gekennzeichnet. So verwendeten sie beispielsweise mehr Wörter mit mindestens drei Silben (d = 0.93), einem Indikator für morphologische Komplexität. Beim zweiten Unterrichtsthema (Verdunstung und Kondensation) unterschieden sich EG- und KG-Lehrkräfte nicht in der Menge an mündlicher Unterrichtssprache (Anzahl der Types/Tokens/Sätze: d = 0.25/-0.12/-0.01). Zwar zeichnete sich in der korrigierten Type/Token-Ratio eine größere lexikalische Vielfalt im Sprachgebrauch der EG-Lehrkräfte ab (d = 0.74), diese fand sich jedoch in keinem anderen Merkmal der lexikalischen Vielfalt wieder. Auch in den weiteren sprachlichen Komplexitätsmerkmalen bestanden keine Gruppenunterschiede.
Insgesamt deuten die Befunde somit darauf hin, dass sich die Teilnahme an der Professionalisierungsmaßnahme nur in geringem Maße im mündlichen Sprachgebrauch der Lehrkräfte niederschlägt und dass sich die Effekte in Abhängigkeit vom Unterrichtsthema unterscheiden. Die Befunde werden mit Blick auf Leistungsunterschiede in den teilnehmenden Klassen und adaptive Unterrichtsgestaltung diskutiert.
Zum Zusammenspiel von Aufgabenmerkmalen, Sprachkompetenz und sprachlicher Komplexität von Textproduktionen im Englisch-Abitur
Anja Riemenschneider1, Zarah Weiss2, Pauline Schröter1, Detmar Meurers2 1Institut zur Qualitätsentwicklung im Bildungswesen (IQB), 2Eberhard Karls Universität Tübingen
Sprachliche Eigenschaften von Textproduktionen hängen von vielen Faktoren ab, wie dem Thema und der Art des Schreibanlasses, Genrekonventionen und der individuellen Sprachkompetenz (Biber & Gray, 2010; Kuiken & Vedder, 2019). Eine besondere Rolle spielen Merkmale der Aufgaben, die im Fremdsprachenunterricht oft funktional relevante Textproduktionen hervorrufen sollen (Michel et al., 2019). Wenig Aufmerksamkeit wurde bisher dem Zusammenspiel von Aufgabenmerkmalen und der Sprachkompetenz der Lernenden geschenkt, obwohl anzunehmen ist, dass Aufgaben sich in den mit ihnen verbundenen Möglichkeiten zur sprachlichen Entfaltung unterscheiden. Dies ist besonders relevant im Hinblick auf Prüfungen in den Fremdsprachen, die die Sprachkompetenz der Teilnehmenden in ihrer vollen Breite abbilden sollten. Zur Messung sprachlicher Leistungen werden in der Forschung zum Zweitspracherwerb die Aspekte der sprachlichen Komplexität, der Akkuratheit und der Flüssigkeit genutzt. In der schriftsprachlichen Produktion sind besonders die Akkuratheit und die sprachliche Komplexität relevant, die auch für Rückschlüsse auf die Sprachkompetenz genutzt werden (Kuiken & Vedder, 2019).
In der schriftlichen Englisch-Abiturprüfung werden die Anforderungsbereiche I-III abgedeckt, die einen ansteigenden Grad an Selbstständigkeit von den Schüler:innen fordern. Dies bezieht sich laut den Bildungsstandards für die Allgemeine Hochschulreife zum einen auf inhaltliche Aspekte (z. B. Umgang mit Methode und eingebrachte Ideen), zum anderen auf sprachliche Aspekte, wobei die Eigenständigkeit diesbezüglich nicht weiter spezifiziert wird (KMK, 2012). Prüflinge erhalten eine Textvorlage mit drei Aufgaben, die die Anforderungsbereiche wiederspiegeln sollen. Für unsere Studie haben wir die Englisch-Abituraufgaben hinsichtlich ihres Aufgabentyps (Aufgabe 1: Zusammenfassung, Aufgabe 2: Analyse, Aufgabe 3: Argumentation), ihrer geforderten inhaltlichen Selbstständigkeit (Aufgabe 1: gering, Aufgabe 2: hoch, Aufgabe 3: hoch) und ihrer geforderten sprachlichen Selbstständigkeit (Aufgabe 1: gering, Aufgabe 2: gering, Aufgabe 3: hoch) charakterisiert, wobei wir sprachliche Selbstständigkeit als Distanz zur Textvorlage interpretiert haben.
Im vorliegenden Beitrag haben wir Abituraufsätze von 362 Prüflingen computerlinguistisch analysiert und getestet, ob sie sich hinsichtlich ihrer sprachlichen Komplexität im Bezug zu Aufgabenmerkmalen (Aufgabenart und geforderte sprachliche Selbstständigkeit) unterscheiden und ob die Abituraufgaben die Sprachkompetenz der Schüler:innen (gemittelte Semesternoten der Qualifikationsphase im Fach Englisch) unterschiedlich breit abbilden. Da von jedem Prüfling Texte zu drei Aufgaben produziert wurden, eignen sich die Daten sowohl für Between- als auch für Within-Subjects-Vergleiche. Die Komplexitätsanalyse wurde anhand einer umfassenden Operationalisierung unter Einbezug von 54 Komplexitätsmaßen aus verschiedenen linguistischen Domänen mithilfe der Common Text Analysis Platform (Chen & Meurers, 2016) durchgeführt.
Die Ergebnisse unserer Mixed-Effects-Modelle zeigen, dass sich die Komplexität der Textproduktionen hinsichtlich der mit den Aufgaben verbundenen funktionalen Erfordernisse unterscheidet – sowohl quantitativ in der Anzahl der Maße als auch qualitativ in den sprachlichen Eigenschaften, die jeweils im Vergleich zu den anderen Aufgaben stärker ausgeprägt waren. In den Prüflingstexten zu Aufgabe 1 (Zusammenfassung) waren 13 Komplexitätsmaße im Vergleich zu den anderen beiden Aufgaben am höchsten ausgeprägt, die auf eine kompakte, inhaltlich dichte Sprachverwendung hindeuten(z. B. lexikalische Dichte, Wortlänge, Komplexität der Nominalphrasen). In Textproduktionen zu Aufgabe 2 (Analyse) war mit 20 Maßen im Vergleich zu den anderen beiden Aufgaben die höchste Anzahl an Maßen am komplexesten ausgeprägt, unter anderem die lexikalische Variabilität, die Textlänge und die klausale Komplexität. In Prüflingstexten zu Aufgabe 3 (Argumentation) war die geringste Anzahl an Maßen stärker ausgeprägt als in den anderen beiden Aufgaben (u. a. lexikalische Diversität, Modifizierer), diese zeigten eine variable und beschreibende Sprachverwendung an. Für alle Aufgaben wurde ein signifikanter Zusammenhang zwischen der Sprachkompetenz der Schüler:innen und der sprachlichen Komplexität ihrer Textproduktionen gemessen. Dieser Zusammenhang verstärkte sich in Aufgabe 3, vor allem bezogen auf Maße der lexikalischen Komplexität.
Die Ergebnisse deuten darauf hin, dass vor allem Aufgaben, die eine hohe sprachliche Selbstständigkeit erfordern, zur differenzierten Erfassung von Sprachkompetenz geeignet sind. Die Befunde liefern außerdem Einsichten dazu, welche sprachlichen Aspekte durch welche Aufgabentypen verstärkt hervorgerufen werden und können als Ausgangspunkt für geeignete Bewertungskriterien dienen.
Prozesse bei der Textüberarbeitung sichtbar machen: Wie arbeiten Schüler:innen in der Sekundarstufe I mit automatisiertem Feedback?
Ronja Schiller1, Johanna Fleckenstein2, Ute Mertens1, Andrea Horbach2, Jennifer Meyer1 1IPN – Leibniz-Institut für die Pädagogik der Naturwissenschaften und der Mathematik, 2Universität Hildesheim
Automatisiertes Feedback kann positive Effekte auf die Schreibleistung zeigen (Graham et al., 2015; Fleckenstein et al., 2023), doch ein Verständnis zugrundeliegender Mechanismen dieser Feedbackeffekte ist zum jetzigen Zeitpunkt kaum vorhanden (Winstone & Nash, 2023). Eine naheliegende Annahme ist, dass Lernende höheres behaviorales Engagement bei der Textüberarbeitung zeigen – sich also aktiver mit der Überarbeitung eines Textes auseinandersetzen (Fredricks et al., 2004) –, wenn sie Feedback erhalten, wobei das gesteigerte behaviorale Engagement schließlich zu einer Verbesserung der Leistung führen sollte (z. B. De Miliano et al., 2017; Green et al., 2012). Um mit behavioralem Engagement verknüpfte Prozesse valide abbilden zu können, werden behaviorale Maße benötigt, die Schreibprozesse objektiv erfassen (Winstone & Nash, 2023). Diesbezüglich bietet die digitale Umsetzung experimenteller Studien die Möglichkeit, Log- und Prozessdaten mithilfe computer-linguistischer Methoden als Grundlage für objektive Maße von Verhaltensprozessen heranzuziehen (z. B. Leijten & Van Waes, 2013; Liu et al., 2015).
Ziel unserer Arbeit ist es, mit Hilfe solcher Daten ein besseres und feineres Verständnis von Feedbackprozessen beim Schreiben zu gewinnen und vertiefende Erkenntnisse zu liefern, die für die Förderung von Schreibkompetenzen mit automatisieren Feedback in digitalen Lernumgebungen von hoher Relevanz sind. Konkret soll untersucht werden, ob und inwieweit behaviorales Engagement bei der Textüberarbeitung eine mediierende Rolle bei Feedbackeffekten auf die Leistungsverbesserung beim Schreiben einnimmt. Dabei wird angenommen, dass sich (a) die Schreibleistung stärker verbessert, wenn eine Schreibaufgabe mit Hilfe von Feedback überarbeitet wird als ohne Feedback und, dass (b) dieser angenommene positive Effekt von Feedback auf die Schreibleistung von behavioralem Engagement mediiert wird.
Die Umsetzung unseres Experiments erfolgte im Rahmen einer Feldstudie an Schulen unter Verwendung eines digitalen Schreib-Tools. Die teilnehmenden Schüler:innen (N = 211; MAlter = 13.58, SDAlter = 0.94) wurden randomisiert einer Kontrollgruppe (KG) oder einer Feedbackbedingung (EG) zugewiesen und bearbeiteten zunächst eine Schreibaufgabe, bei der eine E-Mail auf Englisch verfasst werden sollte. Die Schreibleistung wurde Algorithmus-basiert hinsichtlich fünf zentraler Kriterien erfasst (1. Inhalt, 2. Betreffzeile, 3. Begrüßung/Abschied, 4. interpersonelle Dimension, 5. Sprachstil; Authors, 2022b; Authors, 2023). Anschließend an die erste Schreibaufgabe wurde die Schüler:innen gebeten, ihren Entwurf zu überarbeiten. Während die KG lediglich zur Überarbeitung aufgefordert wurde, wurde den Schüler:innen der EG zusätzlich automatisiertes elaboriertes Feedback zu ihrem ersten Entwurf angezeigt, das sie zur Textüberarbeitung nutzen konnten. Das Feedback enthielt Rückmeldungen zur Erfüllung der fünf Kriterien sowie Hinweise und Beispiele. Das behaviorale Engagement während der Textüberarbeitung wurde über drei Indikatoren erfasst. Dies waren zum einen die zur Überarbeitung genutzte Zeit – die Revisionszeit – und zum anderen die post-hoc berechnete Levenshtein Distance (Levenshtein, 1965) sowie Greedy String Tiling (GST; Wise, 1993). Während die Levenshtein Distance die Anzahl der Änderungen am Text widerspiegelt, stellt GST basierend auf der längsten gemeinsamen Zeichenkette die Ähnlichkeit von Erstentwurf und Revision dar. Basierend auf den drei Indikatoren wurde eine latente Variable modelliert, die das behaviorale Engagement bei der Textüberarbeitung abbildet.
Anhand einer hierarchischen Regressionsanalyse zeigte sich eine vollständige Mediation des Feedbackeffekts auf die Schreibleistung über behaviorales Engagement. Das heißt, Schüler:innen, die für die Textüberarbeitung Feedback erhielten, zeigten eine deutliche stärkere Verbesserung ihrer Schreibleistung als Schüler:innen der KG, die kein Feedback erhielten. Diese Verbesserung kann zu einem Großteil auf durch das Feedback gesteigerte behaviorale Engagement während der Textüberarbeitung zurückgeführt werden.
Unsere Befunde liefern nicht nur neue Erkenntnisse über Feedbackeffekten zugrundeliegende Mechanismen, die bei der Entwicklung digitaler Lernumgebungen zur Schreibförderung behilflich sein können. Viel mehr konnte darüber hinaus das große Potential von Prozessdaten in Hinblick auf die objektive Messung von Verhaltensprozessen im Schreibkontext gezeigt werden, welches in zukünftigen digital implementierten Studien noch deutlich weiter ausgeschöpft werden sollte.
|