Een bouwsteen voor het valideren van leerwinstindicatoren per school: leerwinstmodel voor parallelle curricula binnen scholen.
Georges Van Landeghem
KU Leuven, Belgium
Abstract
De bestaande statistische modellen van individuele leerwinst worden aangepast om rekening te houden met het aanbod van parallelle curricula binnen scholen. Het aangepaste model neemt in aanmerking dat leerlingen tijdens het leerwinsttraject kunnen veranderen van curriculum, al dan niet binnen eenzelfde school. Deze bijdrage toont bovendien hoe de analyse van een dergelijk model de definitie van interpreteerbare schoolindicatoren van leerwinst stuurt. De aanpak wordt geïllustreerd met data van een recente cohorte in het voltijds gewoon secundair onderwijs in Vlaanderen. Dit werk draagt bij aan de literatuur over het modelleren van leerwinst en de rol van tracking. Het levert bovendien een bouwsteen voor de validatie van het gebruik en de interpretatie van de toekomstige resultaten van de Vlaamse toetsen.
Beschrijving
Het invoeren van gestandaardiseerde toetsen in het Vlaams leerplichtonderwijs was een doelstelling uit het vorige Vlaamse regeerakkoord (2019). Het doel was om, schooljaar na schooljaar, toetsen wiskunde en Nederlands af te nemen bij alle leerlingen van vier leerjaren. De eerste meting is gerealiseerd op het einde van het schooljaar 2023–2024, weliswaar nog beperkt tot twee leerjaren. De ontwikkeling en implementatie van deze toetsen steunt onder meer op de wetenschappelijke literatuur over psychometrie en onderwijskwaliteit en op de expertise van twintig jaar Vlaams peilingsonderzoek (STEP, 2024).
Meten alleen is echter niet voldoende. De volgende vraag is hoe men deze metingen van de “Vlaamse toetsen” zal gebruiken en interpreteren. Het regeerakkoord van 2019 zegt bijvoorbeeld dat de toetsen zullen dienen om een beeld te krijgen van “het bereiken van de eindtermen, de leerwinst van de leerlingen, de leerwinst op schoolniveau” en dat de “resultaten worden teruggekoppeld op leerling- en schoolniveau aan de scholen.” De geldigheid (validiteit) van dergelijke door de politiek geformuleerde doelstellingen over het gebruik en de interpretatie van de Vlaamse toetsen kan onderzocht worden binnen een wetenschappelijk kader. Kane (2013), bijvoorbeeld, legt uit dat een dergelijk validiteitsonderzoek mogelijk is door: (1) het expliciet maken van de ketting van beweringen (claims) die het gebruik of de interpretatie onderbouwen en (2) het in kaart brengen en evalueren van het bewijsmateriaal voor die claims. Deze congresbijdrage levert één van de bouwstenen voor het toekomstig validiteitsonderzoek van het gebruik en de interpretatie van de Vlaamse toetsen.
Schooleffecten in onderwijsonderzoek of in kwaliteitscontrolesystemen worden dikwijls bepaald uit data over een relevante uitkomstmaat op leerlingniveau (zoals: prestatie op wiskunde), andere leerlingkenmerken en schoollidmaatschap, door middel van een statistisch model. Afhankelijk van de vraag die voorligt, beschrijft men schooleffecten via hun verdeling (bijvoorbeeld: : Heck, Reid, & Leckie, 2022) of als individuele schoolindices (Liu, Levy, Yel, & Schulte, 2023). In de beide gevallen is de interpreteerbaarheid van de geschatte schooleffecten afhankelijk van de verenigbaarheid van het statistisch model met het onderwijssysteem dat de data genereert. Onderwijssystemen verschillen van elkaar inzake de complexiteit van de statistische modellen die nodig zijn om interpreteerbare schooleffecten te bekomen. Het Vlaams onderwijssysteem is complex, onder meer door de vrijheid van de leerling om een school te kiezen en van school te veranderen en de vrijheid om onderwijs aan te bieden. Deze bijdrage richt de aandacht op één element van die complexiteit, namelijk: dat scholen verschillende parallelle curricula kunnen aanbieden voor een vak zoals wiskunde en dat de aangeboden combinatie kan verschillen van school tot school.
Deze bijdrage geeft een antwoord op twee onderzoeksvragen. (1) Hoe kunnen de bestaande statistische modellen voor het analysen van leerwinst aangepast worden aan de aanwezigheid van parallelle curricula binnen scholen? (2) Hoe kan men dit aangepast analysemodel gebruiken om interpreteerbare schoolindicatoren van leerwinst te definiëren?
De uitvoerbaarheid van de aanpak wordt geïllustreerd met een dataset uit het LiSO-project (LiSO, 2023). Dit werk draagt bij aan de literatuur over het modelleren van leerwinst, de rol van tracking en het valideren van kwaliteitscontrolesystemen.
Puntschattingen van contextvariabelen binnen grootschalig vergelijkend onderzoek: vertekening van de relatie tussen achtergrondkenmerken en leerprestaties
Elodie Pools, Koen Aesaert
KU Leuven, Belgium
Abstract
Grootschalige prestatiemetingen verzamelen informatie over contextvariabelen via meerdere items, opgenomen in vragenlijsten. De antwoorden op deze items worden samengevat in één score (puntschatting), zoals een Weighted Likelihood Estimate (WLE). Deze schattingen worden vervolgens in regressiemodellen gebruikt als voorspellers van leerprestaties. Door meetfouten zijn de geschatte regressiecoëfficiënten echter systematisch vertekend (biased).
In deze studie gebruiken we alternatieve puntschattingen (Expected A-Posteriori, EAP) voor het scoren van contextvariabelen. Via een simulatiestudie en secundaire analyses van de Vlaamse PIRLS2016-data, onderzoeken we of bias in de relaties tussen de sociaaleconomische status van leerlingen en scholen (compositie-effect) enerzijds, en leesprestaties van leerlingen anderzijds, afhankelijk is van de gehanteerde schattingsprocedure van SES. De simulatiestudie toont aan dat WLE-schattingen SES-effecten op leerling- en schoolniveau vertekenen, terwijl adequaat geconditioneerde EAP deze effecten correct weergeven. De analyse van de PIRLS-data toont dat het substantiële compositie-effect van SES, zoals geschat met WLE, in werkelijkheid bijna 0 is wanneer EAP wordt gebruikt.
Beschrijving
Inleiding: In grootschalige prestatiemetingen worden contextvragenlijsten gebruikt om gegevens te verzamelen over kenmerken die samenhangen met leerprestaties. Veel van deze kenmerken worden gemeten aan de hand van meerdere items. In PIRLS (Progress in International Reading Literacy Study) 2016, wordt sociaaleconomische status (SES) – geoperationaliseerd als Home resources for learning - bijvoorbeeld gemeten met vijf items. De antwoorden op deze items worden samengevat in één score (puntschatting), gebruikmakend van Weighted Likelihood Estimates (WLE: Warm, 1989), een schattingsmethode gebaseerd op de Item Response Theory (IRT) (Martin et al., 2017). Deze scores worden vervolgens in regressiemodellen gebruikt als voorspellers van leerprestaties. Zo kan de SES van individuele leerlingen gerelateerd zijn aan hun leerprestaties, maar kan ook de schoolcompositie op basis van SES een invloed hebben, bovenop het individuele effect van SES (Harker & Tymms, 2004; Hutchison, 2007; Pokropek, 2015).
Door meetfouten wordt het geschatte effect van de WLE-scores op leerprestaties echter systematisch onderschat (een neerwaartse systematische vertekening/bias) (Braun & von Davier, 2017; Jacob & Rothstein, 2016). In meervoudige regressieanalyses leidt dit bovendien tot een vertekening van de effecten van andere covariaten (zoals de schoolcompositie op basis van SES) (Maddala, 1992; Pokropek, 2015). Ondanks deze beperkingen van WLE-scores als voorspellers in regressiemodellen, worden deze schattingen in de praktijk vaak toegepast. Alternatieve schattingsmethoden, zoals de Expected A Posteriori (EAP), leveren puntschattingen met andere eigenschappen die, theoretisch gezien, kunnen leiden tot niet-vertekende schattingen van regressiecoëfficiënten die verbonden zijn aan deze variabelen (Jacob & Rothstein, 2016).
Onderzoeksvraag: In welke mate leiden EAP-schattingen van contextuele variabelen tot niet-vertekende schattingen van effecten/relaties, met als voorbeeld het effect van SES op leesprestaties?
Methodologie: We schatten de effecten van SES op leerling- en schoolniveau (schoolcompositie-effect) op leesprestaties via een twee-level random-intercept fixed-slope model. Dit gebeurt via een secundaire analyse van de Vlaamse PIRLS 2016-data en een simulatiestudie (die de Vlaamse data nabootst; 1000 replicaties). De data-analyse wordt uitgevoerd in R (R Core Team, 2023). Zowel in de simulatiestudie als in de analyse van de Vlaamse data worden WLE-schattingen en ongeconditioneerde en geconditioneerde EAP-scores van SES voor elke leerling geschat en nadien geanalyseerd (via mirt: Chalmers, 2012, en lme4: Bates et al., 2015). Voor de conditionering vergelijken we verschillende technieken die rekening houden met de hiërarchische structuur van de gegevens, zoals die worden toegepast in grootschalige onderwijsonderzoeken (fixed-effect, criterion-scaling en leave-one-out-methoden).
Resultaten en discussie: De resultaten van de simulatiestudie tonen aan dat WLE en ongeconditioneerde EAP het individuele effect van SES onderschatten en het compositie-effect overschatten. EAP-schattingen geconditioneerd via de leave-one-out-methode herstellen deze effecten echter accuraat. De secundaire analyse van de PIRLS2016-data laat soortgelijke verschillen tussen schattingsmethoden zien: terwijl WLE een substantieel compositie-effect en een onderschat effect op leerlingniveau aangeeft, tonen geconditioneerde EAP-schattingen dat er in Vlaanderen geen compositie-effect is. De implicaties voor het gebruik van deze schattingen in de context van internationale grootschalige onderzoeken en voor statistische praktijken worden besproken.
Validiteit als argument: een flexibel testvalideringskader toegepast op taaltoetsen na instroom
Jordi Heeren, Lieve De Wachter
KU Leuven, Belgium
Abstract
Testvaliditeit is een centraal maar betwist theoretisch concept (Newton & Shaw, 2014). Een praktisch valideringskader is argumentgebaseerde validering (Kane, 1992). Daarin moet met bewijsmateriaal een rechtvaardiging worden onderbouwd voor claims die worden gemaakt op basis van observaties, met aandacht voor mogelijke tegenargumenten (Toulmin, 2003).
In onze presentatie stellen we een update voor van het validatiekader voor Post-Entry Language Assessments (PELAs) van Knoch en Elder (2013). We voegen het idee van het overall judgement toe (Newton & Shaw, 2014), om van de argumentatieketen naar een definitieve beslissing te kunnen overgaan. Bovendien volgen we Long (2005) die stelt dat bewijsmateriaal verzameld wordt via triangulatie van verschillende (combinaties van) methoden en bronnen.
We bespreken twee recent afgeronde valideringstudies die aantonen hoe deze argumentgebaseerde aanpak het gebruik van een test in een specifieke context kan valideren of ontkrachten (Heeren, 2021; Matawlie et al., 2023). Ook bespreken we de nog resterende uitdagingen en beperkingen.
Beschrijving
Validiteit is een centraal maar betwist concept in testing (Newton & Shaw, 2014). Traditioneel staat de volgende vraag centraal: “Meet de test wat hij beweert te meten?” (Lado, 1961). Hoewel vrijwel iedereen het met deze stelling eens zal zijn, is het minder duidelijk welke types en welke hoeveelheid bewijs er nodig is om die stelling hard te maken. Daarom kwam argumentgebaseerde validatie als een praktijkgericht kader naar voren (Kane, 1992).
Validatie als argumentatief proces situeert zich binnen het theoretisch kader van Toulmin (2003). Daarbij moet bewijsmateriaal aangeleverd worden om een rechtvaardiging te onderbouwen voor claims die worden gemaakt op basis van observaties, met aandacht voor mogelijke tegenargumenten. De verschillende claims vormen vervolgens een keten, waarbij elke claim voortbouwt op de vorige, verbonden door inferenties. Dit pad leidt dan van score-interpretatie naar een onderbouwing van het nut van een test voor een specifiek doel (Chapelle, 2012).
In deze presentatie stellen we een geüpdatet validatiekader voor, gebaseerd op het argumentatief model van Knoch en Elder (2013) voor het valideren van Post-Entry Language Assessments (PELAs). In het geüpdatete model wordt het idee van overall judgement (Newton & Shaw, 2014) opgenomen alsook methodologische noties uit het werk van Long (2005): bewijsmateriaal moet worden verzameld en vervolgens getrianguleerd aan de hand van (combinaties van) verschillende bronnen en methoden.
We bouwen onze presentatie op aan de hand van twee recent afgeronde validatiestudies naar een academische taalvaardigheidsscreening voor eerstejaarsstudenten om te laten zien hoe deze aanpak kan helpen bij het valideren (of ontkrachten) van het gebruik van een test. De eerste validiteitsstudie van Heeren (2021) vertrekt van een psychometrische analyse (itemanalyse en betrouwbaarheid) van de test om vervolgens een stakeholderonderzoek te behandelen, een inhoudsanalyse, een onderzoek naar het gebruik van teststrategieën door studenten en een concurrente en predictieve validiteitsstudie.
De psychometrische analyses laten zien dat de test één onderliggend construct heeft (academische taalvaardigheid) maar dat de betrouwbaarheid geen beslissingen met een grote impact toelaat. Zowel het gebruikersonderzoek als de inhoudsanalyse tonen aan dat de geteste taalvaardigheid als representatief wordt gezien voor het taalgebruik aan de opleiding. De predictieve analyses geven tot slot aan dat de test een mogelijke risicogroep kan selecteren, waardoor de test wel als een low-stakes informatief instrument kan worden ingezet aan de start van het hoger onderwijs (Heeren, 2021).
In een vervolgstudie aan de Anton de Kom Universiteit van Suriname tonen we aan dat de eerste stappen van een validiteitsargument, namelijk psychometrische analyses gecombineerd met een stakeholderanalyse, al kunnen aantonen dat een test niet geschikt is (Matawlie, Pelgrim, Heeren & De Wachter, 2023). Hoewel docenten en studenten de test als representatief ervaren, discrimineren de items niet voldoende, is hun samenhang te laag en is de test niet betrouwbaar genoeg om de claims uit de vervolgstappen in het validiteitsargument hard te kunnen maken.
Naast deze voorbeelden ter illustratie van dit flexibel toepasbaar kader zullen we de nog resterende uitdagingen en beperkingen bespreken bij het gebruik van een argumentgebaseerde aanpak.
Verkenning van de stabiliteit van VA (value added)-schattingen binnen onderzoek aangaande scholenevaluatie
Tom Van Ransbeeck1, Koen Aesaert1, Wim Van Den Noortgate1, George Leckie2
1KU Leuven, Belgium; 2Bristol University, UK
Abstract
Veel onderwijssystemen gebruiken toegevoegde waarde (Value added/ VA)-modellen om schoolprestaties te evalueren en te vergelijken. De stabiliteit van VA-schattingen in de tijd is cruciaal voor doeleinden zoals schoolkeuze of het identificeren van (in)effectieve scholen. Instabiele VA-schattingen kunnen echt zijn, veroorzaakt door werkelijke veranderingen in scholen, of kunstmatig; veroorzaakt door factoren zoals het gebruikte statistische model, steekproefkenmerken of covariaten.
Deze studie richt zich hierbij specifiek op de steekproefgrootte. Het doel was om de relatie tussen steekproefgrootte en bias in de stabiliteit van VA-schattingen te bestuderen onder de voorwaarden van een gezamenlijk (joint)VA-model en de traditionele benadering van afzonderlijke(single) VA-modellen. Er wordt aangenomen dat de gezamenlijke modelbenadering biasproblemen aanpakt.
Een simulatiestudie toonde aan dat de stabiliteitsschatting bij de joint-modelbenadering onbevooroordeeld is. Een minimum aantal leerlingen per school is vereist om bias te vermijden. Een voldoende grote totale steekproefgrootte maakt adequate inferentie mogelijk, ook bij kleinere schoolgroottes, zoals binnen de Vlaamse Context.
Beschrijving
I. Inleiding
Veel onderwijssystemen gebruiken waarde-toegevoegde/ Value-added (VA) modellen om de effecten van scholen op de prestaties van hun studenten (relatief) te beoordelen. VA (Value added/toegevoegde waarde) wordt gedefinieerd als de mate waarin een school de leerontwikkeling van haar studenten gedurende een specifieke tijd bevordert (Goldstein, 1997). Hierbij wordt verondersteld dat instabiliteit van VA-effecten echte veranderingen in kwaliteit weerspiegelen(Dumay et al., 2014). Onstabiele VA-schattingen kunnen echter zowel echt zijn; veroorzaakt door niet-persistente schoolkwaliteit, als kunstmatig/modelgeïnduceerd. Deze studie richt zich op twee methodologische bronnen van kunstmatige instabiliteit: het type VA-model dat wordt gebruikt en de steekproefgrootte.
Onderzoek toonde aan dat VA-schattingen gebaseerd op een klein aantal studenten gebrek aan precisie en betrouwbaarheid vertonen(Jakubowski, 2008; Leckie, 2018). In scholen met slechts een klein aantal studenten kan steekproefvariabiliteit ertoe leiden dat schattingen extreem klein of groot zijn ten opzichte van het werkelijke schooleffect (Goldstein, 1997). Inzicht in hoe VA-modellen presteren afhankelijk van sample-features is pivotaal met het oog op hun (mogelijks) toekomstig gebruik in het kader van de centrale toetsen, specifiek met oog voor de Vlaamse context met meer kleinere scholen.
II. Onderzoeksvragen
(a). Welke verschillen zijn er met betrekking tot schattingsaccuraatheid tussen de single model(enkelvoudige)- en joint model-approach (gezamenlijke modelbenadering) voor de stabiliteit van VA-effecten? (b). Wat is de minimale vereiste voor het aantal scholen en/of studenten om adequate statistische inferentie mogelijk te maken?
III. Methoden
Een simulatiestudie (3000 replicaties) werd uitgevoerd waarbij gebalanceerde data werd gegenereerd voor 30, 50, 100 en 500 scholen, met 10, 30, 50 en 100 studenten per school teneinde realistische steekproefmogelijkheden te benaderen en bias in standaardfouten (SE) te vermijden (Maas & Hox, 2005). Binnen een single- en joint- multilevelmodel-benadering werden huidige prestatie als afhankelijke variabele en eerdere prestaties als predictor (populatieregressiecoëfficiënt = 0,2) gebruikt met covariaten: thuistaal en sociale samenstelling op schoolniveau. Gebaseerd op Leckie en Goldstein (2009) werd de correlatie tussen residuen van de twee cohorten op 0,8 ingesteld.
IV. Resultaten
De stabiliteitscoëfficiënt is naar beneden toe vertekend voor het enkelvoudige model met kleinere bias voor grotere scholen. Het aantal scholen lijkt vooral de SE's te beïnvloeden. Bovendien vertonen scenario's met een klein aantal scholen grotere empirische SE's en scheefheid naar links. De schatter van de stabiliteitscoëfficiënt in het gezamenlijke model toont milde opwaartse bias voor scenario's met 10 scholen. Zowel scholen als studenten beïnvloeden de SE, waarbij het aantal scholen efficiëntie het sterkst bevordert. Verder tonen de resultaten dat een voldoende groot aantal scholen robuustheid lijkt te bieden, zelfs wanneer schoolgroottes klein zijn.
Waar de resultaten van deze studie Leckie (2018) onderschrijven door aan te tonen hoe de joint-model benadering de stabiliteit van de VA-effecten correct schat en bias minimaal is blijkt toch een minimumaantal studenten per school vereist om eindige-steekproef bias te vermijden. De totale steekproefgrootte dient afdoende te zijn om adequate inferentie mogelijk te maken. Een praktische aanbeveling voor steekproefgroottes is een minimum van 50 scholen in combinatie met een redelijk aantal studenten of een veel groter aantal scholen om kleinere schoolgroottes mogelijk te maken.
"Insights into Pupil school well-being: Validation of the Appwel Measurement Instrument"
Hanne Luts1, Sascha Spikic2, Katrien Struyven2
1UHasselt, Belgium; 2Hogeschool PXL, Belgium
Abstract
It is the responsibility of schools to encourage academic achievement and foster well-being, since the latter is an essential component for effective learning (Engels et al., 2000; Laevers et al., 2003; Van Damme et al., 2001). The present study aims to develop and validate Appwel, a tool to measure school well-being in Flanders, Belgium, with a view to addressing theoretical gaps in existing measures (Konu et al., 2002).
The research involved three phases: a Delphi study with 40 experts, one-on-one language tests with 20 pupils, and exploratory and confirmatory factor analysis with data from 163 schools.Appwel refines existing models, identifying four well-being factors. Following the successful implementation of Appwel in Flanders, it was found to provide schools with a framework capable of assessing and enhancing well-being at the school, class, and pupil levels. This contributes to the implementation of informed interventions and improved outcomes.
Beschrijving
The concept of well-being has evolved from being defined as the absence of illness to encompassing welfare, happiness, and quality of life. In education, well-being is often categorized into two dimensions: objective well-being, which includes measurable factors such as physical health, and subjective well-being, which encompasses emotional experiences and perceptions. This study focuses on subjective school well-being, specifically pupils’ perceptions and feelings about their school experiences. School well-being is crucial as it affects academic performance, motivation, social-emotional development, and long-term life outcomes, including health, relationships, and career success.
Most existing well-being measurement tools are designed for adults or focus on cognitive aspects of learning, limiting their relevance in educational contexts. Instruments like Huebner’s multi-domain satisfaction model and Kanonire’s five-component framework provide valuable insights but are limited in their applicability to schools. The Konu and Rimpelä model, based on Allardt's framework of "having, loving, and being," is especially relevant for examining school well-being and serves as the foundation for this research. The model was adapted to the Flemish educational context to develop a practical, valid, and reliable tool for assessing school well-being.
Enhancing school well-being is essential not only for optimizing students’ school experiences but also for supporting their academic, emotional, and physical development. The study is guided by three research questions: What are the necessary concepts for developing a school well-being survey in Flemish secondary education? Is the instrument reliable and valid? How can the tool be designed for user-friendliness in schools?
Conducted in Flemish secondary education, the study focuses on developing and validating an instrument for assessing school well-being. The Flemish educational system consists of three degrees with distinct academic and vocational pathways, all incorporating mental well-being. A Delphi study with experts and educators identified key components of school well-being, including relationships, competence, emotional state, stress. Feedback from this study led to refinements of the instrument, including the addition of coping strategies and school engagement. Despite the voluntary nature of participation, which limited the representativeness of the sample, the study successfully combines theoretical rigor with practical application to improve student well-being.
The research began with language testing to ensure students could comprehend and interpret the survey questions accurately. Following the Delphi study and language testing, a preliminary version of the questionnaire was developed. This version underwent exploratory and confirmatory factor analyses, refining the tool and resulting in the final school well-being questionnaire.
The final instrument consists of four dimensions: classroom climate and engagement, authenticity and support, social relationships among pupils, and academic self-concept. Each dimension demonstrates sufficient internal consistency to function as an independent factor, while the factors are interconnected to provide a comprehensive measure of school well-being. The tool, known as Appwel, is widely used in Flanders and offers valuable insights for school counselling. It identifies students needing support and facilitates more timely interventions. However, Appwel does not address broader mental health issues and is limited by data privacy restrictions under GDPR. Its effectiveness depends on implementation in schools, as researchers cannot fully control communication and participation practices.
|