top of page

Évaluation de l’ajustement des modèles de théorie de la réponse à l’item utilisés dans les grandes enquêtes d’évaluation éducative

L’étude cherche à vérifier si certains modèles statistiques utilisés pour noter de grandes évaluations éducatives fonctionnent bien. Les chercheurs proposent deux outils pour identifier les problèmes.  Si quelques défauts sont identifiés dans les données du NAEP, ils restent mineurs et ne changent presque rien dans la pratique.




Un enjeu décisif pour la validité des évaluations issues des grandes enquêtes éducatives

Dans cet article, nous nous concentrons sur un sujet fondamental : la pertinence des modèles statistiques utilisés dans les évaluations éducatives à grande échelle. Lorsqu’un modèle statistique est employé pour produire des scores dans ce type d’évaluation, il ne suffit pas qu’il soit répandu dans la littérature ou facile à utiliser. Il doit être capable d’expliquer de manière adéquate les réponses observées, autrement dit, de bien s’ajuster aux données. Cette exigence est particulièrement importante dans des programmes comme le NAEP (National Assessment of Educational Progress,  une évaluation issue des Etats-Unis), mais aussi dans d’autres évaluations à grande échelle reposant sur une logique similaire, comme le TIMSS (Trends in Mathematics and Science Study, évaluation internationale), le PIRLS (Progress in International Reading Literacy Study, qui propose une évaluation de la lecture) ou encore l’IALS (International Adult Literacy Study, une étude sur la littératie des adultes). Notre objectif est donc de renforcer la manière d’évaluer l’ajustement du modèle utilisé pour les publications officielles.


La portée de l’étude est à la fois méthodologique et opérationnelle. Nous ne cherchons pas seulement à montrer qu’un modèle peut être imparfait. Plus important encore, nous cherchons à déterminer si cette imperfection a des conséquences réelles sur les résultats publiés. Pour cela, nous adaptons deux familles de résidus à des contextes complexes impliquant des pondérations, des plans de carnets de test et une compétence multidimensionnelle. Nous appliquons ensuite cette approche à plusieurs ensembles de données du NAEP, provenant d’évaluations en mathématiques, en lecture et en sciences.


Une méthode pour distinguer un écart statistique d’un problème réel

Un modèle d’évaluation éducative est acceptable si ce qu’il prédit est proche de ce que les élèves ont effectivement réalisé à l’évaluation. À l’inverse, il devient problématique si l’écart entre la prédiction et la réalité est manifeste et substantiel. Pour évaluer l’ampleur de cet écart, nous proposons deux types de vérifications. La première porte sur chaque item pris isolément. La seconde porte sur les relations entre les items, notamment sur la capacité du modèle à rendre compte de la manière dont deux questions fonctionnent conjointement.


En pratique, notre étude peut être utilisée en trois étapes. Premièrement, plusieurs modèles statistiques doivent être comparés, et il convient de retenir celui qui améliore réellement la qualité prédictive. Sur ce point, nous montrons que le passage d’un modèle avec un paramètre par item à un modèle avec deux paramètres produit l’amélioration la plus nette. Deuxièmement, il faut identifier les items pour lesquels le comportement du modèle s’écarte du schéma attendu. Troisièmement, il convient de tester si ces écarts affectent les résultats qui importent le plus aux utilisateurs des scores, comme les scores moyens ou les pourcentages d’élèves situés à certains niveaux de performance. Le principe directeur est donc simple puisque l'écart statistique n’implique pas automatiquement un impact pratique ni l’inutilité du modèle.


Des défauts identifié, mais un impact pratique limité

Nous avons observé un mauvais ajustement statistiquement significatif dans l’ensemble des jeux de données analysés, ce qui signifie que les modèles ne décrivent pas parfaitement les données. Les écarts apparaissent au niveau de certains items, mais aussi pour certaines paires d’items. Ce point est important, car il indique que le modèle ne parvient pas toujours à rendre compte de manière adéquate de certaines dépendances entre les items.


Cependant, le résultat décisif se situe ailleurs. Lorsque nous retirons les neuf items les plus problématiques de chaque évaluation et recalculons les principaux résultats, ceux-ci changent très peu. Sur 48 comparaisons par jeu de données, on n’observe aucune différence dans 44 cas pour les mathématiques en tendance de long terme à l'âge de 9 ans, dans 36 cas pour la lecture en terminale, dans 32 cas pour les mathématiques en 4e, et dans 47 cas pour les sciences en terminale. Dans les rares cas où une différence apparaît, elle n’est que d’un point sur l’échelle des scores ou des pourcentages. Autrement dit, le mauvais ajustement détecté semble avoir un impact pratiquement négligeable sur les résultats publiés.


Cet article peut être utile pour les évaluations à grande échelle lorsque l’objectif n’est pas de trouver un modèle statistique parfait, mais plutôt un modèle suffisamment robuste pour fonder des interprétations stables. C’est d’ailleurs l’un des messages les plus importants de l’article. En psychométrie appliquée, un modèle peut être imparfait tout en demeurant utile à la prise de décision, à condition que ses défauts ne déforment pas substantiellement les résultats finaux.


Plusieurs limites doivent néanmoins être gardées à l’esprit. Premièrement, certains tests d’ajustement présentent des taux d’erreur de type I trop élevés, en particulier aux extrémités de l’échelle de compétence et lorsque l’information du test diminue. Deuxièmement, nous n’avons analysé que des données du NAEP, et non celles d’autres évaluations à grande échelle comme PISA ou TIMSS. Enfin, les dépendances entre items identifiées par les résidus de second ordre ne semblent pas pouvoir être corrigées facilement dans les données étudiées.


Ce que cette étude change dans la manière de juger un modèle

La conclusion de l’article est volontairement mesurée. Un bon modèle n’est pas un modèle parfait. C’est un modèle suffisamment précis pour expliquer les résultats importants. Notre contribution consiste donc moins à rechercher une perfection abstraite qu’à proposer une manière plus rigoureuse d’évaluer la robustesse réelle d’un modèle de TRI dans les grandes enquêtes éducatives.


La formulation la plus fidèle à l’esprit de l’article peut se résumer ainsi : si le modèle présente des écarts, mais que les résultats d’intérêt finaux demeurent presque inchangés, il reste opérationnel. Si, en revanche, les écarts modifient substantiellement les moyennes publiées, les seuils ou les pourcentages rapportés, alors le modèle doit être réexaminé. C’est cette distinction entre significativité statistique et significativité pratique qui constitue le cœur de notre démonstration.




Commentaires


bottom of page