Café Pédagogique FDLM – Prise de notes. “L’évaluation : Comment fabrique-t-on un test ?”

Présentation de la revue le Français dans le Monde par Sébastien Langevin

“Faire rentrer l’actualité dans la salle de cours”
Fiche pédagogiques à télécharger.
Mise en ligne de reportages avec transcription intégrale du texte.
La partie métier reprend une notion didactique (contient une fiche pédagogique).
Un dossier fait varier les genres journalistiques (pédagogie, culturel, civilisation).
Interlude. Exemple : Le Graphe. Prendre un mot puis l’accompagner de citations comprenant ce mot.
Une poésie, une nouvelle, BD dans chaque numéro.

Les intervenants :

Bruno Mègre est responsable du département évaluation et certifications du Centre international d’études pédagogiques (CIEP).

Sébastien Georges est responsable de la cellule qualité et expertises du CIEP, département évaluation et certifications.

“L’évaluation : Comment fabrique-t-on un test ?”

Au CIEP, 43 personnes travaillent au département évaluation.
Chaque année, entre 475 000 et 500 000 personnes sont candidates au DELF ou DALF.
A titre de comparaison, Cambridge évalue 3 millions de candidats sur leurs compétences en langue anglaise.

Une nouveauté : le TCF ANF (accès à la nationalité française).
Le Ministère de l’intérieur demande un niveau B1.

Les certifications sont à fort enjeux (obtention d’un visa, d’une nationalité). Il faut donc être juste, équitable.

Trois piliers de l’équité :

  1. Validité
  2. Fidélité
  3. Standardisation

Vue intérieure

  1. Produire des items
  2. Tester des items
  3. Distribuer des items

TCF :
800 centres à travers le monde.
100 000 candidats évalués cette année.

Les pré-tests pour les nouveaux items :

Un item est présenté à 500 pseudo candidats. Ces pré-tests ne permettent pas d’obtenir une attestation officielle.

Comment on teste un nouvel item ?

On l’associe à un item ancre.

L’objectif en concevant des certifications est de réduire l’erreur de mesure.

Score = Score vrai +- Marge d’erreur

Comment analyser la validité d’un item ?

Pour un item, on analyse les écarts du nombre de bonnes réponses entre les groupes de candidats. Par exemple avec 3 groupes de niveaux différents.

L’étude des résultats permet de voir si l’item permet de positionner les candidats sur différents niveaux (pour le TCF, il y en a 6).

Exemple de dysfonctionnement d’un item :

Item trop facile : ne permet pas de positionner les candidats à des niveaux différents car tout le monde identifie la bonne réponse.

Item trop difficile. Idem ! Car personne ne trouve la bonne réponse.

Le modèle de Rasch :

“Une personne qui a une habilité supérieure à une autre personne doit avoir une plus grande probabilité de réussir un item lié à cette compétence.”

L’objectif est de trouver l’item qui fait qu’un candidat a 50 % de chance de se tromper et 50 % de trouver la bonne réponse.

Il suffit alors de regarder le niveau de l’item… c’est le niveau du candidat !

Important : il faut supprimer un time qui ne répond pas au modèle de Rasch.

Travail sur l’équité.

Un item doit discriminer les candidats uniquement sur la compétence que l’on souhaite mesurer.

Si ce n’est pas le cas, il faut supprimer l’item du dispositif d’évaluation.

Il ne faut pas trop de réponses possibles dans un item.
Sinon les “distracteurs” de l’item perdent de leur efficacité.
Les anglophones enlèvent des points en cas de mauvaises réponses.
Les français n’enlèvent pas de points. Respect du modèle de Rasch 0 ou 1.

Tests adaptatifs : “La rolls royce des tests” car il permet d’être plus précis et plus rapide (moins d’items car le parcours du candidat est personnalisé et “colle au niveau constaté lors des items précédents”).
Le test s’arrête à l’item qui permet d’atteindre la fameuse probabilité : 50 %

Mais le test adaptatif (vs linéaire) pose problème car :
on ne sait pas combien de questions seront nécessaires pour mesurer le niveau.
il faut une plus grande batterie d’item car au début du test on ne connait pas encore les items à mobiliser.

– – –

Un après-midi convivial et intéressant qui explique la construction d’un test et la manière d’affiner sa qualité.

Une règle simple : produire des items, les tester… et ne garder que les bons !

Restez en contact avec nous

Soyez notifiés de l'activité du Café du FLE lors:

 

- D'évènements

- D'articles publiés

- De nouveautés liées au FLE