La théorie des tests

La “mesure” de l’intelligence 

Une question importante est de savoir réellement ce que l’on mesure. Et notamment, peut on mesurer une “quantité” d’intelligence comme on mesurerait la taille d’un individu ? 

L’intelligence ne représente pas une quantité de quelque chose. Il n’y a donc pas de point zéro, pas de point maximum, et pas de graduations au sens strict d’unités. Nous ne pouvons pas directement la mesurer. En revanche, ce qui est mesuré, le quotient intellectuel, désigne un niveau de performance d’une personne comparé à une population de même âge. C’est donc un classement : une personne répondra correctement autant, plus, ou moins que la majorité des individus de son âge. 


À retenir 

On ne peut pas mesurer une quantité d’intelligence, mais un niveau de performance d’un individu par rapport aux autres individus d’une même classe d’âge. 

Une mesure contextualisée 

Grégoire (2019) évoque la métaphore suivante :

Lorsqu’un médecin mesure notre taille et prend notre température, sa personnalité et la relation que nous entretenons avec lui ne modifient pas les caractéristiques mesurées. La marque de fabrique du thermomètre et de la toise est également une information sans importance. (…) Lorsque nous évaluons l’intelligence, les conditions de l’examen, la relation du patient avec le clinicien et le test utilisé ont une influence sur le résultat obtenu. Il est impossible de mesurer l’intelligence de manière neutre, impersonnelle et universelle.


À retenir 

La mesure de l’intelligence n’est jamais neutre et est contextualisée. La personnalité de l’évaluateur, la nature de la relation et le choix du test utilisé peuvent influencer les performances. 

La stabilité de cette mesure 

L’intelligence n’est pas une caractéristique stable. Elle évolue tout au long de la vie. D’un point de vue statistique, sa mesure via le QI reste relativement stable, c’est-à-dire que la position d’un individu au sein de sa population de référence a tendance à être identique. Néanmoins, comme nous venons de le voir, sa mesure est contextualisée. En ce sens, de nombreux facteurs influencent sa mesure : la relation avec le praticien, l’humeur, la fatigue, la motivation… Voici un schéma que j’ai adapté et que j’annexe systématiquement à mes bilans.  Lors des épreuves évaluant les fonctions cognitives, des facteurs personnels permettent d’être disponible afin de s’engager dans la tâche.

D’un point de vue statistique, le QI a tendance à être stable, mais d’un point de vue individuel, il peut varier. 

Niveau Intellectuel de 5 hommes de la naissance à 36 ans (Source : Bayley, 1970, cité par Grégoire, 2019)

Il n’y a pas que des facteurs individuels ou contextuels qui influent sur la mesure du QI, il y a également des facteurs liés au test lui-même. En effet, les corrélations entre les différents tests s’échelonnent entre 0.60 à 0.80. Ce sont de fortes corrélations mais elles ne sont pas parfaiteS (corrélation de 1). Ces différences proviennent de deux principales sources : les fondements théoriques et les qualités métriques des tests. 


À retenir 

Si la position d’un individu au sein de sa classe d’âge a tendance à rester la même tout au long de sa vie, elle peut néanmoins varier selon des facteurs personnels ou contextuels et en fonction du test utilisé et de la version du test. 

Les propriétés des tests

Huteau et Lautrey (2006) précisent les quatre propriétés suivantes : « Un test est un dispositif d’observation des individus qui présentent quatre propriétés :

  • il est standardisé ;
  • il permet de situer la conduite de chaque sujet dans un groupe de référence ;
  • le degré de précision des mesures qu’il permet est évalué (fidélité) ;
  • la signification théorique ou pratique de ces mesures est précisée (validité).»

1.  La standardisation

La standardisation désigne les procédures mises en place pour rendre la passation la plus neutre possible et ainsi comparer les individus entre eux. Elle concerne la situation d’observation, les consignes ainsi que la cotation. Dans le manuel d’un test, sont explicités clairement comment exprimer les consignes, comment coter et comment observer le comportement de l’individu.

Ainsi, une telle « standardisation a pour fonction unique de rendre l’évaluation objective, c’est-à-dire éviter que le constat des différences entre les individus soit influencé par la subjectivité de l’observateur . (…) (Sans elle), on ne saurait plus ce qui, dans la conduite d’un sujet, est attribuable au sujet lui-même et ce qui est attribuable à celui qui observe, et par voie de conséquence, les observations recueillies sont peu utilisables. » (Huteau et Lautrey, 2006). 


À retenir 

Afin de pouvoir comparer les individus entre eux et rendre les résultats les plus stables possibles, il faut que le test soit standardisé au niveau des procédures de passation et de cotation. 
2.  L’étalonnage

Un même test est partagé par une grande tranche d’âge. Dans ce cas, la performance d’un sujet en score brut ne nous donne peu d’informations sur son niveau en rapport aux autres personnes du même groupe d’âge. En effet, le score brut ne permet pas de comparer la performance d’un sujet à celle des autres sujets du même groupe. Pour cela, il faut transformer le score brut en note étalonnée par le biais d’une opération dite étalonnage.

Il existe deux catégories d’étalonnage :

2.1 Les quantilages

Dans les quantilages, les catégories sont créées en regroupant à chaque fois le même effectif. Il suffit de regrouper les scores bruts de l’échantillon de manière à obtenir des catégories de même effectif. Le quantile est la limite entre deux catégories. Le nombre de catégories généralement créées est 4 (on parle alors de quartile), 10 (on parle de décile) ou 100 (on parle de centile ou percentile).

Dire qu’un sujet se trouve dans le 98ème percentile signifie qu’il se situe dans un groupe composé de 1 % des sujets (comme chacun des autres groupes) et que 2 % des sujets ont des scores supérieurs à ce groupe et 98 %, des scores inférieurs.

2.2 L’échelle normalisée (la loi normale)

Les effectifs des catégories d’une échelle normalisée sont établis à partir des propriétés de la distribution théorique de Laplace-Gauss. On l’appelle aussi « loi normale » et elle donne naissance à « la courbe normale » ou « courbe de Gauss » ou encore « courbe en cloche ». C’est un modèle probabiliste utilisé pour décrire de nombreux phénomènes observés dans la pratique. Sa représentation graphique est une densité de probabilité.  

Concrètement, cette loi dit que plus l’effectif augmente (plus on mesure un événement), plus on a de chance d’observer un certain événement. Par exemple, si on mesure la taille de 10 personnes, on aura une dizaine de mesures différentes dont certaines seront proches. Mais si on augmente l’effectif, on observe que la taille qui est la plus souvent mesurée (l’événement) a tendance à se regrouper autour d’une moyenne. Autour de cette moyenne, il y a de moins en moins de personnes grandes et encore moins très grandes, et réciproquement pour les personnes petites. La distribution de la taille en fonction de l’effectif a ainsi une forme en cloche.

Courbe de Gauss
Ici, la moyenne est la taille

Dans notre cas, plus on mesure des performances à un test auprès de personnes différentes (plus l’effectif sur lequel on mesure est important), plus on a de chances d’observer une performance donnée. Cette performance donnée, c’est le niveau d’intelligence qui est le plus répandu dans la population. C’est ce qu’on appelle la moyenne.

La rapidité à laquelle on observe de moins en moins d’effectif est ce qu’on appelle l’écart-type; on parle aussi de dispersion. Nous avons :

– 68% de la population se trouvent entre -1 et +1 écart-type de la moyenne

– 95% de la population se trouvent entre -2 et +2 écarts-type de la moyenne

– 99,7% de la population se trouvent entre -3 et +3 écarts-type de la moyenne.

La distribution théorique de Laplace-Gauss et ses écarts type

En termes de Q.I., soit en psychométrie, des valeurs d’écart type précis ont été retenus. La moyenne a été fixée à 100 et l’écart-type à 15. Ainsi définie, une distribution normalisée donne la représentation suivante :

Loi normale ou de Gauss avec norme à 100 et écart type à 15

À retenir 

L’étalonnage consiste à administrer un test à un grand nombre de sujets représentatifs de la population, afin d’observer comment un trait donné (ici, les performances) se distribue parmi cette population. Deux types d’opération statistique différente (le quantilage et la normalisation) permettent ensuite de transformer la note brute d’un sujet en une note dite étalonnée, qui permettra de connaître la position d’un individu par rapport aux autres individus d’une classe d’âge. 
3.  Les erreurs de mesure

Malgré les précautions prises pour standardiser les épreuves et ainsi enlever toute subjectivité, d’autres erreurs de mesure existent toujours. Elles peuvent provenir du moment de passation ou du dispositif, c’est-à-dire du test en lui-même.

Chaque épreuve composant un test est théoriquement composée :

  • d’un facteur g
  • d’un facteur de groupe : Gc, Gv…
  • de facteurs spécifiques
  • de l’erreur de mesure.

La variance partagée est la caractéristique mesurée par le test en question mais aussi par d’autres tests ; la variance spécifique est la caractéristique mesurée uniquement par ce test ; et la variance de l’erreur représente les nombreuses erreurs de mesure.

Composantes de la variance des scores aux tests

Deux types d’erreurs de mesure peuvent être évalués :

3.1 La fidélité ou stabilité

La fidélité est la précision d’un test. La position d’une personne devrait être la même à un instant T et à un instant T+1, mais ce n’est pas toujours le cas car, lors du test, un sujet peut ne pas être en forme physiquement ou préoccupé, alors qu’à un autre moment, il aurait été plus investi et aurait mieux réussi. Toute mesure est donc entachée d’une erreur aléatoire qui tient à ce facteur temps. 

Pour évaluer la fidélité d’un test, lors des pré-tests, on l’administre à deux reprises à un groupe de sujets. On calcule un coefficient de corrélation entre les deux scores. Si celui-ci est élevé (c’est-à-dire proche de 1), le test est alors considéré comme stable, et on peut dire que ce qu’on y mesure est faiblement entaché d’erreur dépendante du moment de passation. Au contraire, si ce coefficient est faible (proche de zéro), la mesure n’est pas stable, et on ne peut donc caractériser le sujet de façon fiable.

C’est pour cela que l’on donne un intervalle de confiance et que toute différence entre des épreuves ou des indices n’est pas forcément signe de pathologie mais qu’elle peut être juste le reflet d’une variation normale.


À retenir 

La fidélité représente la stabilité des performances à un test entre deux passations. 

3.2 L’équivalence

Lors d’un test de vocabulaire par exemple, il se peut qu’un sujet ne connaisse pas un terme alors qu’un autre de même difficulté, de même fréquence dans la langue, de même degré d’abstraction lui serait connu.

L’équivalence se demande « dans quelle mesure le score d’un sujet n’est pas affecté par le caractère spécifique des situations problèmes qui lui sont proposées » c’est-à-dire des items choisis  (Huteau et Lautrey, 2006).

Pour cela, on construit deux formes parallèles d’un même test que l’on administre à un groupe de sujets. Le coefficient de corrélation entre les deux scores obtenus aux deux formes du test est le coefficient d’équivalence. Si celui-ci est élevé, les erreurs tenant au choix des items sont négligeables. Inversement, s’il est faible, le score du sujet varie selon les items ; ce qui signifie que les items ont un caractère spécifique, imprévu et non expliqué ; l’utilisation de l’épreuve est alors ambiguë.


À retenir 

L’équivalence étudie deux formes parallèles d’un test afin de s’assurer que le choix d’items d’une certaine difficulté n’impactent pas les performances à ces deux versions d’un tests censées être équivalentes. 

4. La validité

La validité se pose la question de l’intérêt pratique d’un test et la signification de ce qu’il mesure. Grégoire (2019) rappelle que la validité n’est pas une propriété intrinsèque du test, c’est une propriété de l’interprétation des scores recueillis à l’aide de ce test.

4.1 La validité empirique

Les tests sont principalement utilisés à visée diagnostique ou pronostique. Ils seront considérés comme valides s’ils permettent effectivement d’établir des diagnostics ou des pronostics qui se révéleront exacts. La validité diagnostique apparaît lors de la pratique clinique. La validité pronostique permet de juger de la valeur prédictive d’un test. Par exemple, pour un test possédant un coefficient de validité pronostique élevé, des scores élevés pourront prédire la réussite au niveau scolaire, au niveau professionnel… D’ailleurs, les tests d’intelligence sont de très bons indicateurs (Grégoire, 2019) :

  • des apprentissages scolaires, 
  • des performances professionnelles, 
  • et de l’adaptation sociale. 

Grégoire ajoute qu’il n’y a pas de “mesure psychologique mieux corrélée avec ses différents critères“. Il précise ensuite que la valeur prédictive des tests n’est que probabiliste et non déterministe car d’autres facteurs que l’intelligence interviennent dans la réussite scolaire et professionnelle. 

4.2 La validité théorique

Un test a une validité théorique élevée s’il mesure bien ce qu’il est censé mesurer. Par exemple, on part d’hypothèses sur le nombre de facteurs de groupe et on réalise des analyses factorielles exploratoires puis confirmatoires pour valider une approche en 4 ou 5 facteurs. 


À retenir 

La validité s’intéresse à l’intérêt pratique d’un test en tant que valeur diagnostique et pronostique, et à la signification de ce qu’il mesure. 

 5. La sensibilité

Un test doit également être sensible, c’est-à-dire qu’il doit pouvoir discriminer finement les individus entre eux, notamment aux performances extrêmes, faibles ou très élevées.

À retenir 


La sensibilité est le pouvoir discriminant d’un test permettant de situer deux individus dont les performances sont proches. 

Sources

Bayley N. (1970). Development of mental abilities. In P.H. Musen, Carmichael's manual of child psychology. New York : John Wiley.

Grégoire J. (2019) . L'examen clinique de l'intelligence de l'enfant. Fondements et pratique du WISC-V. Editions Mardaga.

Huteau M., Lautrey J. (2006). Les tests d’intelligence. Editions La découverte, Paris.  

%d blogueurs aiment cette page :