Comprendre l'analyse statistique de la Corrélation

Dans cet article vous découvrirez la définition de la corrélation, la distinction entre les principales type de mesure, notamment de Spearman, et de Pearson

Rachid Akardoud

Définition de la corrélation

La corrélation est un outil statistique utilisé pour le Machine Learning afin d’identifier des relations de dépendance entre plusieurs variables. Il existe plusieurs types de corrélations. Découvrez ci-dessous plus de détails sur les corrélations de Pearson et de Spearman.

Pour l’analyse de données, un data scientiste dispose de plusieurs outils statistiques, parmi ces outils, il peut utiliser la corrélation.

Il s’agit d’une mesure statistique particulièrement utile qui permet d’étudier la relation entre deux variables à partir du calcul d’un coefficient de corrélation. La corrélation correspond à la force (indiquée par la valeur absolue du coefficient) ainsi qu’à la direction (indiquée par le signe du coefficient) de la relation entre ces variables.

La direction peut être soit positive (lorsqu’une x augmente, y augmente aussi) ou négative (lorsque x augmente, y diminue ou l’inverse). Il existe plusieurs types de corrélations. Parmi ces corrélations, il y en a deux qui sont particulièrement utilisées : la corrélation de Pearson et la corrélation de Spearman. Ces deux types de corrélations vont être détaillés dans la suite de cet article.

La corrélation de Pearson:

Pour conclusion je veux dire que la corrélation de Spearman mesure la force et la direction d'une relation monotone entre deux variables, qu'elles soient quantitatives ou ordinales, elle est basée sur les rangs des données plutôt que sur leurs valeurs brutes, ce qui la rend moins sensible aux valeurs aberrantes et ne requiert pas que les données suivent une distribution normale,

En revanche, la corrélation de Pearson évalue spécifiquement la force et la direction d'une relation linéaire entre deux variables quantitatives, nécessitant que les données suivent une distribution normale, ainsi, la corrélation de Spearman est souvent préférée lorsque les données ne répondent pas aux suppositions de linéarité ou de normalité1.

La corrélation de Spearman

La corrélation de Spearman est une mesure de corrélation qui mesure une relation de monotonie entre deux variables à partir du rang des données. Un exemple de détermination du rang des données est : [58,70,40] devient [2,1,3]. On utilise souvent la corrélation de Spearman pour des données constituées d’outliers. Afin de mesurer la corrélation de Spearman, l’indicateur utilisé est le coefficient de Spearman rs aussi appelé coefficient de rang indiquée par la forme ci-dessous.

Dans cette formule, la variable n indique le nombre de points de la série de données. La variable d correspond au carré de la différence des rangs entre chaque point de coordonnées (x,y).

On croit que la différence entre les deux types de corrélation est très claire maintenant, pour se métrer très applicable voici les exemples suivants :

Exemple pour la corrélation de Pearson

Le tableau présente l’échelle de compétences informatiques et les notes d’étudiants au examen de Statistique :

NB : la nature de corrélation entre les deux variables signifie qu’il y a une corrélation significative négatif, alors les variables sont dépendantes linéairement négativement.

Dans SPSS on analyse la corrélation de Person pour examine est ce qu’il y a une corrélation linéair entre les deux variables de tableau précédent, le tableau suivant il présent la nature et le dégrée de la corrélation

Exemple pour la corrélation Spearman :

Le tableau suivant présent la corrélation selon le type de Spearman qui mesure la relation entre les Rangs

Avant de calculer le coefficient de Spearman, il faut s’assurer que les données vérifient les hypothèses suivantes :

1 L’échantillon de données est aléatoire

La relation entre les variables est monotone

3 Les données sont associées par paires

4 Les observations sont indépendantes

5 Il existe une relation de monotonie entre les variables

6 Les variables sont ordinales ou continues.

L’interprétation du coefficient de Spearman rs varie selon les valeurs obtenues :

Si rs est proche de 1, alors il y a une relation monotone positive entre les variables.

Si rs est proche de 0 alors il n’y a aucune relation monotone entre les variables

Si rs est proche de -1 alors, il y a une relation monotone négative entre les variables.

Un exemple d’application de la corrélation de Spearman serait l’étude de la relation entre les préférences d’un consommateur et le prix du produit.

La corrélation de Pearson, aussi appelée corrélation linéaire, permet de mesurer la relation linéaire entre deux variables continues. La corrélation de Pearson est indiquée par la valeur du coefficient de corrélation r calculée à l’aide la forme suivante

Avant de calculer le coefficient de Pearson, il faut s’assurer que les données vérifient les hypothèses suivantes :

1 L’échantillon de données est aléatoire (représentatif de la population)

2 Les variables sont quantitatives (continues)

3 Les données sont associées par paires (on associe à chaque valeur x une valeur y)

4 Les observations sont indépendantes

5 Les données sont distribuées normalement

6 Il existe une relation linéaire entre les variables

7 Aucun oublier n’est présent dans les données

La valeur du coefficient de corrélation r est comprise entre -1 et 1. Il y a plusieurs cas possibles selon la valeur de r :

Si r est proche de 1, alors les variables sont dépendantes linéairement positivement.

Si r est proche de 0, alors il n’y a aucune relation linéaire entre les variables

Si r est proche de -1, alors les variables sont dépendantes linéairement négativement.

Le tableau suivant représenta les différences caractéristiques de ces types :

Formule du coefficient de Spearman

____________________________________________________________________________________________________