Intervalle de confiance

En statistiques, et surtout dans la théorie des sondages, quand on cherche à estimer la valeur d'un paramètre, on parle d'intervalle de confiance quand on donne un intervalle qui contient, avec un certain degré de confiance, la valeur à estimer.


Catégories :

Estimation (statistique) - Métrologie

Recherche sur Google Images :


Source image : spiral.univ-lyon1.fr
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • La longueur de l'intervalle de confiance est par conséquent une mesure de l'incertitude sur la position réelle de la vraie valeur θ0 du paramètre estimé.... (source : aiaccess)
  • Ce qui nous est utile en pratique c'est l'intervalle confiance basé sur la... (p = π) est connue avec certitude et l'intervalle de confiance est égal à zéro.... De manière pratique, l'intervalle de confiance délimite les valeurs... (source : em-consulte)
  • Renvoie une valeur que vous pouvez utiliser pour construire un intervalle de confiance pour une moyenne de population. L'intervalle de confiance est une... (source : office.microsoft)

En statistiques, et surtout dans la théorie des sondages, quand on cherche à estimer la valeur d'un paramètre, on parle d'intervalle de confiance quand on donne un intervalle qui contient, avec un certain degré de confiance, la valeur à estimer. Le degré de confiance est habituellement exprimé sous la forme d'une probabilité. A titre d'exemple, un intervalle de confiance à 95% (ou au seuil de risque de 5%) a une probabilité égale à 0, 95 de contenir la valeur du paramètre qu'on cherche à estimer.

Ainsi, quand on effectue un sondage (tirage au hasard d'un sous-ensemble d'une population), l'estimation d'une quantité d'intérêt donnée est soumise au hasard et correspond rarement précisément à la valeur de la quantité qu'on cherche à estimer. En présentant pour l'estimation non pas une valeur mais un encadrement, on quantifie d'une certaine manière l'incertitude sur la valeur estimée.

Plus l'intervalle de confiance est de taille petite, plus l'incertitude sur la valeur estimée est petite. L'un des objectifs de la théorie des sondages consiste à trouver des méthodes servant à donner des intervalles de confiance de taille raisonnable.

Exemple I : Estimation d'une moyenne

L'usage le plus simple des intervalles de confiance concerne les populations à distribution normale (en forme de cloche) dont on cherche à estimer la moyenne \overline X. Si on connaît l'écart type σ (X) (ou si on en connaît une estimation assez fiable) de cette distribution, et si on mesure la moyenne  \overline x sur un échantillon de taille n pris au hasard, alors

Ces formules sont valables pour des échantillons supposés illimités (n>100). Dans le cas d'échantillon plus petit, la consultation d'une table de distribution de la loi de Student est indispensable.

Encore faut-il connaître ou avoir une estimation de l'écart type σ (X) . En pratique, on prend comme estimation de σ (X) la valeur s\,s\, est l'écart-type de la série de mesures issues de l'échantillon.

Ainsi on voit que pour augmenter la confiance, il faut élargir l'intervalle et pour obtenir un intervalle plus fin avec même degré de confiance, il faut augmenter la taille de l'échantillon.

Exemple II : le sondage d'opinion

On cherche à estimer le pourcentage de personnes ayant une voiture verte. Pour cela on effectue un sondage. Comme on ne sonde pas toute la population on a de bonnes chances de ne pas tomber précisément sur la bonne valeur mais de faire une erreur. On veut alors donner un intervalle qui a 95% de chances de contenir la vraie valeur.

Pour cela on effectue un sondage sur 1 000 personnes. Les résultats sont les suivants : 150 personnes ont une voiture verte, 850 n'en ont pas.

On nomme p la «vraie» proportion de personnes dans la population totale qui ont une voiture verte. On cherche à estimer p. On nomme N le nombre de personnes ayant été sondées, ici N = 1000. On nomme S le nombre de personnes ayant une voiture verte parmi les N personnes sondées. L'idée est de présenter comme estimation de p la valeur \frac{S}{N}.

On applique le théorème central limite à la variable aléatoire Xi qui vaut 1 si l'i-ème personne sondée a une voiture verte et 0 sinon. Cette variable a une moyenne p et une variance p (1 − p) . Alors :

\frac{S-Np}{\sqrt{Np(1-p)}} tend vers une loi normale de moyenne 0 et de variance 1.

Pour une loi normale de moyenne 0 et de variance 1 on a : P (−1, 96 < Z < 1,96) = 0,95. La valeur 1,96 est le quantile d'ordre 1-2, 5% de la loi normale. Ces valeurs peuvent se trouver dans des tables de quantiles ou être calculées à partir de la fonction d'erreur réciproque : q = \sqrt{2}\cdot\operatorname{erf}ˆ{-1}(P) par exemple, \sqrt{2}\cdot\operatorname{erf}ˆ{-1}(0,95) = 1,9599... (voir par exemple les quantiles de la loi de Student pour un exemple de table de quantile. )

P\left(-1,96<\frac{S/N-p}{\sqrt{p(1-p)/N}}<1,96\right)=0,95.

Soit toujours

P\left(\frac SN-1,96\sqrt{p(1-p)/N}<p<\frac SN + 1,96\sqrt{p(1-p)/N}\right)=0,95.

En estimant \sqrt{p(1-p)} par \sqrt{(S/N)(1-(S/N))} on peut alors encadrer p :

P\left(\frac{S}{N}-1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}<p<\frac{S}{N}+1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}\ \right)=0,95.

L'intervalle de confiance à 95 % vaut alors [0, 127;0, 172]. On est sûr à 95% qu'entre 12, 7% et 17, 2% de personnes ont une voiture verte avec ce sondage.

Pour avoir une plus grande précision, il faudrait sonder plus de personnes. On remarque en effet l'existence d'un N apparaissant au dénominateur des deux racines carrées. Si on sonde plus de personnes (N plus grand), ces deux termes auront tendance à devenir plus petits et l'intervalle sera plus petit.

Remarque. Suite aux diverses approximations du raisonnement, le résultat d'une confiance à 95% n'est pas forcément assuré. On arrive à un résultat inférieur à 95% pour certaines valeurs de p et N, par exemple

si N = 100 et p = 0, 5, alors P\left(\frac{S}{N}-1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}<p<\frac{S}{N}+1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}\ \right) \simeq 0,9431 ;
si N = 100 et p = 0, 37, alors P\left(\frac{S}{N}-1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}<p<\frac{S}{N}+1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}\ \right) \simeq 0,9370 ;
si N = 150 et p = 0, 4245, alors P\left(\frac{S}{N}-1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}<p<\frac{S}{N}+1,96\sqrt{\frac{(S/N)(1-(S/N))}{N}}\ \right) \simeq 0,9426...

De façon plus générale

L'intervalle de confiance mesure le degré de précision qu'on a sur les estimations issues de l'échantillon. Il y a deux sources principales de variations sur les données qui peuvent être la cause d'un manque de précision dans l'estimation d'une grandeur.

Parmi les méthodes d'estimation, nous pouvons citer l'estimation par intervalle de confiance. Il s'agit de trouver un intervalle contenant un paramètre (inconnu) à estimer avec une probabilité ou niveau de confiance de 1 − α. Pour p un paramètre (inconnu) à estimer on cherche par exemple a et b tels que :

\mathbb{P}(a<p<b)=1-\alpha

Si on nomme p la valeur exacte du paramètre, et que la valeur mesurée suit une loi de probabilité dépendant de p : \mathbb P_p, l'intervalle de confiance I (x) (au «niveau de confiance» 1 − α) relatif à une observation x constatée, est l'intervalle dans lequel, pour toute valeur p,

\mathbb{P}_p(x : p \in I(x)) \geq 1-\alpha.

Pour un p donné, c'est la probabilité d'observer une valeur x pour laquelle le paramètre à estimer soit dans l'intervalle de confiance associé à cette observation x.

Ceci ne veut pas dire que «la probabilité que la valeur réelle soit dans I (x) est 1 − α», ce qui n'aurait pas de sens puisque la valeur réelle n'est pas une variable aléatoire. Cela veut dire que «si la valeur réelle n'est pas dans I (x), la probabilité a priori du résultat de l'observation qu'on a obtenu était inférieure à α». Par exemple si le paramètre n'est pas dans l'intervalle, c'est que l'observation effectuée correspond à un phénomène "rare" dans lequel l'intervalle de confiance ne contient pas la vraie valeur.

Voir aussi

Notes et références

  1. l'intervalle de confiance à 95% est plus exactement \left]\overline x - 1,96\frac{\sigma(X)}{\sqrt n}; \overline x + 1,96\frac{\sigma(X)}{\sqrt n}\right[

Recherche sur Amazone (livres) :



Principaux mots-clés de cette page : intervalle - confiance - valeur - estimation - personnes - estimer - loi - sondages - cherche - paramètre - probabilité - mesure - variance - population - moyenne - échantillon - voiture - verte - degré - normale - résultats - nomme - quantile - effectue - donnée - taille - student - nombre - variable - ordre -

Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Intervalle_de_confiance.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 11/11/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu