QuantileEn statistiques et en théorie des probabilités, les quantiles sont les valeurs qui divisent un jeu de données en intervalles de même probabilité. Il y a donc un quantile de moins que le nombre de groupes créés. Par exemple, les quartiles sont les trois quantiles qui divisent un ensemble de données en quatre groupes de même probabilité. La médiane quant à elle est le quantile qui sépare le jeu de données en deux groupes de même probabilité. Définitions en langage communLes quantiles d'une variable aléatoire univariée, discrète (ex. : entière) ou continue (réelle), sont les valeurs que prend la variable pour des valeurs de probabilité sous le quantile considéré, valant une valeur remarquable, par exemple 3 dixièmes, ou 5 centièmes, etc. On les appelle encore fractiles, synonyme complet selon le contexte d'usage, et ce sont les valeurs réciproques de la fonction de répartition de la loi de probabilité considérée. On s'intéresse plus particulièrement à quelques jeux de valeurs de quantile correspondant aux multiples de fractions simples du 100 % de la probabilité totale. Par exemple, on peut scinder les 100 % de probabilité totale en 4 masses de probabilités égales chacune à 1⁄4=25 %, correspondant, pour les valeurs de la variable aléatoire, à quatre intervalles adjacents. Les trois valeurs intermédiaires définissent ainsi, respectivement les fractiles de 1⁄4=0,25, 1⁄2=0,5 et 3⁄4=0,75, ou encore en termes de fractions, les quantiles d'un quart, un demi et trois quarts (les deux limites extrêmes, l'inférieure correspondant au quantile de 0 et la supérieure pour le quantile de 1, sont les bornes du domaine de définition de la variable aléatoire. Les quantiles d'un échantillon statistique de nombres sont des valeurs remarquables permettant de diviser le jeu de ces données ordonnées (i.e. triées) en intervalles consécutifs contenant le même nombre de données (à la justesse de la division entière du nombre total de données, près). Par exemple, un échantillon de 90 données pourra être découpé selon 10 sous-intervalles consécutifs au moyen d'un jeu de 9 quantiles (plus les limites inférieure et supérieure du domaine d'échantillonnage). Certains jeux de quantiles ont reçu des noms particuliers :
Ont encore été définis, les quatre quintiles, et les deux terciles, d'usage rare. Nota Bene : certains programmes informatiques définissent un quantile minimum et un quantile maximum par, respectivement, le quantile de 0 et le quantile de 100 %. Toutefois, une telle terminologie va au-delà des définitions traditionnelles de la statistique.
FormalisationSoit un nombre réel et une variable aléatoire réelle. On note la fonction de répartition de , c'est-à-dire pour tout réel , on a . Le quantile d'ordre de , appelé aussi -quantile, est l'ensemble tel que : Autrement dit, le quantile d'ordre de est l'ensemble des nombres réels tel que . Lorsque est bijective, il n'y a qu'une valeur dans : dans ces cas-là par abus de langage on parle du singleton comme d'un nombre. Exemples :
Quelques remarquesAbus de langageDans les résultats standardisés de tests statistiques, il est courant de lire l'expression « dans le 80e centile ». Les centiles étant des valeurs et non des intervalles, il serait plus juste de dire « dans l'intervalle entre le 80e et le 81e centile », ou « dans l'intervalle de probabilité 1 % qui suit le 80e centile ». Cas d'une variable aléatoire à distribution symétriqueSi une distribution est symétrique par rapport à une valeur particulière, alors la médiane et la moyenne sont égales à cette valeur particulière. En pratique, c'est le cas de toutes les variables aléatoires gaussiennes. Par contre, les exemples d'usage courant abondent aussi où ce n'est pas le cas. Autres notesLes quantiles sont des mesures utiles parce qu'elles sont moins sensibles aux distributions allongées et aux valeurs aberrantes. Par exemple, avec une valeur aléatoire qui suit une distribution exponentielle, n'importe quel échantillon particulier de cette variable aléatoire aura approximativement une chance de 63 % d'être inférieur à la moyenne. Ceci est dû à la présence d'une longue queue de la distribution exponentielle dans les valeurs positives, qui est absente dans les valeurs négatives. Empiriquement, si les données que vous analysez ne sont pas distribuées comme la distribution que vous attendiez, ou si une autre source de valeurs aberrantes influe sur la valeur de la moyenne, alors les quantiles sont des statistiques bien plus utiles que la moyenne ou autres types de moments statistiques. La régression robuste est fortement liée à ce sujet. Elle utilise la somme des valeurs absolues des valeurs observées, au lieu des erreurs au carré. La connexion se situe sur le fait que la moyenne est parmi les estimateurs liés à une distribution le seul qui minimise l'espérance du carré des erreurs, tandis que la médiane minimise l'espérance de l'erreur absolue. La régression robuste partage la capacité d'être relativement insensible aux larges déviations dues à certaines observations aberrantes. Les quantiles d'une variable aléatoire sont préservés lors de transformations croissantes, ce qui signifie par exemple que si m est la médiane d'une variable aléatoire X alors 2m est la médiane de 2X, à moins qu'un choix arbitraire ait été fait à partir d'une plage de valeurs, pour spécifier un quantile particulier. Les quantiles peuvent aussi être utilisés dans les cas où seulement des données ordinales sont disponibles. Calcul des quantilesPar estimationIl existe différentes méthodes pour estimer les quantiles : soit N le nombre de valeurs observées de la population échantillonnée, et soit x1, x2, ..., xN les valeurs ordonnées de la même population, telles que x1 est la plus petite valeur, etc. Pour le k-ième q-quantile, on a p = k⁄q.
j est la partie entière de Np et g la partie fractionnelle.
jest la partie entière de Np et g est la partie fractionnelle.
j est la partie entière de (N–1)p et g est la partie fractionnelle. Cette méthode est utilisée, par exemple, dans la fonction PERCENTILE de Microsoft Excel.
j est la partie entière de (N–1)p+1 et g est la partie fractionnelle. Par optimisationUne définition plus générale de la fonction quantile est donnée comme un problème d'optimisation[1],[2]: Cette définition peut être utile pour étendre la définition à des données multivariées ; on parle alors de quantiles géométriques. Notes et références
Voir aussiInformation related to Quantile |