Loi de Pareto

Pareto
Densité de probabilité Fonctions de masse pour plusieurs k avec x_m = 1. L'axe horizontal symbolise le paramètre x . Lorsque k→∞ la loi s'approche de δ(x − x_m) où δ est la « fonction » delta de Dirac.


Fonction de répartition Fonctions de répartition pour plusieurs k avec x_m = 1. L'axe horizontal symbolise le paramètre x'

Paramètres	$x_{\mathrm {m} }>0$ location (réel) $k>0$ forme (réel)
Support	$x\in [x_{\mathrm {m} };+\infty )\!$
Densité de probabilité	${\frac {k\,x_{\mathrm {m} }^{k}}{x^{k+1}}}\!$
Fonction de répartition	$1-\left({\frac {x_{\mathrm {m} }}{x}}\right)^{k}\!$
Espérance	${\frac {k\,x_{\mathrm {m} }}{k-1}}\!$ pour $k>1$
Médiane	$x_{\mathrm {m} }{\sqrt[{k}]{2}}$
Mode	$x_{\mathrm {m} }$
Variance	${\frac {x_{\mathrm {m} }^{2}k}{(k-1)^{2}(k-2)}}\!$ pour $k>2$
Asymétrie	${\frac {2(1+k)}{k-3}}\,{\sqrt {\frac {k-2}{k}}}\!$ pour $k>3$
Kurtosis normalisé	${\frac {6(k^{3}+k^{2}-6k-2)}{k(k-3)(k-4)}}\!$ pour $k>4$
Entropie	$\ln \left({\frac {k}{x_{\mathrm {m} }}}\right)-{\frac {1}{k}}-1\!$
Fonction génératrice des moments	non définie pour les réels strictement positifs
Fonction caractéristique	$k(-{\rm {i}}x_{\mathrm {m} }t)^{k}\Gamma (-k,-{\rm {i}}x_{\mathrm {m} }t)$ où $Γ$ désigne la fonction gamma incomplète
modifier

En théorie des probabilités, la loi de Pareto, d'après Vilfredo Pareto, est un type particulier de loi de puissance qui a des applications en sciences physiques et sociales. Elle permet notamment de donner une base théorique au « principe des 80-20 », aussi appelé principe de Pareto.

Définition[modifier | modifier le code]

Soit la variable aléatoire $X$ qui suit une loi de Pareto de paramètres $(x m, k)$ , avec k un réel positif, alors la loi est caractérisée par :

\mathbb {P} (X>x)=\left({\frac {x_{\mathrm {m} }}{x}}\right)^{k}\quad {\textrm {avec}}\quad x\geq x_{\mathrm {m} }

Densité de probabilité[modifier | modifier le code]

Les lois de Pareto sont des lois continues. La loi de Zipf, et son cas limite, la loi zêta, peuvent être considérées comme l'équivalent discret de la loi de Pareto.

Il suit, de la définition donnée précédemment, que la densité de probabilité de X vérifie : $f(x;k,x_{\mathrm {m} })=k\,{\frac {x_{\mathrm {m} }^{k}}{x^{k+1}}}$ pour $x\geq x_{\mathrm {m} }.$

Le paramètre $k$ est souvent nommé indice de Pareto.

Quantiles[modifier | modifier le code]

Le quantile d'ordre $\alpha$ d'une variable aléatoire distribuée selon une loi de Pareto de paramètres $\left(x_{m},k\right)$ est donné par :

q\left(\alpha \right)=x_{m}\left(1-\alpha \right)^{-{\frac {1}{k}}}

Moments[modifier | modifier le code]

L'espérance d'une variable aléatoire suivant une loi de Pareto est

\mathbb {E} (X)={\frac {kx_{\mathrm {m} }}{k-1}}\,

(si k ≤ 1, l'espérance est infinie).

Sa variance est

\mathrm {Var} (X)=\left({\frac {x_{\mathrm {m} }}{k-1}}\right)^{2}{\frac {k}{k-2}}

(De nouveau : si k ≤ 2, la variance est infinie).

Les moments d'ordre supérieur sont donnés par :

\mu _{n}'={\frac {kx_{\mathrm {m} }^{n}}{k-n}}\,

mais ils ne sont définis que pour $k>n$ .

Cela signifie que la fonction génératrice (la série de Taylor en $x$ où les $\mu _{n}'/n!$ sont pris pour coefficients) n'est pas définie. Cette propriété est vraie en général pour les variables aléatoires présentant une « longue traîne ».

La fonction caractéristique est donnée par :

\varphi (t;k,x_{\mathrm {m} })=k(-ix_{\mathrm {m} }t)^{k}\Gamma (-k,-ix_{\mathrm {m} }t)

où $Γ(a, x)$ est la fonction gamma incomplète .

La loi de Pareto est reliée à la loi exponentielle par :

f(x;k,x_{\mathrm {m} })={\mathcal {E}}\left(\ln \left({\frac {x}{x_{\mathrm {m} }}}\right);k\right)\,

La loi de Dirac est un cas limite de la loi de Pareto :

\lim _{k\rightarrow \infty }f(x;k,x_{\mathrm {m} })=\delta (x-x_{\mathrm {m} }).

Propriétés[modifier | modifier le code]

La loi de Pareto est à longue traîne, ce qui signifie que :

\forall y>0

,

\lim _{x\rightarrow \infty }\mathbb {P} (X>x+y|X>x)=1

^{[réf. nécessaire]}.

Par exemple, si $X$ est le temps de vie d'un composant, plus il a vécu $(X > x)$ plus il a de chances de vivre longtemps : le système rajeunit.

On peut pallier l'inconvénient « longue traîne » dans d'autres applications des lois de Pareto telles que la loi par taille des entreprises exprimée en nombre d'employés ou en chiffre d'affaires ou d'autres entités mesurables par taille dont la limite théorique est infinie en utilisant une échelle log-log après transformations appropriées des données analysées. Le phénomène longue traîne est causé par une variable pouvant atteindre des valeurs très grandes, valeurs pour lesquelles le nombre d'observations devient très petit ; en revanche le nombre d'observations pour les petites valeurs de la taille analysée sont souvent très élevées. Dans ce cas, on a le phénomène symétrique de la longue traîne : le long pic initial. Dans le cas de lois de Pareto, le passage en coordonnées log-log transforme en ligne droite la courbe dont la forme originale est une hyperbole très étirée en abscisse (longue traîne ou long-tailed) et ordonnée (hautes valeurs à la base)…

Applications[modifier | modifier le code]

Cette loi est un outil fondamental en gestion de la qualité. Dans ce domaine elle permet de :

hiérarchiser les problèmes en fonction du nombre d'occurrences (nombre d'apparitions) ;
définir des priorités dans le traitement des problèmes.

Cet outil met en évidence la loi des 80/20. Autrement dit, agir sur 20 % de causes permet de résoudre 80 % du problème. Le pareto est utile pour identifier sur quelle cause agir en priorité pour améliorer de façon significative la situation.

Elle est aussi utilisée en réassurance. La théorie des files d'attente s'est intéressée à cette loi, lorsque des recherches des années 1990 ont montré que cette loi régissait aussi nombre de grandeurs observées dans le trafic Internet (et plus généralement sur tous les réseaux de données à grande vitesse). Ce phénomène a de sévères répercussions sur les performances des systèmes (routeurs en particulier).

Cette loi permet aussi d'analyser les phénomènes de concentration des entreprises industrielles et commerciales en fonction de leur taille exprimée en nombres d'employés. Une des représentations graphiques habituelles est obtenue en utilisant une double échelle logarithmique (log-log), représentation qu'avait lui-même utilisée Vilfredo Pareto. Dans ce cas la courbe se transforme en une ligne droite au-delà d'une certaine taille (tout comme pour la distribution des revenus des ménages qu'avait étudiée Pareto).

Autres domaines d'application : la distribution des ordinateurs en fonction de diverses mesures de leur taille (taille de la mémoire centrale, taille de la mémoire du disque dur), distribution des centraux téléphoniques privés en fonction du nombre de postes connectés.

Notes et références[modifier | modifier le code]

Voir aussi[modifier | modifier le code]

Sources et bibliographie[modifier | modifier le code]

Méthode statistique et analyse statistique, E. Morice F. Chartier, (Deuxième partie p. 145), Imprimerie Nationale, Paris 1954.
les distributions de Pareto: http://trehinp.dyndns.org/prehistautistic/distribution_et_loi_de_pareto.htm
Bernard Valade, « Marc Barbut et la "loi de Pareto" », Mathématiques et sciences humaines, n^o 193,‎ 1^er juin 2011, p. 57–66 (ISSN 0987-6936, DOI 10.4000/msh.11990, lire en ligne, consulté le 7 juin 2011)
Diagramme de Pareto : URL : http://www.commentprogresser.com/outilpareto.html

Articles connexes[modifier | modifier le code]