Rozkład normalny

Rozkład normalny
	Gęstość prawdopodobieństwa; ; Czerwona linia odpowiada standardowemu rozkładowi normalnemu
	Dystrybuanta; ; Kolory odpowiadają wykresowi powyżej
Parametry	położenie (liczba rzeczywista); podniesiona do kwadratu skala (liczba rzeczywista)
Nośnik
Gęstość prawdopodobieństwa
Dystrybuanta
Wartość oczekiwana (średnia)
Mediana
Moda
Wariancja
Współczynnik skośności
Kurtoza
Entropia
Funkcja tworząca momenty
Funkcja charakterystyczna
Odkrywca	Abraham de Moivre (1733)

Rozkład normalny, rozkład Gaussa^[2] (w literaturze francuskiej zwany rozkładem Laplace’a-Gaussa) – jeden z najważniejszych rozkładów prawdopodobieństwa, odgrywający ważną rolę w statystyce. Wykres funkcji prawdopodobieństwa tego rozkładu jest krzywą w kształcie dzwonu (tak zwaną krzywą dzwonową).

Przyczyną jego znaczenia jest częstość występowania w naturze. Jeśli jakaś wielkość jest sumą lub średnią bardzo wielu drobnych losowych czynników, to niezależnie od rozkładu każdego z tych czynników jej rozkład będzie zbliżony do normalnego (centralne twierdzenie graniczne) – dlatego można go bardzo często zaobserwować w danych^[a]. Ponadto rozkład normalny ma interesujące właściwości matematyczne, dzięki którym oparte na nim metody statystyczne są proste obliczeniowo^[b].

Definicja rozkładu normalnego

Istnieje wiele równoważnych sposobów zdefiniowania rozkładu normalnego. Należą do nich: funkcja gęstości, dystrybuanta, momenty, kumulanty, funkcja charakterystyczna, funkcja tworząca momenty i funkcja tworząca kumulanty. Wszystkie kumulanty rozkładu normalnego wynoszą 0 oprócz pierwszych dwóch.

Funkcja gęstości

Zobacz też: funkcja wykładnicza i pi.

Funkcja gęstości prawdopodobieństwa rozkładu normalnego ze średnią $\mu$ i odchyleniem standardowym σ (równoważnie: wariancją $\sigma ^{2}$ ) jest przykładem funkcji Gaussa. Dana jest ona wzorem:

f_{\mu ,\sigma }(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\,\exp \left({\frac {-(x-\mu )^{2}}{2\sigma ^{2}}}\right).

Fakt, iż zmienna losowa $X$ ma rozkład normalny z wartością oczekiwaną $\mu$ i wariancją $\sigma ^{2}$ zapisuje się często $X\sim {\mathcal {N}}(\mu ,\sigma ^{2}).$

Uwaga: W wielu źródłach rozkład normalny jest oznaczany przez ${\mathcal {N}}(\mu ,\sigma ).$

Jeśli $\mu =0$ i $\sigma =1,$ to rozkład ten nazywa się standardowym rozkładem normalnym, jego funkcja gęstości opisana jest wzorem:

\phi _{0,1}(x)=\phi (x)={\frac {1}{\sqrt {2\pi }}}\,\exp \left(-{\frac {x^{2}}{2}}\right).

We wszystkich rozkładach normalnych funkcja gęstości jest symetryczna względem wartości średniej rozkładu. W rozkładzie normalnym prawdopodobieństwo, że wartość zmiennej (cechy statystycznej) znajduje się w odległości nie większej (mniejszej) niż jedno odchylenie standardowe od średniej wynosi w przybliżeniu 68,3%. Prawdopodobieństwo to wynosi odpowiednio 95,5% i 99,7%, dla odległości dwóch i trzech odchyleń standardowych od średniej (reguła trzech sigm). Punkt przegięcia krzywej znajduje się w odległości jednego odchylenia standardowego od średniej.

Dystrybuanta

Zobacz też: dystrybuanta.

Dystrybuanta jest definiowana jako prawdopodobieństwo tego, że zmienna $X$ ma wartości mniejsze bądź równe $x$ i w kategoriach funkcji gęstości wyrażana jest (dla rozkładu normalnego) wzorem:

P(X\leqslant x)=\int \limits _{-\infty }^{x}{\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\frac {-(u-\mu )^{2}}{2\sigma ^{2}}}\,du.

Całki powyższej nie da się obliczyć dokładnie, metodą analityczną. W konkretnych zagadnieniach do obliczenia wartości dystrybuanty stosuje się całkowanie numeryczne lub korzysta z tablic statystycznych. Tablice zawierają dane dla dystrybuanty standardowego rozkładu normalnego, tradycyjnie oznaczanej jako Φ i zdefiniowanej jako rozkład o parametrach $\mu =0$ i $\sigma =1{:}$

\Phi (z)=\int \limits _{-\infty }^{z}{\frac {1}{\sqrt {2\pi }}}\,e^{-{\frac {t^{2}}{2}}}\,dt.

Związek dystrybuanty $\Phi$ i dystrybuanty rozkładu normalnego $X$ o dowolnie zadanych parametrach $\mu$ i $\sigma$ otrzymuje się za pomocą standaryzowania rozkładu (zob. też poniżej).

P(X\leqslant x)=\Phi \left({\frac {x-\mu }{\sigma }}\right).

Dystrybuanta standardowego rozkładu normalnego może być wyrażona poprzez funkcję specjalną (nieelementarną, przestępną), tzw. funkcję błędu jako:

\Phi (z)={\frac {1}{2}}\left(1+\operatorname {erf} \,{\frac {z}{\sqrt {2}}}\right).

Funkcje tworzące

Funkcja charakterystyczna

Funkcją charakterystyczną rozkładu normalnego jest

\varphi (t)=\exp \left(i\mu t-{\frac {\sigma ^{2}t^{2}}{2}}\right).

W przypadku standardowego rozkładu normalnego ma ona postać:

\varphi (t)=\exp \left(-{\frac {t^{2}}{2}}\right).

Własności

Jeśli $X\sim N(\mu ,\sigma ^{2})$ oraz $a,b$ są liczbami rzeczywistymi, to $aX+b\sim N(a\mu +b,(a\sigma )^{2}).$
Jeśli $X_{1}\sim N(\mu _{1},\sigma _{1}^{2})$ i $X_{2}\sim N(\mu _{2},\sigma _{2}^{2})$ oraz zmienne $X_{1},X_{2}$ są niezależne, to $X_{1}+X_{2}\sim N(\mu _{1}+\mu _{2},\sigma _{1}^{2}+\sigma _{2}^{2}).$
Jeśli $X_{1},\dots ,X_{n}$ są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to zmienna $X_{1}^{2}+\ldots +X_{n}^{2}$ ma rozkład chi-kwadrat z $n$ stopniami swobody.

Parametry rozkładu normalnego

wartość oczekiwana: $\mu$
mediana: $\mu$
wariancja: $\sigma ^{2}$
odchylenie standardowe: $\sigma$
skośność: $0$
kurtoza: $0$ (lub 3, przyjmując dawniej używaną definicję).

Dowód, że

\mu

jest wartością oczekiwaną

Zgodnie z definicją, wartość oczekiwaną rozkładu normalnego można wyznaczyć obliczając wartość całki

E(X)=\int _{-\infty }^{+\infty }x{\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\frac {-(x-\mu )^{2}}{2\sigma ^{2}}}dx={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{+\infty }xe^{-{\big (}{\frac {x-\mu }{\sigma {\sqrt {2}}}}{\big )}^{2}}dx

w celu uproszczenia można wprowadzić nową zmienną $y$

y={\frac {x-\mu }{\sigma {\sqrt {2}}}}\Rightarrow x=y{\sqrt {2}}\sigma +\mu

(a więc granice całkowania nie zmieniają się),

dy={\frac {1}{{\sqrt {2}}\sigma }}dx\Rightarrow dx={\sqrt {2}}\sigma dy,

przy czym granice całkowania pozostają bez zmian. Zatem

{\begin{aligned}E(X)&={\frac {1}{{\sqrt {2}}{\sqrt {\pi }}\sigma }}\int _{-\infty }^{+\infty }(y{\sqrt {2}}\sigma +\mu )e^{-y^{2}}{\sqrt {2}}\sigma dy\\&={\frac {1}{\sqrt {\pi }}}\int _{-\infty }^{+\infty }(y{\sqrt {2}}\sigma +\mu )e^{-y^{2}}dy\\&={\frac {1}{\sqrt {\pi }}}{\Bigg (}{\sqrt {2}}\sigma \int _{-\infty }^{+\infty }ye^{-y^{2}}dy+\mu \int _{-\infty }^{+\infty }e^{-y^{2}}dy{\Bigg )}\\&={\frac {{\sqrt {2}}\sigma }{\sqrt {\pi }}}{\Bigg (}\int _{-\infty }^{+\infty }ye^{-y^{2}}dy{\Bigg )}_{=0}^{(1)}+{\frac {\mu }{\sqrt {\pi }}}{\Bigg (}\int _{-\infty }^{+\infty }e^{-y^{2}}dy{\Bigg )}_{={\sqrt {\pi }}}^{(2)}\\&={\frac {{\sqrt {2}}\sigma }{\sqrt {\pi }}}\cdot 0+{\frac {\mu }{\sqrt {\pi }}}\cdot {\sqrt {\pi }}\\&=\mu \end{aligned}}

cbdo. Przy wyprowadzeniu skorzystano z:

(1)=\int _{-\infty }^{+\infty }ye^{-y^{2}}dy={\frac {1}{2}}\int _{+\infty }^{+\infty }e^{-z}dz=0,

z=y^{2}

(granice całkowania się zmieniają),

dz=2ydy\Rightarrow dy={\frac {dz}{2y}},

(2)=\int _{-\infty }^{+\infty }e^{-y^{2}}dy

– całka Poissona.

Standaryzowanie zmiennych losowych o rozkładzie normalnym

Konsekwencją własności 1 jest możliwość przekształcenia wszystkich zmiennych losowych o rozkładzie normalnym do standardowego rozkładu normalnego.

Jeśli $X$ ma rozkład normalny ze średnią $\mu$ i wariancją $\sigma ^{2},$ wtedy:

Z={\frac {X-\mu }{\sigma }}.

Z jest zmienną losową o standardowym rozkładzie normalnym N(0, 1). Ważną konsekwencją jest postać dystrybuanty:

P(X\leqslant x)=\Phi \left({\frac {x-\mu }{\sigma }}\right)={\frac {1}{2}}\left(1+{\mbox{erf}}\,\left({\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\right).

Odwrotnie, jeśli $Z$ jest zmienną losową o standardowym rozkładzie normalnym, to:

X=\sigma Z+\mu

jest zmienną o rozkładzie normalnym ze średnią $\mu$ i wariancją $\sigma ^{2}.$

Standardowy rozkład normalny został stablicowany i inne rozkłady normalne są prostymi transformacjami rozkładu standardowego. W ten sposób możemy używać tablic dystrybuanty standardowego rozkładu normalnego do wyznaczenia wartości dystrybuanty rozkładu normalnego o dowolnych parametrach.

Generowanie wartości losowych o rozkładzie normalnym

W symulacjach komputerowych zdarza się, że potrzebujemy wygenerować wartości zmiennej losowej o rozkładzie normalnym. Istnieje kilka metod, najprostszą z nich jest odwrócenie dystrybuanty standardowego rozkładu normalnego. Są jednak metody bardziej wydajne, jedną z nich jest transformacja Boxa-Mullera, w której dwie zmienne losowe o rozkładzie jednostajnym (prostym do wygenerowania – patrz generator liczb losowych) są transformowane na zmienne o rozkładzie normalnym.

Transformacja Boxa-Mullera jest konsekwencją własności 3 i faktu, że rozkład chi-kwadrat z dwoma stopniami swobody jest rozkładem wykładniczym (łatwym do wygenerowania).

Centralne twierdzenie graniczne

Jedną z najważniejszych własności rozkładu normalnego jest fakt, że (przy pewnych założeniach) rozkład sumy dużej liczby zmiennych losowych jest w przybliżeniu normalny. Jest to tak zwane centralne twierdzenie graniczne.

W praktyce twierdzenie to ma zastosowanie, jeśli chcemy użyć rozkładu normalnego jako przybliżenia dla innych rozkładów.

Rozkład dwumianowy z parametrami $(n,p)$ jest w przybliżeniu normalny dla dużych $n$ i $p$ nie leżących zbyt blisko 1 lub 0. Przybliżony rozkład ma średnią równą $\mu =np$ i odchylenie standardowe $\sigma ={\sqrt {np(1-p)}}.$
Rozkład Poissona z parametrem $\lambda$ jest w przybliżeniu normalny dla dużych wartości $\lambda .$ Przybliżony rozkład normalny ma średnią $\mu =\lambda$ i odchylenie standardowe $\sigma ={\sqrt {\lambda }}.$

Dokładność przybliżenia tych rozkładów zależy od celu użycia przybliżenia i tempa zbieżności do rozkładu normalnego. Zazwyczaj takie przybliżenia są mniej dokładne w ogonach rozkładów.

Nieskończona podzielność

Rozkład normalny należy do rozkładów mających własność nieskończonej podzielności.

Występowanie

Rozkład normalny (lub wielowymiarowy rozkład normalny) jest często stosowanym założeniem, w praktyce jednak nigdy nie jest ściśle realizowany. Rozkład normalny ma bowiem niezerową gęstość prawdopodobieństwa dla dowolnej wartości zmiennej losowej, podczas gdy w rzeczywistości zmienne są zawsze ograniczone, a często nieujemne.

Mimo to rzeczywisty rozkład jest często bardzo zbliżony do normalnego, stąd zwykle zakłada się, że zmienna ma rozkład normalny. Nie należy jednak robić tego bez sprawdzenia jak wielkie są rozbieżności. Rozkłady dalekie od normalnego (np. z elementami odstającymi) mogą sprawić, że wyniki metod statystycznych będą mylnie interpretowane.

Przykładem są tu metody regresji liniowej oraz korelacji Pearsona, które, choć zdefiniowane dla dowolnych rozkładów, mają sensowną interpretację tylko dla wielowymiarowego rozkładu normalnego wektora próbki. Jeśli w próbce występują elementy odstające, co jest szczególnym przypadkiem rozkładu dalekiego od normalnego, korelacja może przyjąć dowolną wartość między $-1$ a $+1,$ bez względu na rzeczywistą zależność między zmiennymi losowymi. Także regresja będzie dawała błędne rezultaty.

Inteligencja

Inteligencja mierzona testami inteligencji uważana jest za zmienną o rozkładzie normalnym. W praktyce testy dają wyniki skwantowane, a nie ciągłe. W dodatku ich wyniki są ograniczone do pewnego przedziału. Przybliżenie jest jednak wystarczające.

Wzrost

Podobnie wzrost człowieka może być uznany w przybliżeniu za zmienną o rozkładzie normalnym. Musimy wtedy oczywiście założyć, że wartość oczekiwana rozkładu wynosi na przykład 170 cm, a odchylenie standardowe jest wystarczająco małe, aby przypadek ludzi o ujemnym wzroście miał znikomo małe prawdopodobieństwo.

Natężenie źródła światła

Natężenie światła z pojedynczego źródła zmienia się w czasie i zazwyczaj zakłada się, że ma rozkład normalny. Zgodnie z mechaniką kwantową światło jest strumieniem fotonów. Zwykłe źródło światła, świecące dzięki termicznej emisji, powinno świecić w krótkich przedziałach czasu zgodnie z rozkładem Poissona. W dłuższym przedziale czasowym (dłuższym niż czas koherencji) dodawanie się do siebie niezależnych zmiennych prowadzi w przybliżeniu do rozkładu normalnego.

Błędy pomiaru

Wielokrotne powtarzanie tego samego pomiaru daje wyniki rozrzucone wokół określonej wartości. Jeśli wyeliminujemy wszystkie większe przyczyny błędów, zakłada się, że pozostałe mniejsze błędy muszą być rezultatem dodawania się do siebie dużej liczby niezależnych czynników, co daje w efekcie rozkład normalny. Odchylenia od rozkładu normalnego rozumiane są jako wskazówka, że zostały pominięte błędy systematyczne. To stwierdzenie jest centralnym założeniem teorii błędów.

Uwagi

↑ Ściślej: można zaobserwować rozkłady bardzo zbliżone do rozkładu normalnego. Rozkład normalny zakłada niezerowe prawdopodobieństwo dla każdej możliwej liczby rzeczywistej. W rzeczywistości wszelkie zmienne są ograniczone, na przykład nie ma ludzi o ujemnym wzroście ani o wzroście kilometra, jednak rozkłady spotykane w praktyce są tak bardzo zbliżone do rozkładu normalnego, że różnica ta nie ma znaczenia.
↑ Te właściwości to na przykład: Suma i różnica dwóch zmiennych o rozkładach normalnych ma rozkład normalny. Logarytm z gęstości rozkładu normalnego to funkcja kwadratowa, dzięki czemu metoda najmniejszych kwadratów stosowana w regresji liniowej dla rozkładu normalnego błędów jest metodą największej wiarygodności.

Przypisy

↑ Abraham de Moivre, „Approximatio ad Summam Terminorum Binomii (a + b)ⁿ in Seriem expansi” (wydrukowany 12 listopada 1733 w Londynie).
↑ rozkład normalny, [w:] Encyklopedia PWN [online], Wydawnictwo Naukowe PWN [dostęp 2021-09-30] .

Bibliografia

J. Wawrzynek: Metody opisu i wnioskowania statystycznego. Wrocław: Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, 2007, s. 62. ISBN 978-83-7011-859-4.

[3] Ściślej: można zaobserwować rozkłady bardzo zbliżone do rozkładu normalnego. Rozkład normalny zakłada niezerowe prawdopodobieństwo dla każdej możliwej liczby rzeczywistej. W rzeczywistości wszelkie zmienne są ograniczone, na przykład nie ma ludzi o ujemnym wzroście ani o wzroście kilometra, jednak rozkłady spotykane w praktyce są tak bardzo zbliżone do rozkładu normalnego, że różnica ta nie ma znaczenia.

[4] Te właściwości to na przykład: Suma i różnica dwóch zmiennych o rozkładach normalnych ma rozkład normalny. Logarytm z gęstości rozkładu normalnego to funkcja kwadratowa, dzięki czemu metoda najmniejszych kwadratów stosowana w regresji liniowej dla rozkładu normalnego błędów jest metodą największej wiarygodności.

[1] Abraham de Moivre, „Approximatio ad Summam Terminorum Binomii (a + b)ⁿ in Seriem expansi” (wydrukowany 12 listopada 1733 w Londynie).

[epwn-2] rozkład normalny, [w:] Encyklopedia PWN [online], Wydawnictwo Naukowe PWN [dostęp 2021-09-30] .

[1]

[2]

[a]

[b]