Modele de regresie

Repartiții derivate din repartiția normală

1 Repartiții derivate din repartiția normală

În afară de repartiția normală, următoarele trei repartiții sunt des utilizate în inferența statistică a modelului clasic de regresie liniară: repartiția \(\chi^2\), repartiția Student \(t\) și repartiția Fisher-Snedecor \(F\).

1.1 Repartiția \(\chi^2\)

Fie \(X_1,\ldots,X_n\) variabile aleatoare i.i.d. repartizate \(\mathcal{N}(0, 1)\). Repartiția variabilei aleatoare \(X = \sum_{i = 1}^{n}X_i^2\) se numește repartiția \(\chi^2\) (Hi-pătrat) cu \(n\) grade de libertate și se notează cu \(X\sim \chi^2_n\). Densitatea repartiției este

\[ f(x)=\frac{1}{2^{n / 2} \Gamma(n)} x^{n / 2-1} e^{-x / 2} \mathbf{1}_{\{y>0\}} \]

unde \(\Gamma(\cdot)\) este funcția Gamma dată de \(\Gamma(x)=\int_{0}^{\infty} u^{x-1} \mathrm{e}^{-u} \mathrm{d} u, x>0\).

Pentru o v.a. \(X\sim \chi^2_n\) avem că \(\mathbb{E}[X] = n\) și \(Var(X) = 2n\).

Figura 1.1: Ilustrarea densității și a funcției de repartiție a repartiției \(\chi^2_n\) pentru o serie de parametrii.

Din Teorema Limită Centrală avem că pentru \(n\) suficient de mare, \(X\approx \mathcal{N}(n, 2n)\) ceea ce sugerează că aproximativ \(95\%\) dintre valori se situează în intervalul \([n - 2\sqrt{2n}, n + 2\sqrt{2n}]\).

Figura 1.2: Aproximarea densității repartiției \(\chi^2_n\) cu normala \(\mathcal{N}(n, 2n)\).

1.2 Repartiția \(t\)-Student

Fie \(U\) o variabilă aleatoare repartizată \(\mathcal{N}(0, 1)\) și \(V\) o variabilă repartizată \(\chi^2_n\), cu \(U\) și \(V\) independente. Repartiția variabilei aleatoare \(T = \frac{U}{\sqrt{\frac{V}{n}}}\) se numește repartiția Student cu \(n\) grade de libertate și se notează cu \(T\sim t_n\). Densitatea repartiției \(t_n\) este

\[ f(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n} \Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}},\, x \in \mathbb{R} \]

Dacă \(n = 1\) atunci variabila \(T\) este repartizată Cauchy (raport de două normale independente) și prin urmare nu are medie (evident nici varianță). Dacă \(n = 2\) atunci \(T\) este de medie \(0\) dar de varianță infinită iar pentru \(n\geq 3\), \(\mathbb{E}[T] = 0\) și \(Var(T) = \frac{n}{n-2}\).

Figura 1.3: Ilustrarea densității și a funcției de repartiție a repartiției \(t_n\) pentru o serie de grade de libertate.

Pentru \(n\) suficient de mare se poate arăta că \(T\approx \mathcal{N}(0,1)\) (de exemplu observând că, din Legea Numerelor Mari, numitorul tinde la \(1\) atunci când \(n\to\infty\)).

Figura 1.4: Aproximarea densității repartiției \(t_n\) cu normala \(\mathcal{N}(0,1)\).

1.3 Repartiția Fisher-Snedecor

Fie \(U\) o variabilă aleatoare repartizată \(\chi^2_{n_1}\) și \(V\) o variabilă aleatoare repartizată \(\chi^2_{n_2}\), cu \(U\) și \(V\) independente. Repartiția variabilei aleatoare \(F = \frac{U/n_1}{V/n_2}\) se numește repartiția Fisher-Snedecor cu \(n_1\) grade de libertate la numărător și \(n_2\) grade de libertate la numitor și se notează \(F\sim F_{n_1,n_2}\). Densitatea de repartiție este

\[ f_{n_{1}, n_{2}}(x)=\frac{\Gamma\left(\frac{n_{1}+n_{2}}{2}\right)}{\Gamma\left(\frac{n_{1}}{2}\right) \Gamma\left(\frac{n_{2}}{2}\right)}\left(\frac{n_{1}}{n_{2}}\right)^{\frac{n_{1}}{2}} \frac{x^{\frac{n_{1}-2}{2}}}{\left(1+\frac{n_{1}}{n_{2}} x\right)^{\frac{n_{1}+n_{2}}{2}}} \quad \text { dacă } x>0 \quad(0 \text { altfel }) \]

Pentru \(n_2\geq 3\) media variabilei aleatoare \(F\) există și este egală cu \(\frac{n_2}{n_2-2}\) iar pentru \(n_2\geq 5\) varianța există și este egală cu \(\frac{2 n_{2}^{2}\left(n_{1}+n_{2}-2\right)}{n_{1}\left(n_{2}-2\right)^{2}\left(n_{2}-4\right)}\).

Figura 1.5: Ilustrarea densității și a funcției de repartiție a repartiției \(F_{n_1,n_2}\) pentru o serie de grade de libertate.

În plus dacă \(n_2\) este mare atunci putem aproxima repartiția lui \(F\) cu \(F\approx \frac{\chi^2_{n_1}}{n_1}\).

Figura 1.6: Aproximarea densității repartiției \(F\) cu \(\frac{\chi^2_{n_1}}{n_1}\).