Modele de regresie
Repartiții derivate din repartiția normală
1 Repartiții derivate din repartiția normală
În afară de repartiția normală, următoarele trei repartiții sunt des utilizate în inferența statistică a modelului clasic de regresie liniară: repartiția \(\chi^2\), repartiția Student \(t\) și repartiția Fisher-Snedecor \(F\).
1.1 Repartiția \(\chi^2\)
Fie \(X_1,\ldots,X_n\) variabile aleatoare i.i.d. repartizate \(\mathcal{N}(0, 1)\). Repartiția variabilei aleatoare \(X = \sum_{i = 1}^{n}X_i^2\) se numește repartiția \(\chi^2\) (Hi-pătrat) cu \(n\) grade de libertate și se notează cu \(X\sim \chi^2_n\). Densitatea repartiției este
\[ f(x)=\frac{1}{2^{n / 2} \Gamma(n)} x^{n / 2-1} e^{-x / 2} \mathbf{1}_{\{y>0\}} \]
unde \(\Gamma(\cdot)\) este funcția Gamma dată de \(\Gamma(x)=\int_{0}^{\infty} u^{x-1} \mathrm{e}^{-u} \mathrm{d} u, x>0\).
Pentru o v.a. \(X\sim \chi^2_n\) avem că \(\mathbb{E}[X] = n\) și \(Var(X) = 2n\).
Din Teorema Limită Centrală avem că pentru \(n\) suficient de mare, \(X\approx \mathcal{N}(n, 2n)\) ceea ce sugerează că aproximativ \(95\%\) dintre valori se situează în intervalul \([n - 2\sqrt{2n}, n + 2\sqrt{2n}]\).
1.2 Repartiția \(t\)-Student
Fie \(U\) o variabilă aleatoare repartizată \(\mathcal{N}(0, 1)\) și \(V\) o variabilă repartizată \(\chi^2_n\), cu \(U\) și \(V\) independente. Repartiția variabilei aleatoare \(T = \frac{U}{\sqrt{\frac{V}{n}}}\) se numește repartiția Student cu \(n\) grade de libertate și se notează cu \(T\sim t_n\). Densitatea repartiției \(t_n\) este
\[ f(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n} \Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}},\, x \in \mathbb{R} \]
Dacă \(n = 1\) atunci variabila \(T\) este repartizată Cauchy (raport de două normale independente) și prin urmare nu are medie (evident nici varianță). Dacă \(n = 2\) atunci \(T\) este de medie \(0\) dar de varianță infinită iar pentru \(n\geq 3\), \(\mathbb{E}[T] = 0\) și \(Var(T) = \frac{n}{n-2}\).
Pentru \(n\) suficient de mare se poate arăta că \(T\approx \mathcal{N}(0,1)\) (de exemplu observând că, din Legea Numerelor Mari, numitorul tinde la \(1\) atunci când \(n\to\infty\)).
1.3 Repartiția Fisher-Snedecor
Fie \(U\) o variabilă aleatoare repartizată \(\chi^2_{n_1}\) și \(V\) o variabilă aleatoare repartizată \(\chi^2_{n_2}\), cu \(U\) și \(V\) independente. Repartiția variabilei aleatoare \(F = \frac{U/n_1}{V/n_2}\) se numește repartiția Fisher-Snedecor cu \(n_1\) grade de libertate la numărător și \(n_2\) grade de libertate la numitor și se notează \(F\sim F_{n_1,n_2}\). Densitatea de repartiție este
\[ f_{n_{1}, n_{2}}(x)=\frac{\Gamma\left(\frac{n_{1}+n_{2}}{2}\right)}{\Gamma\left(\frac{n_{1}}{2}\right) \Gamma\left(\frac{n_{2}}{2}\right)}\left(\frac{n_{1}}{n_{2}}\right)^{\frac{n_{1}}{2}} \frac{x^{\frac{n_{1}-2}{2}}}{\left(1+\frac{n_{1}}{n_{2}} x\right)^{\frac{n_{1}+n_{2}}{2}}} \quad \text { dacă } x>0 \quad(0 \text { altfel }) \]
Pentru \(n_2\geq 3\) media variabilei aleatoare \(F\) există și este egală cu \(\frac{n_2}{n_2-2}\) iar pentru \(n_2\geq 5\) varianța există și este egală cu \(\frac{2 n_{2}^{2}\left(n_{1}+n_{2}-2\right)}{n_{1}\left(n_{2}-2\right)^{2}\left(n_{2}-4\right)}\).
În plus dacă \(n_2\) este mare atunci putem aproxima repartiția lui \(F\) cu \(F\approx \frac{\chi^2_{n_1}}{n_1}\).





