Elemente de probabilități în R

Note de laborator

Scopul acestor note de laborator este de a introduce, prin intermediul programului R, principalele repartiții discrete și continue folosite la curs. Sunt prezentate de asemenea și o serie de aplicații ale rezultatelor asimptotice principale: Legea Numerelor Mari și Teorema Limită Centrală.

Variabile aleatoare discrete

Limbajul R pune la dispoziție majoritatea repartițiilor discrete folosite în mod uzual. Tabelul de mai jos prezintă numele, parametrii acestora precum și funcția de masă corespunzătoare:

Tabelul 1.1: Numele și parametrii repartițiilor discrete uzuale în R.
Repartiția Nume Parametrii Funcția de masă \(\mathbb{P}(X = x)\)
Binomială \(\mathcal{B(m,p)}\) binom size (\(m\)), prob (\(p\)) \(\binom{m}{x}p^x(1-p)^{m-x}\)
Geometrică \(\mathrm{Geom}(p)\) geom prob (\(p\)) \((1-p)^{x-1}p\)
Poisson \(\mathrm{Pois}(\lambda)\) pois lambda (\(\lambda\)) \(e^{-\lambda\frac{\lambda^x}{x!}}\)
Hypergeometric \(\mathcal{HG}(m,n,k)\) hyper m, n, k \(\frac{\binom{m}{x}\binom{n}{k-x}}{\binom{m+n}{k}}\)
Binomiala negativă \(\mathrm{NB}(r, p)\) nbinom size (\(r\)), prob (\(p\)) \(\binom{r+x-1}{r-1}p^r(1-p)^x\)
Uniforma pe \(\{1, 2, \ldots, m\}\) sample(x = 1:m, size = 1, TRUE) \(\frac{1}{m}\mathbf{1}_{\{1,2,\ldots,m\}}(x)\)

Pentru fiecare repartiție, există patru comenzi în R prefixate cu literele d, p, q și r și urmate de numele repartiției (coloana a 2-a). De exemplu dbinom, pbinom, qbinom și rbinom sunt comenzile corespunzătoare repartiției binomiale pe când dgeom, pgeom, qgeom și rgeom sunt cele corespunzătoare repartiției geometrice.

  • dname: calculează densitatea atunci când vorbim de o variabilă continuă sau funcția de masă atunci când avem o repartiție discretă (\(\mathbb{P}(X=x)\))

  • pname: calculează funcția de repartiție, i.e. \(F(x)=\mathbb{P}(X\leq x)\)

  • qname: reprezintă funcția cuantilă, cu alte cuvinte valoarea pentru care funcția de repartiție are o anumită probabilitate; în cazul continuu, dacă pname(x) = p atunci qname(p) = x iar în cazul discret întoarce cel mai mic întreg \(u\) pentru care \(\mathbb{P}(X\leq u)\geq p\).

  • rname: generează observații independente din repartiția dată

Avem următoarele exemple:

# Functia de repartitie pentru binomiala
pbinom(c(3,5), size = 10, prob = 0.5)
[1] 0.1718750 0.6230469
# Genereaza observatii din repartitia binomiala
rbinom(5, size = 10, prob = 0.5)
[1] 3 5 2 5 3
# Calculeaza functia de masa in diferite puncte
dbinom(0:7, size = 10, prob = 0.3)
[1] 0.028247525 0.121060821 0.233474440 0.266827932 0.200120949 0.102919345
[7] 0.036756909 0.009001692
# pentru repartitia Poisson
dpois(1:5, lambda = 3)
[1] 0.1493612 0.2240418 0.2240418 0.1680314 0.1008188
rpois(10, lambda = 3)
 [1] 3 4 3 4 2 2 1 4 7 2

Repartiția uniformă discretă

O variabilă aleatoare \(X\) este repartizată uniform pe mulțimea \(\{a, a+1, \ldots, b\}\), și se notează \(X\sim\mathcal{U}(\{a, a+1, \ldots, b\})\), are funcția de masă (PMF - probability mass function) dată de

\[ \mathbb{P}(X = k) = \frac{1}{b - a + 1},\quad k\in\{a, a+1, \ldots, b\} \]

Funcția de repartiție a repartiției uniforme \(\mathcal{U}(\{a, a+1, \ldots, b\})\) este dată de

\[ F_{X}(x) = \mathbb{P}(X \leq x) = \frac{\lfloor x\rfloor - a + 1}{b - a + 1}, \quad x\in[a,b]. \]

(a) Densitatea
(b) Funcția de repartiție
Figura 1.1: Densitatea și funcția de repartiție a repartiției uniforme pe mulțimea \(\{a, a+1, \ldots, b\}\).

Repartiția binomială \(\mathcal{B}(n, p)\)

Spunem că variabila aleatoare \(X\) este repartizată binomial de parametrii \(n\geq 1\) și \(p\in[0,1]\), și se notează cu \(X\sim\mathcal{B}(n,p)\), dacă funcția de masă este

\[ \mathbb{P}(X = k) = \binom{n}{k}p^k (1-p)^{n-k}, \quad k\in\{0,1,\ldots,n\} \]

Pentru a ilustra funcția de masă vom considera repartițiile \(\mathcal{B}(20, 0.5)\) și \(\mathcal{B}(40, 0.3)\):

Figura 1.2: Ilustrarea funcțiilor de masă pentru repartițiile binomiale \(\mathcal{B}(20, 0.5)\) și \(\mathcal{B}(40, 0.3)\).

Funcția de repartiție a repartiției binomiale \(\mathcal{B}(n,p)\) este dată de

\[ F_{X}(x) = \mathbb{P}(X \leq x) = \sum_{k = 0}^{\lfloor x\rfloor} \binom{n}{k}p^k (1-p)^{n-k} \]

care în cazul celor două exemple date devine

Figura 1.3: Ilustrarea funcțiilor de repartiție pentru repartițiile binomiale \(\mathcal{B}(20, 0.5)\) și \(\mathcal{B}(40, 0.3)\).

Repartiția geometrică \(Geom(p)\)

Variabila aleatoare \(X\) repartizată geometric de parametru \(p\in(0,1)\), \(X\sim Geom(p)\), are funcția de masă

\[ \mathbb{P}(X = k) = (1-p)^{k-1}p, \quad k\in\{1,2,\ldots\} \]

Pentru \(p = 0.2\) și respectiv \(p = 0.7\) avem

Figura 1.4: Ilustrarea funcțiilor de masă pentru repartițiile geometrice \(\mathrm{Geom}(0.2)\) și \(\mathrm{Geom}(0.7)\).

Funcția de repartiție a variabilei \(X\sim Geom(p)\) este egală cu

\[ F_{X}(k) = \mathbb{P}(X \leq k) = 1 - (1-p)^k \]

Figura 1.5: Ilustrarea funcțiilor de repartiție pentru repartițiile geometrice \(\mathrm{Geom}(0.2)\) și \(\mathrm{Geom}(0.7)\).

Repartiția Poisson \(Pois(\lambda)\)

O variabilă aleatoare \(X\) repartizată Poisson de parametru \(\lambda>0\), \(X\sim Pois(\lambda)\), are funcția de masă dată de

\[ \mathbb{P}(X = k) = e^{-\lambda}\frac{\lambda^k}{k!}, \quad k\geq 0. \]

Pentru \(\lambda = 4\) și \(\lambda = 10\) avem

Figura 1.6: Ilustrarea funcțiilor de masă pentru repartițiile Poisson \(\mathrm{Pois}(4)\) și \(\mathrm{Pois}(10)\).

Funcția de repartiție a lui \(X\sim Pois(\lambda)\) este

\[ F_{X}(x) = \mathbb{P}(X \leq x) = e^{-\lambda}\sum_{k = 0}^{\lfloor x\rfloor} \frac{\lambda^k}{k!} \]

care în cazul exemplelor considerate mai sus devine

Figura 1.7: Ilustrarea funcțiilor de repartiție pentru repartițiile Poisson \(\mathrm{Pois}(4)\) și \(\mathrm{Pois}(10)\).

În exemplele anterioare am folosit două funcții pentru trasarea funcției de masă respectiv a funcției de repartiție.

Exercițiul 1.1 Construiți câte o funcție în R care să traseze graficul funcției de masă respectiv a funcției de repartiție a unei distribuții date. Verificați și documentația funcției ecdf.

Pentru funcția de masă avem următorul cod:

pmfPlot <- function(x = 0:25, dist = dpois(0:25, 4), title = "", ...){
  plot(x, dist,
     type = "h", 
     col = myblue, 
     xlab = "k",
     ylab = "P(X = k)",
     main = paste0("Functia de masa a repartitiei: ", title),
     cex.main = 0.8,
     bty = "n")

 points(x, dist, 
       pch = 16, col = myblue)
}

Ilustrăm funcția pentru repartițiile discrete: \(\mathrm{Geom}(0.3)\), \(\mathcal{HG}(20, 30, 15)\) și \(\mathrm{Pois}(0.5)\)

Figura 1.8: Ilustrarea funcțiilor de masă pentru \(\mathrm{Geom}(0.3)\), \(\mathcal{HG}(20, 30, 15)\) și \(\mathrm{Pois}(0.5)\).

Pentru funcția de repartiție avem următorul cod:

cdfPlot <-  function(dist, title, err = 1e-5, ...){
  # dist - repartitia discreta (sau discretizata)
  lp <-  length(dist)
  
  if (abs(sum(dist)-1)>err | sum(dist>=0)!=lp){
    stop("Eroare: vectorul de probabilitati nu formeaza o repartitie")
  }else{
    x <-  0:(lp-1) # ia valori in 1:lp
    cp <-  cumsum(dist)
    
    plot(x, cp, type = "s", lty = 3, 
         xlab = "x", 
         ylab = "F", 
         main = paste("Functia de repartitie:", title), 
         ylim = c(0,1), 
         col = "grey",
         bty = "n",
         ...)
    abline(h = 0, lty = 2, col = "grey")
    abline(h = 1, lty = 2, col = "grey")
    for(i in 1:(lp-1)){
      lines(c(x[i], x[i+1]), c(cp[i], cp[i]), 
            col = myblue,
            lwd = 2)
    }
    points(x,cp, col = myred, pch = 20, cex = 0.85)
  }
}

Pentru a testa această funcție să considerăm ca repartiții discrete: \(\mathrm{Geom}(0.3)\), \(\mathcal{HG}(20, 30, 15)\) și \(\mathrm{Pois}(0.5)\):

Figura 1.9: Ilustrarea funcțiilor de repartiție pentru \(\mathrm{Geom}(0.3)\), \(\mathcal{HG}(20, 30, 15)\) și \(\mathrm{Pois}(0.5)\).

Aproximarea Poisson și Normală a Binomialei

Exercițiul 1.2 Ilustrați grafic aproximarea Poisson și normală a repartiției binomiale.

Scopul acestui exercițiu este de a ilustra grafic aproximarea legii binomiale cu ajutorul repartiției Poisson și a repartiției normale.

Pentru o v.a. \(X\) repartizată binomial de parametrii \(n\) și \(p\) (\(q = 1-p\)) funcția de masă este

\[ f_{n,p}(k)=\mathbb{P}(X=k)=\binom{n}{k}p^k(1-p)^{n-k} \]

iar funcția de repartiție este

\[ F_{n,p}(k) = \mathbb{P}(X\leq k) = \sum_{x=0}^{k}\binom{n}{x}p^x(1-p)^{n-x}. \]

Aproximarea Poisson

Dacă \(n\to\infty\) (\(n\) este mare) și \(p\to 0\) (\(p\) este mic, evenimentele sunt rare) așa încât \(np\to\lambda\) atunci se poate verifica cu ușurință că

\[ f_{n,p}(k)\approx f_{\lambda}(k)=e^{-\lambda}\frac{\lambda^k}{k!}. \]

Mai exact, avem că dacă \(k\) este mic în comparație cu \(n\) atunci

\[\begin{align*} \binom{n}{k}p^k &= \frac{n(n-1)\cdots(n-k+1)}{k!}\left(\frac{\lambda}{n}\right)^k \\ &= 1\times\left(1-\frac{1}{n}\right)\times\cdots\times\left(1-\frac{k-1}{n}\right)\frac{\lambda^k}{k!}\\ &\approx \frac{\lambda^k}{k!} \end{align*}\]

și

\[ \log(1-p)^{n-k} = (n-k)\log\left(1-\frac{\lambda}{n}\right)\approx n\left(-\frac{\lambda}{n}\right) \]

ceea ce conduce la \((1-p)^{n-k}\approx e^{-\lambda}\). Combinând cele două aproximări obținem

\[ \binom{n}{k}p^k(1-p)^{n-k} \approx \frac{\lambda^k}{k!}e^{-\lambda}. \]

Pentru a ilustra acuratețea acestei aproximări vom folosi instrucțiunile R dbinom și dpois care permit calcularea funcțiilor de masă \(f_{n,p}(k)\) și \(f_{\lambda}(k)\).

AppBP <-  function(n,p,a,b){
    lambda <- n*p
    x <- matrix(numeric((b-a+1)*3),ncol=3,
               dimnames = list(a:b,c("Binomiala","Poisson","Eroarea Absoluta")))
    x[,1] <- dbinom(a:b,n,p)
    x[,2] <- dpois(a:b,lambda)
    x[,3] <- abs(x[,1]-x[,2])
    error <- max(abs(x[,3]))
    
    return(list(x = as.data.frame(x), error = error, param = c(n, p, lambda)))
}

# Functie care ilustreaza aproximarea Binomial vs. Poisson

pl <-  function(n,p,a,b){
    clr = c(myblue, myred)# culori
    lambda = n*p
    mx = max(dbinom(a:b,n,p))
    
    plot(c(a:b,a:b), c(dbinom(a:b,n,p), dpois(a:b,lambda)), type="n", 
         main = paste("Approx. Poisson pentru binomiala\n n=", 
                      n, ", p = ", p, ", lambda = ",lambda), 
         ylab = "Probabilitatea", xlab="x",
         bty = "n")
    
    points((a:b)-.15, dbinom(a:b,n,p), type = "h",
           col = clr[1], lwd = 8)
    points((a:b)+.15, dpois(a:b,lambda), type = "h",
           col = clr[2], lwd = 8)
    
    legend(b-b/2, mx, legend = c(paste0("Binomiala(",n,",",p,")"),
                               paste0("Poisson(",lambda,")")), 
           fill = clr, bg="white",
           bty = "n")
}

Pentru setul de parametrii \(n=10\) și \(p=0.1\) avem următorul tabel și următoarea figură

Tabelul 1.2: Exemplificare de aproximare Poisson a binomialei
k Binomiala Poisson Eroarea Absoluta
1 0.3874205 0.3678794 0.0195410
2 0.1937102 0.1839397 0.0097705
3 0.0573956 0.0613132 0.0039176
4 0.0111603 0.0153283 0.0041680
5 0.0014880 0.0030657 0.0015776
6 0.0001378 0.0005109 0.0003732
7 0.0000087 0.0000730 0.0000642
8 0.0000004 0.0000091 0.0000088
9 0.0000000 0.0000010 0.0000010
10 0.0000000 0.0000001 0.0000001

Figura 1.10: Ilustrarea aproximării Poisson pentru \(\mathcal{B}(10, 0.1)\).

iar pentru parametrii \(n=100\) și \(p=0.01\) obținem

Tabelul 1.3: Exemplificare de aproximare Poisson a binomialei
k Binomiala Poisson Eroarea Absoluta
1 0.3697296 0.3678794 0.0018502
2 0.1848648 0.1839397 0.0009251
3 0.0609992 0.0613132 0.0003141
4 0.0149417 0.0153283 0.0003866
5 0.0028978 0.0030657 0.0001679
6 0.0004635 0.0005109 0.0000475
7 0.0000629 0.0000730 0.0000101
8 0.0000074 0.0000091 0.0000017
9 0.0000008 0.0000010 0.0000003
10 0.0000001 0.0000001 0.0000000

Figura 1.11: Ilustrarea aproximării Poisson pentru \(\mathcal{B}(100, 0.01)\).

Pentru funcția de repartiție \(F_{n,p}(k)\), folosind aproximarea Poisson avem că

\[ F_{n,p}(k) \approx F_{\lambda}(k)=\sum_{x=0}^{k}e^{-\lambda}\frac{\lambda^x}{x!}. \]

Aproximarea Normală

Să considerăm repartiția binomială \(\mathcal{B}(n, p)\) pentru \(p = 0.3\) și \(n\in\{20, 50, 100, 150, 200\}\) și să trasăm histogramele variabilelor aleatoare care au aceste repartiții (\(X_n\)) precum și a variabilelor standardizate \(Z_n = \frac{X_n-np}{\sqrt{npq}}\).

Figura 1.12: Histogramele variabilelor aleatoare \(X_n\) și a variabilelor standardizate \(Z_n = \frac{X_n-np}{\sqrt{npq}}\).

Observăm, pentru graficele din partea stângă, că valoarea maximă se atinge în jurul punctului \(n\times 0.3\) pentru fiecare grafic în parte. De asemenea se observă că odată cu creșterea lui \(n\) crește și gradul de împrăștiere, cu alte cuvinte crește și abaterea standard (\(\sigma_n = \sqrt{npq}\)).

Pe de altă parte putem remarca că figurile din partea dreaptă au o formă simetrică, de tip clopot, concentrate în jurul lui \(0\), fiind translatate în origine și scalate pentru a avea o varianță egală cu \(1\). Abraham de Moivre1 a justificat acest efect (pentru \(p=0.5\)) încă din 1756 observând că raportul

\[ \frac{f_{n,p}(k)}{f_{n,p}(k-1)} = \frac{\frac{n!}{k!(n-k)!}p^kq^{n-k}}{\frac{n!}{(k-1)!(n-k+1)!}p^{k+1}q^{n-k+1}} = \frac{(n-k+1)p}{kq} \]

pentru \(k = 1,2,\ldots,n\). Astfel \(f_{n,p}(k)\geq f_{n,p}(k-1)\) dacă și numai dacă \((n+1)p\geq k\) de unde, pentru \(n\) fixat, deducem că \(f_{n,p}(k)\) atinge valoarea maximă pentru \(k_{\max} = \lfloor{(n+1)p\rfloor}\approx np\) (acesta este motivul pentru care fiecare grafic din partea stângă are vârful în jurul punctului \(np\)).

Să observăm ce se întâmplă în jurul lui \(k_{\max}\). Avem

\[ \frac{f_{n,p}(k_{\max}+i)}{f_{n,p}(k_{\max}+i-1)} = \frac{(n-k_{\max}-i+1)p}{(k_{\max}+i)q}\approx \frac{(nq-i)p}{(np+i)q} = \frac{1-\frac{i}{nq}}{1+\frac{i}{np}} \]

și cum (folosind relația \(\log(1+x)\approx x\), pentru \(x\) în jurul lui \(0\))

\[ \log\left(1-\frac{i}{nq}\right) - \log\left(1+\frac{i}{np}\right) \approx -\frac{i}{nq}-\frac{i}{np} = -\frac{i}{npq} \]

deducem, pentru \(m\geq 1\) și \(k_{\max}+m\leq n\), că

\[\begin{align*} \log\frac{f_{n,p}(k_{\max}+m)}{f_{n,p}(k_{\max})} &= \log\left(\frac{f_{n,p}(k_{\max}+1)}{f_{n,p}(k_{\max})}\times \frac{f_{n,p}(k_{\max}+2)}{f_{n,p}(k_{\max}+1)}\times\cdots\times\frac{f_{n,p}(k_{\max}+m)}{f_{n,p}(k_{\max}+m-1)}\right)\\ &= \log\frac{f_{n,p}(k_{\max}+1)}{f_{n,p}(k_{\max})}+ \log\frac{f_{n,p}(k_{\max}+2)}{f_{n,p}(k_{\max}+1)}+\cdots+\log\frac{f_{n,p}(k_{\max}+m)}{f_{n,p}(k_{\max}+m-1)}\\ &\approx \frac{-1-2-\cdots-m}{npq} = -\frac{1}{2}\frac{m^2}{npq}. \end{align*}\]

Sumarizând avem, pentru \(m\) nu foarte mare,

\[ \mathbb{P}(X=k_{\max}+m)\approx f_{n,p}(k_{\max})e^{-\frac{1}{2}\frac{m^2}{npq}}. \]

Folosind formula lui Stirling2

\[ n!\approx \sqrt{2\pi}n^{n+\frac{1}{2}}e^{-n} \]

pentru \(k = k_{\max}\approx np\), avem

\[ f_{n,p}(k)\approx \frac{1}{\sqrt{2\pi}}\frac{n^{n+\frac{1}{2}}}{(np)^{np+\frac{1}{2}}(nq)^{nq+\frac{1}{2}}}p^{np}q^{nq}= \frac{1}{\sqrt{2\pi npq}}. \]

Astfel aproximarea de Moivre devine

\[ \mathbb{P}(X=k_{\max}+m)\approx \frac{1}{\sqrt{2\pi npq}}e^{-\frac{1}{2}\frac{m^2}{npq}} \]

și scriind \(k\) pentru \(k_{\max}+m\) și înlocuind \(k_{\max}\) cu \(np\) obținem

\[ \mathbb{P}(X=k)\approx \frac{1}{\sqrt{2\pi npq}}e^{-\frac{1}{2}\frac{(k-np)^2}{npq}} = \frac{1}{\sigma_n\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{k-np}{\sigma_n}\right)^2}. \]

Astfel \(\mathbb{P}(X=k)\) este aproximativ egală cu aria de sub curba

\[ f(x) = \frac{1}{\sigma_n\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-np}{\sigma_n}\right)^2} \]

pe intervalul \(k-\frac{1}{2}\leq x\leq k+\frac{1}{2}\).

În mod similar, pentru \(0\leq a< b\leq n\), avem

\[ \mathbb{P}(a\leq X\leq b) = \sum_{k=a}^{b}f_{n,p}(k) \approx \sum_{k=a}^{k=b}\int_{k+\frac{1}{2}}^{k-\frac{1}{2}}f(x)\,dx = \int_{a}^{b}f(x)\,dx \]

de unde prin schimbarea de variabilă \(y = \frac{x-np}{\sigma_n}\) obținem

\[ \mathbb{P}(a\leq X\leq b)\approx \frac{1}{\sqrt{2\pi}}\int_{\alpha}^{\beta}e^{-\frac{y^2}{2}}\,dy = \Phi(\beta) - \Phi(\alpha) \]

unde \(\alpha = \frac{a-np-\frac{1}{2}}{\sigma_n}\), \(\beta = \frac{b-np+\frac{1}{2}}{\sigma_n}\) și \(\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{y^2}{2}}\,dy\).

Aplicând rezultatele de mai sus, în cele ce urmează vom considera două aproximări pentru funcția de repartiție \(F_{n,p}(k)\):

  1. aproximarea normală

\[ F_{n,p}(k) \approx \Phi\left(\frac{k-np}{\sqrt{np(1-p)}}\right). \]

  1. aproximarea normală cu coeficient de corecție de continuitate

\[ F_{n,p}(k) \approx \Phi\left(\frac{k+0.5-np}{\sqrt{np(1-p)}}\right). \]

În practică această ultimă aproximare se aplică atunci când atât \(np\geq 5\) cât și \(n(1-p)\geq 5\).

Următorul cod crează o funcție care calculează cele trei aproximări pentru funcția de repartiție binomială

appBNP <- function(n, p, R = 1000, k = 6) {
     
  trueval <- pbinom(k, n, p) # adevarata valoare a functiei de repartitie in k
  prob.zcc <- prob.zncc <- prob.pois <- NULL  # initializare
  q <- 1-p
  
  for (i in 1:R) {# repetam procesul de R ori 
    x <- rnorm(n, n * p, sqrt(n * p * q)) # generare n v.a. normale de medie np 
    z.cc <- ((k + .5) - mean(x))/sd(x) # cu coeficient de corectie
    prob.zcc[i] <- pnorm(z.cc)
    z.ncc <- (k - mean(x))/sd(x) # fara coeficient de corectie
    prob.zncc[i] <- pnorm(z.ncc)    
    y <- rpois(n, n * p)
    prob.pois[i] <- length(y[y <= k])/n # aproximate Poisson
  }
  list(prob.zcc = prob.zcc, prob.zncc = prob.zncc, 
       prob.pois = prob.pois, trueval = trueval)
}

Avem următoarea ilustrație grafică a diferitelor metode de aproximare:

Figura 1.13: Ilustrarea celor trei metode de aproximare.

Avem și următorul boxplot (discuție ce reprezintă un boxplot) care ne permite să evidențiem care dintre aproximări este mai bună pentru valorile selectate

Warning in (function (z, notch = FALSE, width = NULL, varwidth = FALSE, :
Duplicated argument ylim = c(0.82062679774782, 1.07062679774782) is disregarded
Figura 1.14: Compararea celor trei metode de aproximare.

Variabile aleatoare continue (univariate)

În afară de repartițiile discrete văzute în Capitolul 1, R pune la dispoziție și o gamă largă de repartiții continue. Tabelul de mai jos prezintă numele și parametrii acestora:

Tabelul 2.1: Numele și parametrii repartițiilor continue uzuale în R.
Repartiția Nume Parametrii Valori prestabilite Densitatea
Uniformă \(\mathcal{U}(a, b)\) unif min (\(a\)), max (\(b\)) min = 0, max = 1 \(\frac{1}{b-a}\mathbf{1}_{(a,b)}(x)\)
Normală \(\mathcal{N}(\mu, \sigma^2)\) norm mean (\(\mu\)), sd (\(\sigma\)) mean = 0, sd = 1 \(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
Log-Normală \(\mathcal{LN}(\mu, \sigma^2)\) lnorm mean (\(\mu\)), sd (\(\sigma\)) mean = 0, sd = 1 \(\frac{1}{x\sigma\sqrt{2\pi}}e^{-\frac{(\log(x)-\mu)^2}{2\sigma^2}}\)
Exponențială \(\mathrm{Exp}(\lambda)\) exp rate (\(\lambda\)) rate = 1 \(\lambda e^{-\lambda x}\mathbf{1}_{x\geq 0}\)
Cauchy \(\mathrm{C}(\alpha, \beta)\) cauchy location (\(\alpha\)), scale (\(\beta\)) location = 0, scale = 1 \(\frac{1}{\pi} \frac{\beta}{(x-\alpha)^2+\beta^2}\)
Gamma \(\Gamma(\alpha, \beta)\) gamma shape (\(\alpha\)), scale (\(\beta\)=1/rate) rate = 1 \(\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}\)
Beta \(\mathrm{B}(\alpha, \beta)\) beta shape1 (\(\alpha\)), shape2 (\(\beta\)) \(\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1} (1-x)^{\beta-1}\mathbf{1}_{[0,1]}(x)\)
Student \(t(\nu)\) t df (\(\nu\)) \(\frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\pi\nu}\Gamma\left(\frac{\nu}{2}\right)}\left(1+\frac{x^2}{\nu}\right)^{-\frac{\nu+1}{2}}\)
Chi-Squared \(\chi^2(\nu)\) chisq df (\(\nu\)) \(\frac{1}{2^{\frac{\nu}{2}}\Gamma\left(\frac{\nu}{2}\right)}x^{\frac{\nu}{2}-1}e^{-\frac{x}{2}}\mathbf{1}_{(0,\infty)}(x)\)
Fisher \(\mathrm{F}(\nu_1,\nu_2)\) f df1, df2 \(\frac{\Gamma\left(\frac{\nu_1+\nu_2}{2}\right)}{\Gamma\left(\frac{\nu_1}{2}\right)\Gamma\left(\frac{\nu_2}{2}\right)}\left(\frac{\nu_1}{\nu_2}\right)^{\frac{\nu_1}{2}}\frac{x^{\frac{\nu_1-2}{2}}}{\left(1+\frac{\nu_1}{\nu_2}x\right)^{\frac{\nu_1+\nu_2}{2}}}\)
Weibull \(\mathrm{Weib}(\alpha,\beta)\) weibull shape (\(\alpha\)), scale (\(\beta\)) scale = 1 \(\frac{\alpha}{\beta}\left(\frac{x}{\beta}\right)^{\alpha-1}e^{-\left(\frac{x}{\beta}\right)^{\alpha}}\mathbf{1}_{\{x\geq0\}}\)

Pentru fiecare repartiție continuă, există patru comenzi în R care sunt compuse din prefixul d, p, q și r și din numele repartiției (coloana a 2-a). De exemplu dnorm, pnorm, qnorm și rnorm sunt comenzile corespunzătoare repartiției normale pe când dunif, punif, qunif și runif sunt cele corespunzătoare repartiției uniforme.

  • dnume: calculează densitatea atunci când vorbim de o variabilă continuă sau funcția de masă atunci când avem o repartiție discretă

  • pnume: calculează funcția de repartiție, i.e. \(F(x)=\mathbb{P}(X\leq x)\)

  • qnume: reprezintă funcția cuantilă, cu alte cuvinte valoarea pentru care funcția de repartiție are o anumită probabilitate; în cazul continuu, dacă pnume(x) = p atunci qnume(p) = x iar în cazul discret întoarce cel mai mic întreg \(u\) pentru care \(\mathbb{P}(X\leq u)\geq p\).

  • rnume: generează observații independente din repartiția dată

Repartiția Uniformă \(\mathcal{U}([a,b])\)

Definiția 2.1 (Variabilă aleatoare repartizată uniform) Spunem că o variabilă aleatoare \(X\) este repartizată uniform pe intervalul \([a,b]\), și notăm cu \(X\sim \mathcal{U}([a,b])\), dacă admite densitatea de repartiție

\[ f_X(x) = \left\{\begin{array}{ll} \frac{1}{b-a}, & x\in[a,b]\\ 0, & \text{altfel} \end{array}\right. \]

Funcția de repartiție a repartiției uniforme este

\[ F_X(x) =\int_{-\infty}^{x}f_X(t)\,dt = \left\{\begin{array}{ll} 0, & x\leq a\\ \frac{x-a}{b-a}, & x\in(a,b)\\ 1, & x\geq b \end{array}\right. \]

(a) Densitatea
(b) Funcția de repartiție
Figura 2.1: Densitatea și funcția de repartiție a repartiției uniforme \(\mathcal{U}([a,b])\).

Media și varianța variabilei aleatoare \(X\) repartizate uniform pe \([a,b]\) sunt egale cu

\[ \mathbb{E}[X] = \frac{a+b}{2},\qquad Var(X) = \frac{(a-b)^2}{12}. \]

Variabilele aleatoare repartizate uniform joacă un rol important în teoria simulării variabilelor aleatoare datorită următorului rezultat datorat lui Paul Levy și numit teorema de universalitate a repartiției uniforme:

Teorema 2.1 (Universalitatea Repartiției Uniforme) Fie \(X\) o variabilă aleatoare reală cu funcția de repartiție \(F\), \(U\) o variabilă aleatoare repartizată uniform pe \([0,1]\) și fie funcția cuantilă (inversa generalizată) asociată lui \(F\), \(F^{-1}:(0,1)\to\mathbb{R}\) definită prin

\[ F^{-1}(u) = \inf\{x\in\mathbb{R}\,|\,F(x)\geq u\}, \quad \forall u\in(0,1). \]

Atunci \(X\) și \(F^{-1}(U)\) sunt repartizate la fel.

În R putem să

  • generăm observații independente din repartiția \(\mathcal{U}([a, b])\) (e.g. \(a = 3\) și \(b = 5\))

runif(10, 3, 5)
 [1] 3.795257 3.751064 3.616504 3.175641 3.657352 3.112309 4.635113 3.326394
 [9] 4.684819 4.108713

  • calculăm densitatea unei variabile aleatoare repartizate uniform pe \([a, b]\) în diferite puncte

dunif(c(3.1, 3.7, 3.95, 4.86), 3, 5)
[1] 0.5 0.5 0.5 0.5

  • calculăm funcția de repartiție a unei variabile repartizate uniform pe \([a,b]\) pentru diferite valori

punif(c(3.1, 3.7, 3.95, 4.86), 3, 5)
[1] 0.050 0.350 0.475 0.930

Exercițiul 2.1 Fie \(X\) o variabilă aleatoare repartizată uniform pe \([2,7]\). Determinați:

  1. \(\mathbb{P}(X\in\{1,2,3,4,5,6,7\})\)
  2. \(\mathbb{P}(X<3)\) și \(\mathbb{P}(X\leq 3)\)
  3. \(\mathbb{P}(X\leq 3 \cup X>4)\)
  4. Generați \(250\) de observații din repartiția dată, trasați histograma acestora și suprapuneți densitatea repartiției date (vezi figura de mai jos).

Figura 2.2: Densitatea repartiției uniforme suprapuse peste histograma celor \(250\) de observații generate.

Exercițiul 2.2 Dacă \(X\) o variabilă aleatoare repartizată uniform pe \([a,b]\) și \([c,d]\subset [a,b]\) este un subinterval, atunci repartiția condiționată a lui \(X\) la \(X\in [c,d]\) este \(\mathcal{U}[c,d]\).

Repartiția Normală \(\mathcal{N}(\mu, \sigma^2)\)

Definiția 2.2 (Variabilă aleatoare repartizată normal) Spunem că o variabilă aleatoare \(X\) este repartizată normal sau Gaussian de medie \(\mu\) și varianță \(\sigma^2\), și se notează cu \(X\sim\mathcal{N}(\mu, \sigma^2)\), dacă densitatea ei de repartiție are forma

\[ f_X(x) \left(\overset{not}{=} \varphi(x)\right) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad x\in\mathbb{R}. \]

Funcția de repartiție a unei variabile \(X\sim\mathcal{N}(\mu, \sigma^2)\) este dată de

\[ F_X(x) \left(\overset{not}{=} \Phi(x)\right) = \int_{-\infty}^{x}\varphi(t)\,dt = \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^2}{2\sigma^2}}\,dt. \]

(a) Densitatea
(b) Funcția de repartiție
Figura 2.3: Densitatea și funcția de repartiție a repartiției normale \(\mathcal{N}(\mu, \sigma^2)\).

Pentru funcția de repartiție nu avem o formulă explicită de calcul, ea poate fi aproximată cu ajutorul descompunerii în serie. În cazul variabilelor normale standard (\(X\sim\mathcal{N}(0,1)\)) avem proprietățile

  1. \(\Phi(x) = 1-\Phi(-x)\) pentru toate valorile \(x\in\mathbb{R}\)
  2. \(1-\Phi(a)\leq\frac{1}{2}e^{-\frac{a^2}{2}}\) pentru \(a>0\)3

Media și varianța variabilei aleatoare \(X\) repartizate normal de parametrii \(\mathcal{N}(\mu, \sigma^2)\) sunt egale cu

\[ \mathbb{E}[X] = \mu,\quad Var(X) = \sigma^2. \]

Mai mult, momentele de ordin se pot calcula cu ușurință și avem că

\[ \mathbb{E}[X^k] = \left\{\begin{array}{ll} \sigma^k (k-1)!!, & \text{$k$ este par} \\ 0, & \text{$k$ este impar}. \end{array}\right. \]

Pentru o variabilă aleatoare repartizată normal, avem următoarea regulă numită și regula \(68-95-99.7\%\):

Propoziția 2.1 (Regula 68-95-99.7) Fie \(X\) o variabilă aleatoare repartizată \(\mathcal{N}(\mu, \sigma^2)\). Atunci

\[\begin{align*} \mathbb{P}(|X-\mu|<\sigma) &\approx 0.68\\ \mathbb{P}(|X-\mu|<2\sigma) &\approx 0.95\\ \mathbb{P}(|X-\mu|<3\sigma) &\approx 0.997 \end{align*}\]

În R putem să

  • generăm observații independente din repartiția \(\mathcal{N}(\mu, \sigma^2)\) (e.g. \(\mu = 0\) și \(\sigma^2 = 2\) - în R funcțiile rnorm, dnorm, pnorm și qnorm primesc ca parametrii media și abaterea standard, \(\sigma\) nu varianța \(\sigma^2\))

rnorm(10, mean = 0, sd = sqrt(2))
 [1]  0.55927027 -1.84883625  2.10060598 -0.30268434 -2.73259909 -0.41916243
 [7] -0.17626574  0.58750246 -0.09499742 -0.84068518

  • calculăm densitatea unei variabile aleatoare repartizate normal \(\mathcal{N}(\mu, \sigma^2)\) în diferite puncte

dnorm(seq(-2, 2, length.out = 15), mean = 3, sd = 5)
 [1] 0.04839414 0.05115647 0.05390019 0.05660592 0.05925368 0.06182308
 [7] 0.06429362 0.06664492 0.06885700 0.07091058 0.07278734 0.07447021
[13] 0.07594361 0.07719368 0.07820854

  • calculăm funcția de repartiție a unei variabile repartizate normal \(\mathcal{N}(\mu, \sigma^2)\) pentru diferite valori

pnorm(seq(-1, 1, length.out = 15), mean = 3, sd = 1)
 [1] 3.167124e-05 5.736006e-05 1.018892e-04 1.775197e-04 3.033834e-04
 [6] 5.086207e-04 8.365374e-04 1.349898e-03 2.137367e-03 3.320943e-03
[11] 5.063995e-03 7.579219e-03 1.113549e-02 1.606229e-02 2.275013e-02

  • calculăm cuantilele de ordin \(\alpha\in(0,1)\) (i.e. valoarea \(z_{\alpha}\) pentru care \(\Phi(z_{\alpha}) = \alpha\) sau altfel spus \(z_{\alpha} = \Phi^{-1}(\alpha)\))

qnorm(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), mean = 0, sd = 1)
[1] -2.3263479 -1.9599640 -1.6448536 -0.6744898  0.0000000  0.6744898  1.6448536
[8]  1.9599640  2.3263479

Exercițiul 2.3 Fie \(X\) o variabilă aleatoare repartizată \(\mathcal{N}(\mu, \sigma^2)\). Atunci pentru \(\mu = 1\) și \(\sigma = 3\) calculați:

  1. \(\mathbb{P}(\text{$X$ este par})\)
  2. \(\mathbb{P}(X<3.4)\) și \(\mathbb{P}(X>1.3)\)
  3. \(\mathbb{P}(1<X<4)\)
  4. \(\mathbb{P}(X\in [2,3]\cup[3.5,5])\)
  5. \(\mathbb{P}(|X-3|>6)\)

Exercițiul 2.4 Fie \(X\) o variabilă aleatoare repartizată \(\mathcal{N}(\mu, \sigma^2)\). Pentru \(\mu = 0\) și \(\sigma^2 \in \{0.2, 0.5, 1.5, 5\}\) trasați pe același grafic densitățile repartițiilor normale cu parametrii \(\mathcal{N}(\mu, \sigma^2)\). Adăugați legendele corespunzătoare. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.4: Densitatea și funcția de repartiție pentru o serie de repartiții normale.

Exercițiul 2.5 Generați \(250\) de observații din repartiția \(\mathcal{N}(0, 2)\), trasați histograma acestora și suprapuneți densitatea repartiției date (vezi Figura 2.5).

Figura 2.5: Densitatea normalei suprapusă peste histograma eșantionului generat.

Exercițiul 2.6 Fie \(X\) o variabilă aleatoare repartizată normal de parametrii \(\mu\) și \(\sigma^2\). Ilustrați grafic pentru \(\mu = 0\) și \(\sigma = 1\) că are loc următoarea inegalitate:

\[ \left(\frac{1}{x}-\frac{1}{x^3}\right)\phi(x)<1-\Phi(x)<\frac{1}{x}\phi(x), \quad x>0. \]

Figura 2.6: Ilustrarea inegalității din enunț.

Repartiția Log-Normală \(\mathcal{LN}(\mu, \sigma^2)\)

Definiția 2.3 (Variabilă aleatoare repartizată log-normal) Spune că o variabilă aleatoare \(X\) este repartizată log-normal de parametrii \(\mu\) și \(\sigma^2\), și notăm \(X\sim LN(\mu, \sigma^2)\), dacă admite densitatea de repartiției

\[ f_X(x) = \frac{1}{x\sigma\sqrt{2\pi}}e^{-\frac{(\ln(x)-\mu)^2}{2\sigma^2}}, \quad x\in (0, +\infty). \]

Funcția de repartiție a unei variabile aleatoare \(X\sim LN(\mu, \sigma^2)\) este dată de

\[ F_{X}(x) = \int_{-\infty}^{x}f_X(t)\,dt = \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{x}\frac{1}{t}e^{-\frac{(\ln(t)-\mu)^2}{2\sigma^2}}\,dt \]

și, ca și în cazul repartiției normale, nu are o formulă explicită de calcul.

Remarcă

O variabilă aleatoare \(X\) este repartizată log-normal de parametrii \(\mu\) și \(\sigma^2\) dacă \(\ln(X)\) este repartizată normal de parametrii \(\mu\) și \(\sigma^2\). Cu alte cuvinte dacă \(Y\sim \mathcal{N}(\mu, \sigma^2)\) atunci \(X=e^Y\sim LN(\mu, \sigma^2)\).

(a) Densitatea
(b) Funcția de repartiție
Figura 2.7: Densitatea și funcția de repartiție a repartiției log-normale \(\mathcal{LN}(\mu, \sigma^2)\).

Media și varianța variabilei aleatoare \(X\) repartizate log-normal de parametrii \(LN(\mu, \sigma^2)\) sunt egale cu

\[ \mathbb{E}[X] = e^{\mu+\frac{\sigma^2}{2}},\quad Var(X) = \left(e^{\sigma^2}-1\right)e^{2\mu+\sigma^2}. \]

Exercițiul 2.7 Arătați că media și varianța unei variabile aleatoare repartizate log-normal de parametrii \(\mu\) și \(\sigma^2\) sunt egale cu

\[ \mathbb{E}[X] = e^{\mu+\frac{\sigma^2}{2}},\quad Var(X) = \left(e^{\sigma^2}-1\right)e^{2\mu+\sigma^2}. \]

În R putem să

  • generăm observații independente din repartiția \(LN(\mu, \sigma^2)\) (e.g. \(\mu = 0\) și \(\sigma^2 = 3\) - ca și în cazul repartiției normale, funcțiile rlnorm, dlnorm, plnorm și qlnorm primesc ca parametrii media și abaterea standard, \(\sigma\) pentru \(\ln(X)\) - variabila normală)

rlnorm(15, meanlog = 0, sdlog = sqrt(3))
 [1]  2.13141475  6.27258447  2.18850080  3.15407005  0.13970018  0.52638598
 [7] 12.91237780  0.12004802  1.56359485  2.01674623  5.42024453  0.54647199
[13]  1.31619806  0.04716763  1.79762358

  • calculăm densitatea unei variabile aleatoare repartizate log-normal \(LN(\mu, \sigma^2)\) în diferite puncte

dlnorm(seq(0, 5, length.out = 20), meanlog = 3, sdlog = 5)
 [1] 0.00000000 0.20820751 0.11627647 0.08196427 0.06370023 0.05226715
 [7] 0.04440086 0.03864103 0.03423291 0.03074580 0.02791546 0.02557044
[13] 0.02359456 0.02190618 0.02044622 0.01917084 0.01804680 0.01704845
[19] 0.01615564 0.01535234

  • calculăm funcția de repartiție a unei variabile repartizate log-normal \(LN(\mu, \sigma^2)\) pentru diferite valori

plnorm(seq(0, 15, length.out = 25), meanlog = 3, sdlog = 1)
 [1] 0.0000000000 0.0002602257 0.0027443707 0.0088606283 0.0185933103
 [6] 0.0314027650 0.0466497221 0.0637426806 0.0821791298 0.1015482283
[11] 0.1215206945 0.1418356830 0.1622882185 0.1827183180 0.2030019832
[16] 0.2230439002 0.2427715876 0.2621307274 0.2810814477 0.2995953616
[21] 0.3176532076 0.3352429649 0.3523583472 0.3689975944 0.3851625036

  • calculăm cuantilele de ordin \(\alpha\in(0,1)\)

qlnorm(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), meanlog = 0, sdlog = 1)
[1]  0.09765173  0.14086349  0.19304082  0.50941628  1.00000000  1.96303108
[7]  5.18025160  7.09907138 10.24047366

Exercițiul 2.8 Fie \(X\) o variabilă aleatoare repartizată \(LN(\mu, \sigma^2)\). Pentru \(\mu = 0\) și \(\sigma \in \{0.25, 0.5, 1.5, 5\}\) trasați pe același grafic densitățile repartițiilor log-normale cu parametrii \(LN(\mu, \sigma^2)\). Adăugați legendele corespunzătoare. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.8: Densitatea și funcția de repartiție pentru o serie de repartiții log-normale.

Exercițiul 2.9 Generați \(500\) de observații din repartiția \(LN(0, 2)\), trasați histograma acestora și suprapuneți densitatea repartiției date (vezi Figura 2.9).

Figura 2.9: Histograma observațiilor generate și densitatea teoretică suprapusă.

Printre fenomenele care pot fi modelate cu ajutorul repartiției log-normale se numără: cantitatea de lapte produsă de vaci, cantitatea de ploaie dintr-o perioadă dată, repartiția mărimii picăturilor de ploaie, volumul de gaz dintr-o rezervă petrolieră, etc. Pentru mai multe aplicații se poate consulta lucrarea lui Limpert, E., Stajel, W. și Abbt, M. Log-normal Distributions across the Sciences: Keys and Clues, BioScience, Vol. 51, Nr. 5, 2001.

Repartiția Exponențială \(\mathrm{Exp}(\lambda)\)

Definiția 2.4 (Variabilă aleatoare repartizată exponențial) Spunem că o variabilă aleatoare \(X\) este repartizată exponențial de parametru \(\lambda\), și se notează cu \(X\sim\mathrm{Exp}(\lambda)\), dacă densitatea ei de repartiție are forma

\[ f_X(x) = \lambda e^{-\lambda x}\mathbb{1}_{\mathbb{R}_+}(x),\quad \forall x\in\mathbb{R}. \]

Funcția de repartiție a unei variabile aleatoare \(X\sim \mathrm{Exp}(\lambda)\) este dată de

\[ F_{X}(x) = (1 - e^{-\lambda x})\mathbb{1}_{\mathbb{R}_+}(x), \quad x\in \mathbb{R}. \]

(a) Densitatea
(b) Funcția de repartiție
Figura 2.10: Densitatea și funcția de repartiție a repartiției exponențiale \(\mathrm{Exp}(\lambda)\).

Media și varianța variabilei aleatoare \(X\) repartizate exponențial de parametru \(\lambda\) sunt egale cu

\[ \mathbb{E}[X] = \frac{1}{\lambda},\quad Var(X) = \frac{1}{\lambda^2}. \]

Exercițiul 2.10 Arătați că momentul de ordin \(k\), \(k\geq 1\), al unei variabile aleatoare repartizate exponențial \(X\sim\mathrm{Exp}(\lambda)\) este egal cu

\[ \mathbb{E}[X^k] = \frac{k!}{\lambda^k}. \]

Următorul rezultat caracterizează repartiția exponențială:

Propoziția 2.2 Fie \(X\) o variabilă repartizată exponențial de parametru \(\lambda\). Atunci are loc următoarea proprietate numită și lipsa de memorie:

\[ \mathbb{P}(X>s+t|X>s) = \mathbb{P}(X>t),\quad \forall s,t \geq 0. \]

Mai mult, dacă o variabilă aleatoare continuă4 \(X\) verifică proprietatea de mai sus atunci ea este repartizată exponențial.

Variabilele aleatoare repartizate exponențial sunt utilizate în modelarea fenomenelor care se desfășoară în timp continuu și care satisfac (aproximativ) proprietatea lipsei de memorie: de exemplu timpul de așteptare la un ghișeu, durata de viață a unui bec sau timpul până la următoarea convorbire telefonică.

În R putem să

  • generăm observații independente din repartiția \(\mathrm{Exp}(\lambda)\) (e.g. \(\lambda = 5\))

rexp(15, rate = 5)
 [1] 0.13505357 0.15392539 0.25036131 0.15351051 0.00878456 0.07362396
 [7] 0.07543271 0.18981181 0.05540771 0.05649451 0.15878039 0.39847262
[13] 0.05191221 0.07776034 0.22483594

  • calculăm densitatea unei variabile aleatoare repartizate exponențial \(\mathrm{Exp}(\lambda)\) în diferite puncte

dexp(seq(0, 5, length.out = 20), rate = 5)
 [1] 5.000000e+00 1.341312e+00 3.598237e-01 9.652719e-02 2.589462e-02
 [6] 6.946555e-03 1.863500e-03 4.999070e-04 1.341063e-04 3.597568e-05
[11] 9.650925e-06 2.588981e-06 6.945263e-07 1.863153e-07 4.998141e-08
[16] 1.340814e-08 3.596899e-09 9.649130e-10 2.588499e-10 6.943972e-11

  • calculăm funcția de repartiție a unei variabile repartizate exponențial \(\mathrm{Exp}(\lambda)\) pentru diferite valori

pexp(seq(0, 5, length.out = 15), rate = 5)
 [1] 0.0000000 0.8323228 0.9718843 0.9952856 0.9992095 0.9998675 0.9999778
 [8] 0.9999963 0.9999994 0.9999999 1.0000000 1.0000000 1.0000000 1.0000000
[15] 1.0000000

  • calculăm cuantilele de ordin \(\alpha\in(0,1)\)

qexp(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), rate = 5)
[1] 0.002010067 0.005063562 0.010258659 0.057536414 0.138629436 0.277258872
[7] 0.599146455 0.737775891 0.921034037

Exercițiul 2.11 Fie \(X\) o variabilă aleatoare repartizată \(\mathcal{E}(\lambda)\). Pentru \(\lambda \in \{0.5, 1.5, 5\}\) trasați pe același grafic densitățile repartițiilor exponențiale de parametru \(\lambda\). Adăugați legendele corespunzătoare. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.11: Densitatea și funcția de repartiție pentru o serie de repartiții exponențiale.

Exercițiul 2.12 Folosind rezultatul de universalitate de la repartiția uniformă, descrieți o procedură prin care puteți simula o variabilă aleatoare repartizată exponențial \(\mathrm{Exp}(\lambda)\).

  1. Construiți o funcție care permite generarea de \(n\) observații independente dintr-o variabilă repartizată \(X\sim \mathrm{Exp}(\lambda)\).
  2. Generați \(250\) de observații din repartiția \(\mathrm{Exp}(3)\), trasați histograma acestora și suprapuneți densitatea repartiției date (vezi Figura 2.12).

Figura 2.12: Histograma observațiilor generate și densitatea teoretică suprapusă.

Repartiția Cauchy \(C(\alpha, \beta)\)

Definiția 2.5 (Variabilă aleatoare repartizată Cauchy) Spunem că o variabilă aleatoare \(X\) este repartizată Cauchy de parametrii \((0, 1)\), și se notează cu \(X\sim C(0,1)\), dacă densitatea ei de repartiție are forma

\[ f_X(x) = \frac{1}{\pi} \frac{1}{1+x^2},\quad \forall x\in\mathbb{R}. \]

Observăm că graficul densității repartiției Cauchy este asemănător cu cel al repartiției normale. Parametrul \(M = 0\) reprezintă mediana (de fapt \(\mathbb{P}(X\leq 0) = \mathbb{P}(X\geq 0) = \frac{1}{2}\)) variabilei aleatoare \(X\) și nu media iar prima și a treia cuartilă sunt \(Q_1 = -1\) și respectiv \(Q_3=1\) (avem \(\mathbb{P}(X\leq -1) = \mathbb{P}(X\geq 1) = \frac{1}{4}\)).

Funcția de repartiție a unei variabile aleatoare \(X\sim C(0,1)\) este dată de

\[ F_{X}(x) = \frac{1}{2} + \frac{1}{\pi}\arctan(x), \quad x\in \mathbb{R}. \]

(a) Densitatea
(b) Funcția de repartiție
Figura 2.13: Densitatea și funcția de repartiție a repartiției Cauchy \(C(0,1)\).

Media și varianța variabilei aleatoare \(X\sim C(0,1)\) nu există.

Exercițiul 2.13 Arătați că o variabilă aleatoare repartizată Cauchy \(C(0,1)\) nu are medie.

Soluție. Dacă vrem să calculăm media sub forma integralei improprii

\[ \mathbb{E}[X] = \int_{-\infty}^{\infty} \frac{x}{\pi\left(1+x^2\right)} \mathrm{d} x \]

atunci conform definiției acesteia avem că

\[ \mathbb{E}[X] = \int_{-\infty}^{\infty} \frac{x}{\pi\left(1+x^2\right)} \mathrm{d} x=\lim _{T_1 \rightarrow-\infty} \lim _{T_2 \rightarrow+\infty} \int_{T_1}^{T_2} \frac{x}{\pi\left(1+x^2\right)} \mathrm{d} x. \]

Pentru \(T_1 = -T\) și \(T_2 = \alpha T\) unde \(\alpha>0\) avem

\[ \begin{aligned} \mathbb{E}[X] &= \lim _{T_1 \rightarrow-\infty} \lim _{T_2 \rightarrow+\infty} \int_{T_1}^{T_2} \frac{x}{\pi\left(1+x^2\right)} \mathrm{d} x = \lim _{T \rightarrow+\infty}\int_{-T}^{\alpha T} \frac{x}{\pi\left(1+x^2\right)} \mathrm{d} x \\ &=\lim _{T \rightarrow+\infty}\left(\int_{-T}^T \frac{x}{\pi\left(1+x^2\right)} \mathrm{d} x+\int_T^{\alpha T} \frac{x}{\pi\left(1+x^2\right)} \mathrm{d} x\right) \\ & =0+\lim _{T \rightarrow+\infty}\left.\frac{\ln \left(1+x^2\right)}{2 \pi}\right|_T ^{\alpha T} = \lim _{T \rightarrow+\infty}\frac{1}{2 \pi} \ln \left(\frac{1+\alpha^2 T^2}{1+T^2}\right) \\ & =\frac{1}{2 \pi} \ln(\alpha), \end{aligned} \] prin urmare limita nu este definită, ea depinde de \(\alpha\).

Alternativ, ținând cont că o variabilă aleatoare admite medie dacă \(\mathbb{E}[|X|]<\infty\) și cum

\[ \mathbb{E}[|X|] = \int_{0}^{\infty} \frac{x}{\pi\left(1+x^2\right)} \mathrm{d} x = \left.\frac{\ln \left(1+x^2\right)}{2 \pi}\right|_0 ^{\infty} = \infty \]

obținem concluzia.

Fie \(Y\sim C(0,1)\) și \(\alpha, \beta\in\mathbb{R}\) cu \(\beta>0\). Spunem că variabila aleatoare \(X = \alpha + \beta Y\) este repartizată Cauchy de parametrii \((\alpha, \beta)\), \(X\sim C(\alpha, \beta)\). Densitatea ei este

\[ f_X(x) = \frac{1}{\pi\beta} \frac{1}{1+\left(\frac{x-\alpha}{\beta}\right)^2},\quad \forall x\in\mathbb{R}. \]

Parametrii \(\alpha\) și \(\beta\) se interpretează în modul următor: \(M = \alpha\) este mediana lui \(X\) iar \(Q_1 = \alpha-\beta\) și \(Q_3 = \alpha + \beta\) reprezintă prima și a treia cuartilă.

În R putem să

  • generăm observații independente din repartiția Cauchy \(C(\alpha, \beta)\) (e.g. \(\alpha = 0\), \(\beta = 2\))

rcauchy(15, location = 0, scale = 2)
 [1] -0.5966228  3.7627987  0.6864597 -0.4316018  1.4524446  0.3427032
 [7]  8.4285326  3.6056089  2.3506764 -3.5453329 -1.6137218 10.4304800
[13] -0.4449169  2.3005176 -3.6644199

  • calculăm densitatea unei variabile aleatoare repartizate Cauchy \(C(\alpha, \beta)\) în diferite puncte

dcauchy(seq(-5, 5, length.out = 20), location = 1, scale = 3)
 [1] 0.02122066 0.02450975 0.02852541 0.03345265 0.03951056 0.04693392
 [7] 0.05591721 0.06648594 0.07825871 0.09012539 0.10006665 0.10558334
[13] 0.10494052 0.09835367 0.08782920 0.07584810 0.06425529 0.05399054
[19] 0.04532934 0.03819719

  • calculăm funcția de repartiție a unei variabile repartizate Cauchy \(C(\alpha, \beta)\) pentru diferite valori

pcauchy(seq(-5, 5, length.out = 15), location = 1, scale = 3)
 [1] 0.1475836 0.1643213 0.1848605 0.2104166 0.2425988 0.2833834 0.3347507
 [8] 0.3975836 0.4697759 0.5451672 0.6158581 0.6764416 0.7255627 0.7644587
[15] 0.7951672

  • calculăm cuantilele de ordin \(p\in(0,1)\)

qcauchy(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), location = 1, scale = 3)
[1] -94.46155 -37.11861 -17.94125  -2.00000   1.00000   4.00000  19.94125
[8]  39.11861  96.46155

Exercițiul 2.14 Generați \(2500\) de observații din repartiția Cauchy, trasați histograma acestora și suprapuneți densitatea repartiției date pentru intervalul \([-5,5]\) (vezi Figura 2.14).

Figura 2.14: Histograma observațiilor generate din repartiția Cauchy \(C(0,1)\).

Exercițiul 2.15 Fie \(X\) o variabilă aleatoare repartizată Cauchy \(C(\alpha, \beta)\). Pentru fiecare pereche de parametrii \((\alpha, \beta)\) din mulțimea \(\{(0,0.5), (0, 1), (0, 2), (-1, 1.5), (-2, 1)\}\) trasați pe același grafic densitățile repartițiilor Cauchy cu parametrii \((\alpha, \beta)\). Adăugați legendele corespunzătoare. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.15: Densitatea și funcția de repartiție pentru o serie de repartiții Cauchy \(C(\alpha, \beta)\).

Exercițiul 2.16 Folosind rezultatul de universalitate de la repartiția uniformă, descrieți o procedură prin care puteți simula o variabilă aleatoare repartizată Cauchy \(C(0,1)\) și construiți o funcție care permite generarea de \(n\) observații independente dintr-o variabilă repartizată \(X\sim C(\alpha, \beta)\). Verificați pentru parametrii \(\alpha = 3\) și \(\beta = 5\) (a se vedea Figura 2.16).

Figura 2.16: Histograma observațiilor generate din repartiția Cauchy \(C(3,5)\).

Exercițiul 2.17 Fie \(X\) și \(Y\) două variabile aleatoare independente repartizate \(\mathcal{N}(0,1)\). Arătați că variabila aleatoare \(\frac{X}{Y}\) este repartizată Cauchy \(C(0,1)\).

Repartiția Gama \(\Gamma(\alpha,\beta)\)

Definiția 2.6 (Variabilă aleatoare repartizată Gama) Spunem că o variabilă aleatoare \(X\) este repartizată Gama de parametrii \((\alpha, \beta)\), cu \(\alpha, \beta > 0\), și se notează cu \(X\sim \Gamma(\alpha,\beta)\), dacă densitatea ei are forma

\[ f_X(x) = \frac{\beta^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x},\quad \forall x>0. \]

unde \(\Gamma(\alpha)\) este funcția (Gama, numită și integrală Euler de al doilea tip) definită prin

\[ \Gamma(\alpha) = \int_{0}^{\infty}x^{\alpha-1} e^{- x}\,dx,\quad \forall \alpha>0. \]

Funcția de repartiție a unei variabile aleatoare \(X\sim \Gamma(\alpha, \beta)\) este dată de

\[ F_{X}(x) = \int_{-\infty}^{x}f_X(t)\,dt = \frac{\beta^{\alpha}}{\Gamma(\alpha)}\int_{-\infty}^{x} t^{\alpha-1} e^{-\beta t}\,dt \]

și nu are o formulă explicită de calcul.

(a) Densitatea
(b) Funcția de repartiție
Figura 2.17: Densitatea și funcția de repartiție a repartiției Gamma \(\Gamma(\alpha,\beta)\).

Exercițiul 2.18 Arătați că funcția \(\Gamma(\alpha)\) verifică5:

  1. \(\Gamma(1)=1\)
  2. \(\Gamma(\alpha+1) = \alpha\Gamma(\alpha), \quad \forall \alpha>0\)
  3. \(\Gamma(\alpha) = \beta^{\alpha}\int_{0}^{\infty}x^{\alpha-1} e^{- \beta x}\,dx,\quad \forall \alpha, \beta>0\)
  4. \(\Gamma(n) = (n-1)!,\quad n = 1,2,\cdots\)
  5. \(\Gamma(1/2) = \sqrt{\pi}\)

Observăm că repartiția \(\Gamma(1, \lambda)\) coincide cu repartiția \(\mathcal{E}(\lambda)\).

Media și varianța variabilei aleatoare \(X\) repartizate Gama de parametrii \(\Gamma(\alpha, \beta)\) sunt egale cu

\[ \mathbb{E}[X] = \frac{\alpha}{\beta},\quad Var(X) = \frac{\alpha}{\beta^2}. \]

Exercițiul 2.19 Arătați că media și varianța unei variabile aleatoare repartizate Gama de parametrii \(\alpha\) și \(\beta\) sunt egale cu

\[ \mathbb{E}[X] = \frac{\alpha}{\beta},\quad Var(X) = \frac{\alpha}{\beta^2}. \]

În R putem să

  • generăm observații independente din repartiția \(\Gamma(\alpha, \beta)\) (e.g. \(\alpha = 2\), \(\beta = 2\))

rgamma(15, shape = 2, rate = 2)
 [1] 0.6207897 1.6546379 0.4210210 0.8476985 0.2928765 0.6798413 1.1393160
 [8] 1.0763898 1.4411221 0.9500644 0.7387296 0.4159926 0.8942659 0.8366199
[15] 0.9733579

  • calculăm densitatea unei variabile aleatoare repartizate \(\Gamma(\alpha, \beta)\) în diferite puncte

dgamma(seq(0, 5, length.out = 20), shape = 1, rate = 3)
 [1] 3.000000e+00 1.362251e+00 6.185761e-01 2.808853e-01 1.275455e-01
 [6] 5.791632e-02 2.629886e-02 1.194188e-02 5.422615e-03 2.462321e-03
[11] 1.118100e-03 5.077110e-04 2.305433e-04 1.046860e-04 4.753619e-05
[16] 2.158541e-05 9.801583e-06 4.450739e-06 2.021008e-06 9.177070e-07

  • calculăm funcția de repartiție a unei variabile repartizate \(\Gamma(\alpha, \beta)\) pentru diferite valori

pgamma(seq(0, 5, length.out = 15), shape = 1, rate = 3)
 [1] 0.0000000 0.6574811 0.8826808 0.9598160 0.9862362 0.9952856 0.9983852
 [8] 0.9994469 0.9998106 0.9999351 0.9999778 0.9999924 0.9999974 0.9999991
[15] 0.9999997

  • calculăm cuantilele de ordin \(p\in(0,1)\)

qgamma(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), shape = 1, rate = 3)
[1] 0.003350112 0.008439269 0.017097765 0.095894024 0.231049060 0.462098120
[7] 0.998577425 1.229626485 1.535056729

Exercițiul 2.20 Fie \(X\) o variabilă aleatoare repartizată \(\Gamma(\alpha, \beta)\). Pentru fiecare pereche de parametrii \((\alpha, \beta)\) din mulțimea \(\{(1,0.5), (2, 0.5), (3, 0.5), (5, 1), (9, 0.5), (7.5, 1), (0.5, 1) \}\) trasați pe același grafic densitățile repartițiilor Gama cu parametrii \((\alpha, \beta)\). Adăugați legendele corespunzătoare. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.18: Ilustrarea densității și a funcției de repartiție pentru o serie de parametrii a repartiției Gamma \(\Gamma(\alpha,\beta)\).

Exercițiul 2.21 Generați \(250\) de observații din repartiția \(\Gamma(9,2)\), trasați histograma acestora și suprapuneți densitatea repartiției date (vezi Figura 2.19).

Figura 2.19: Histograma observațiilor generate din repartiția \(\Gamma(9,2)\).

Repartiția Beta \(B(\alpha,\beta)\)

Definiția 2.7 (Variabilă aleatoare repartizată Beta) Spunem că o variabilă aleatoare \(X\) este repartizată Beta de parametrii \((\alpha, \beta)\), cu \(\alpha, \beta > 0\), și se notează cu \(X\sim B(\alpha,\beta)\), dacă densitatea ei are forma

\[ f_X(x) = \frac{1}{B(\alpha, \beta)} x^{\alpha-1} (1-x)^{\beta-1},\quad 0\leq x\leq 1. \]

unde \(B(\alpha, \beta)\) este funcția (Beta, numită și integrală Euler de primul tip) definită prin

\[ B(\alpha, \beta) = \int_{0}^{1}x^{\alpha-1} (1-x)^{\beta-1}\,dx,\quad \forall \alpha, \beta >0. \]

Funcția de repartiție a unei variabile aleatoare \(X\sim B(\alpha, \beta)\) este dată de

\[ F_{X}(x) = \int_{-\infty}^{x}f_X(t)\,dt = \frac{1}{B(\alpha, \beta)} \int_{-\infty}^{x} t^{\alpha-1} (1-t)^{\beta-1}\,dt \]

și nu are o formulă explicită de calcul.

(a) Densitatea
(b) Funcția de repartiție
Figura 2.20: Densitatea și funcția de repartiție a repartiției Beta \(B(\alpha,\beta)\).

Exercițiul 2.22 Arătați că funcția Beta \(B(\alpha, \beta)\) verifică următoarele proprietăți:

  1. \(B(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\)
  2. \(B(\alpha, \beta) = B(\beta, \alpha)\)
  3. \(B(\alpha, \beta) = B(\alpha, \beta+1) + B(\alpha+1, \beta)\)
  4. \(B(\alpha + 1, \beta) = B(\alpha, \beta) \frac{\alpha}{\alpha+\beta}\) și \(B(\alpha, \beta + 1) = B(\alpha, \beta) \frac{\beta}{\alpha+\beta}\).

Observăm că repartiția \(B(1, 1)\) coincide cu repartiția \(\mathcal{U}([0,1])\).

Media și varianța variabilei aleatoare \(X\) repartizate Gamma de parametrii \(B(\alpha, \beta)\) sunt egale cu

\[ \mathbb{E}[X] = \frac{\alpha}{\alpha+\beta},\quad Var(X) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}. \]

Observăm că \(Var(X)\leq\mathbb{E}[X](1-\mathbb{E}[X])\).

Exercițiul 2.23 Arătați că media și varianța unei variabile aleatoare repartizate Beta de parametrii \(\alpha\) și \(\beta\) sunt egale cu

\[ \mathbb{E}[X] = \frac{\alpha}{\alpha+\beta},\quad Var(X) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}. \]

În R putem să

  • generăm observații independente din repartiția \(B(\alpha, \beta)\) (e.g. \(\alpha = 2.5\), \(\beta = 1\))

rbeta(15, shape1 = 2.5, shape2 = 1)
 [1] 0.7945436 0.7609136 0.9265073 0.9309420 0.5621874 0.3664261 0.9694945
 [8] 0.5804873 0.9504669 0.9115169 0.8457509 0.6717780 0.7213322 0.9738473
[15] 0.9791769

  • calculăm densitatea unei variabile aleatoare repartizate \(B(\alpha, \beta)\) în diferite puncte

dbeta(seq(0, 1, length.out = 20), shape1 = 1, shape2 = 3)
 [1] 3.000000000 2.692520776 2.401662050 2.127423823 1.869806094 1.628808864
 [7] 1.404432133 1.196675900 1.005540166 0.831024931 0.673130194 0.531855956
[13] 0.407202216 0.299168975 0.207756233 0.132963989 0.074792244 0.033240997
[19] 0.008310249 0.000000000

  • calculăm funcția de repartiție a unei variabile repartizate \(B(\alpha, \beta)\) pentru diferite valori

pbeta(seq(0, 1, length.out = 15), shape1 = 1, shape2 = 3)
 [1] 0.0000000 0.1993440 0.3702624 0.5149417 0.6355685 0.7343294 0.8134111
 [8] 0.8750000 0.9212828 0.9544461 0.9766764 0.9901603 0.9970845 0.9996356
[15] 1.0000000

  • calculăm cuantilele de ordin \(p\in(0,1)\)

qbeta(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), shape1 = 1, shape2 = 3)
[1] 0.003344507 0.008403759 0.016952428 0.091439704 0.206299474 0.370039475
[7] 0.631596850 0.707598226 0.784556531

Exercițiul 2.24 Fie \(X\) o variabilă aleatoare repartizată \(B(\alpha, \beta)\). Pentru fiecare pereche de parametrii \((\alpha, \beta)\) din mulțimea \(\{(0.5,0.5), (1, 3), (5, 1), (2, 2), (2, 5)\}\) trasați pe același grafic densitățile repartițiilor Beta cu parametrii \((\alpha, \beta)\). Adăugați legendele corespunzătoare. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.21: Densitatea și funcția de repartiție a repartiției Beta \(B(\alpha,\beta)\) pentru o serie de parametrii.

Exercițiul 2.25 Generați \(250\) de observații din repartiția \(B(3,3)\), trasați histograma acestora și suprapuneți densitatea repartiției date (vezi Figura 2.22).

Figura 2.22: Histograma observațiilor generate din repartiția Beta \(B(3,3)\) și densitatea teoretică suprapusă.

Repartiția \(\chi^2(n)\)

Definiția 2.8 (Variabilă aleatoare repartizată \(\chi^2(n)\)) Spunem că o variabilă aleatoare \(X\) este repartizată \(\chi^2\) (Hi-pătrat) cu \(n\) grade de libertate și se notăm cu \(X\sim \chi^2(n)\) (sau încă \(X\sim \chi^2_n\)) dacă admite densitatea de repartiție

\[ f(x)=\frac{1}{2^{n / 2} \Gamma\left(\frac{n}{2}\right)} x^{n / 2-1} e^{-x / 2} \mathbf{1}_{\{x>0\}} \]

unde \(\Gamma(\cdot)\) este funcția Gamma dată de \(\Gamma(x)=\int_{0}^{\infty} u^{x-1} \mathrm{e}^{-u} \mathrm{d} u, x>0\).

Remarcă

Se poate observa cu ușurință că repartiția \(\chi^2(n)\) este un caz particular al repartiției \(\Gamma(\alpha, \beta)\), mai precis pentru \(\alpha = \frac{n}{2}\) și respectiv \(\beta=\frac{1}{2}\).

(a) Densitatea
(b) Funcția de repartiție
Figura 2.23: Densitatea și funcția de repartiție a repartiției \(\chi^2(n)\).

Exercițiul 2.26 Arătați că dacă \(X\sim \mathcal{N}(0, 1)\) atunci \(Y=X^2\sim\chi^2(1)\).

Soluție. Să observăm pentru început că dacă \(y<0\) atunci

\[ F_Y(y) = \mathbb{P}(Y\leq y) = \mathbb{P}(X^2\leq y) = 0. \]

Pentru \(y\geq 0\) avem

\[ \begin{aligned} F_Y(y) & =\mathbb{P}\left(X^2 \leq y\right)=\mathbb{P}(|X| \leq \sqrt{y}) \\ & =\mathbb{P}(-\sqrt{y} \leq X \leq \sqrt{y})=\Phi(\sqrt{y})-\Phi(-\sqrt{y})=\Phi(\sqrt{y})-(1-\Phi(\sqrt{y})) \\ & =2 \Phi(\sqrt{y})-1 \end{aligned} \]

de unde găsim că

\[ \begin{aligned} f_Y(y) & =2 \frac{d}{d y} \Phi(\sqrt{y})=2 \frac{d}{d \sqrt{y}} \Phi(\sqrt{y}) \frac{d}{d y} \sqrt{y} \\ & =2 \phi(\sqrt{y}) \frac{y^{-1 / 2}}{2}=2 \frac{1}{\sqrt{2 \pi}} e^{-y / 2} \frac{y^{-1 / 2}}{2} \\ & =\frac{1}{\sqrt{2} \sqrt{\pi}} e^{-y / 2} y^{-1 / 2}=\frac{1}{2^{1 / 2} \Gamma(1 / 2)} y^{1 / 2-1} e^{-y / 2} \end{aligned} \]

ceea ce arată că \(Y\sim\chi^2(1)\).

Exercițiul 2.27 (Rezultat de caracterizare a repartiției \(\chi^2(n)\)) Dacă \(X_1,\ldots,X_n\) sunt variabile aleatoare i.i.d. repartizate \(\mathcal{N}(0, 1)\) atunci variabila aleatoare \(X = \sum_{i = 1}^{n}X_i^2\) este repartizată \(\chi^2(n)\).

Soluție. Vom arăta pentru început că dacă \(X\sim \chi^2(n)\) iar \(Y\sim \chi^2(m)\) cu \(X\) și \(Y\) independente atunci

\[ X + Y \sim \chi^2(n + m). \]

Știm că dacă \(X\sim f_{X}\), \(Y\sim f_{Y}\) și \(X\) și \(Y\) independente atunci densitatea sumei \(X+Y\) este dată de

\[ f_{X+Y}(z) = \int_{-\infty}^{\infty}f_{X}(z - y)f_{Y}(y)\,dy \]

de unde, înlocuind \(f_X\) și \(f_Y\) cu densitățile \(\chi^2\) corespunzătoare, găsim că

\[ \begin{aligned} f_{X+Y}(z) &= \int_{-\infty}^{\infty}\frac{1}{2^{n / 2} \Gamma\left(\frac{n}{2}\right)} (z-y)^{n / 2-1} e^{-(z-y) / 2} \mathbf{1}_{\{z-y>0\}}\frac{1}{2^{m / 2} \Gamma\left(\frac{m}{2}\right)} y^{m / 2-1} e^{-y / 2} \mathbf{1}_{\{y>0\}}\,dy\\ &= \frac{1}{2^{\frac{n+m}{2}} \Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}\int_{0}^{z}(z-y)^{n / 2-1} e^{-(z-y) / 2}y^{m / 2-1} e^{-y / 2}\,dy\\ &= \frac{e^{-z / 2}}{2^{\frac{n+m}{2}} \Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}\int_{0}^{z}(z-y)^{n / 2-1} y^{m / 2-1} \,dy\\ &= \frac{e^{-z / 2}}{2^{\frac{n+m}{2}} \Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}z^{\frac{n+m}{2}-2}\int_{0}^{z}\left(1-\frac{y}{z}\right)^{n / 2-1} \left(\frac{y}{z}\right)^{m / 2-1} \,dy\\ &\stackrel{t=\frac{y}{z}}{=} \frac{e^{-z / 2}}{2^{\frac{n+m}{2}} \Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}z^{\frac{n+m}{2}-2}\int_{0}^{1}\left(1-t\right)^{n / 2-1} t^{m / 2-1} z\,dt\\ &= \frac{e^{-z / 2}}{2^{\frac{n+m}{2}} \Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}z^{\frac{n+m}{2}-1}B\left(\frac{m}{2}, \frac{n}{2}\right) \end{aligned} \]

Folosind identitatea \(B\left(\frac{m}{2}, \frac{n}{2}\right) = \frac{\Gamma\left(\frac{n+m}{2}\right)}{\Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}\) găsim

\[ f_{X+Y}(z) = \frac{1}{2^{\frac{n+m}{2}} \Gamma\left(\frac{n+m}{2}\right)}z^{\frac{n+m}{2}-1}e^{-z / 2}\mathbf{1}_{\{z>0\}} \]

ceea ce arată că \(X + Y \sim \chi^2(n+m)\).

Am văzut în exercițiul anterior că dacă \(X_i\sim\mathcal{N}(0, 1)\) atunci \(X_i^2\sim\chi^2(1)\). Cum \(X_1,\ldots,X_n\) sunt variabile aleatoare i.i.d. repartizate \(\mathcal{N}(0, 1)\) rezultă că \(X_1^2,\ldots,X_n^2\) sunt variabile aleatoare i.i.d. repartizate \(\chi^2(1)\). Aplicând identitatea sumei de mai sus pentru variabile \(\chi^2\) independente obținem concluzia.

Alternativ, acest rezultat se poate demonstra ușor folosind noțiunea de funcție generatoare de moment. De exemplu, funcția generatoare de moment pentru \(X\sim\chi^2(n)\) este dată de

\[ \begin{aligned} M_X(t) &= \mathbb{E}\left[e^{t X}\right] =\int_0^{\infty} e^{t x} f_{X}(x) \,d x \\ & =\frac{1}{2^{n / 2} \Gamma\left(\frac{n}{2}\right)} \int_0^{\infty} e^{t x} \cdot x^{n / 2-1} e^{-x/2}\, d x \\ & =\frac{1}{2^{n / 2} \Gamma\left(\frac{n}{2}\right)} \int_0^{\infty} x^{n / 2-1} e^{\left(t-\frac{1}{2}\right) x} d x. \end{aligned} \]

Aceasta este definită pentru \(t<\frac{1}{2}\) și folosind schimbare de variabilă \(s = \left(\frac{1}{2} - t\right)x\) avem

\[ \begin{aligned} M_X(t) & =\frac{1}{2^{n / 2} \Gamma\left(\frac{n}{2}\right)} \int_0^{\infty} x^{n / 2-1} e^{\left(t-\frac{1}{2}\right) x} d x\\ & =\left(\frac{1}{2}-t\right)^{-n / 2} \frac{1}{2^{n / 2} \Gamma\left(\frac{n}{2}\right)} \int_0^{\infty} s^{n / 2-1} e^{-s} d s \\ & =(1-2 t)^{-n / 2} \underbrace{\frac{1}{\Gamma\left(\frac{n}{2}\right)} \int_0^{\infty} s^{n / 2-1} e^{-s} d s}_{=1}\\ & =(1-2 t)^{-n / 2} . \end{aligned} \]

Din ipoteză avem că \(X = \sum_{i = 1}^{n}X_i^2\), unde \(X_i^2\) sunt variabile aleatoare independente repartizate \(\chi^2(1)\) prin urmare \(M_{X_i^2}(t) = (1-2 t)^{-1 / 2}\). Știm că funcția generatoare de moment a unei sume de variabile aleatoare independente este egală cu produsul funcțiilor generatoare de moment, astfel

\[ \begin{aligned} M_X(t) & = \prod_{i=1}^n M_{X_i}(t) = \prod_{i=1}^n (1-2 t)^{-1 / 2} = (1-2 t)^{-n / 2} \end{aligned} \]

ceea ce arată că funcția generatoare de moment a lui \(X\) coincide cu cea a repartiției \(\chi^2(n)\). Din teorema de unicitate a funcțiilor generatoare de moment avem concluzia.

Exercițiul 2.28 Pentru o v.a. \(X\sim \chi^2(n)\) avem că \(\mathbb{E}[X] = n\) și \(Var(X) = 2n\).

Soluție. Într-adevăr, ținând cont că \(X = \sum_{i = 1}^{n}X_i^2\), cu \(X_i\sim\mathcal{N}(0, 1)\), și că \(\mathbb{E}\left[X_i^2\right]=1\) avem că

\[ \mathbb{E}\left[\chi^2(n)\right]=\mathbb{E}\left[\sum_{i=1}^n X_i^2\right]=\sum_{i=1}^n \mathbb{E}\left[X_i^2\right]=n \]

iar din independență și din faptul că \(Var\left(X_i^2\right)=\mathbb{E}\left[X_i^4\right] - \mathbb{E}\left[X_i^2\right]^2 = 3- 1 = 2\) găsim că

\[ Var\left(\chi^2(n)\right) = Var\left(\sum_{i=1}^n X_i^2\right) = \sum_{i=1}^n Var\left(X_i^2\right)=2n. \]

În R putem să

  • generăm observații independente din repartiția \(\chi^2(n)\) (e.g. \(n = 5\))

rchisq(15, df = 5)
 [1]  1.345886  5.213030  4.101856  4.839651  2.085231  7.133090 11.896613
 [8]  2.370347  1.719947  3.982565  7.159776 13.325645  7.722841  7.684797
[15]  4.847908

  • calculăm densitatea unei variabile aleatoare repartizate \(\chi^2(n)\) în diferite puncte

dchisq(seq(0, 10, length.out = 20), df = 5)
 [1] 0.00000000 0.03902747 0.08484522 0.11980535 0.14177391 0.15229067
 [7] 0.15387113 0.14903536 0.13995526 0.12836008 0.11555219 0.10246586
[13] 0.08973751 0.07777305 0.06680641 0.05694754 0.04822031 0.04059153
[19] 0.03399247 0.02833456

  • calculăm funcția de repartiție a unei variabile repartizate \(\chi^2(n)\) pentru diferite valori

pchisq(seq(0, 20, length.out = 15), df = 5)
 [1] 0.00000000 0.07883746 0.27800119 0.49094484 0.66497990 0.78976919
 [7] 0.87257132 0.92476475 0.95648548 0.97524509 0.98610716 0.99229104
[13] 0.99576332 0.99769073 0.99875027

  • calculăm cuantilele de ordin \(p\in(0,1)\)

qchisq(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), df = 5)
[1]  0.5542981  0.8312116  1.1454762  2.6746028  4.3514602  6.6256798 11.0704977
[8] 12.8325020 15.0862725

Exercițiul 2.29 Fie \(X\) o variabilă aleatoare repartizată \(\chi^2(n)\). Pentru fiecare \(n\in\{1, 3, 9\}\) trasați pe același grafic densitățile repartițiilor \(\chi^2(n)\) corespunzătoare. Adăugați legendele aferente. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.24: Ilustrarea densității și a funcției de repartiție a repartiției \(\chi^2_n\) pentru o serie de parametrii.

Din Teorema Limită Centrală avem că pentru \(n\) suficient de mare, \(X\approx \mathcal{N}(n, 2n)\) ceea ce sugerează că aproximativ \(95\%\) dintre valori se situează în intervalul \([n - 2\sqrt{2n}, n + 2\sqrt{2n}]\).

Figura 2.25: Aproximarea densității repartiției \(\chi^2_n\) cu normala \(\mathcal{N}(n, 2n)\).

Exercițiul 2.30 Generați \(250\) de observații din repartiția \(\chi^2(5)\), trasați histograma acestora și suprapuneți densitatea repartiției date (vezi Figura 2.26).

Figura 2.26: Histograma observațiilor generate din repartiția \(\chi^2(5)\) și densitatea teoretică suprapusă.

Repartiția \(t\)-Student

Repartiția Student sau t-Student este numită după un autor care a publicat în revista Biometrika în anul 1908 un articol care făcea referire la această repartiție sub pseudonimul Student. În realitate, cel care a publicat articolul era William Sealy Gosset.

Definiția 2.9 (Variabilă aleatoare repartizată Student) Spunem că variabila aleatoare \(T\) este repartizată Student cu \(n\) grade de libertate și notăm cu \(T\sim t_n\) (sau încă \(T\sim t(n)\)) dacă \(T\) admite densitatea de repartiție

\[ f_n(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}},\, x \in \mathbb{R} \]

(a) Densitatea
(b) Funcția de repartiție
Figura 2.27: Densitatea și funcția de repartiție a repartiției Student \(t_n\).

Avem următorul rezultat:

Exercițiul 2.31 (Rezultat de caracterizare a repartiției Student) Fie \(U\) o variabilă aleatoare repartizată \(\mathcal{N}(0, 1)\) și \(V\) o variabilă repartizată \(\chi^2(n)\), cu \(U\) și \(V\) independente, atunci variabila aleatoare \(T = \frac{U}{\sqrt{\frac{V}{n}}}\) este repartizată Student cu \(n\) grade de libertate.

Soluție. Vom determina pentru început repartiția comună a vectorului \((T, V)\) și, plecând de la aceasta, vom găsi repartiția marginală a lui \(T\). În acest sens considerăm transformarea

\[ g:(u, v) \mapsto(t, v)=\left(\frac{u}{\sqrt{v /n}}, v\right) \]

astfel că \((T,V) = g(U, V)\) și a cărei inversă este dată de

\[ g^{-1}:(t, v) \mapsto\left(t \sqrt{\frac{v}{n}}, v\right). \]

Matricea Jacobiană corespunzătoare lui \(g^{-1}\) este

\[ J_{g^{-1}}=\left(\begin{array}{cc} \sqrt{v /n} & t \frac{1}{2 \sqrt{v}\sqrt{n}} \\ 0 & 1 \end{array}\right) \]

de unde găsim determinantul \(\operatorname{det}\left(J_{g^{-1}}(t, v)\right)=\sqrt{\frac{v}{n}}\). Cum \(U\) și \(V\) sunt independente rezultă că densitatea comună a vectorului \((U,V)\) este

\[ f_{U, V}(u, v)=f_U(u) f_V(v)=\frac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}}\frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{n}{2}\right)} v^{\frac{n}{2}-1} e^{-\frac{v}{2}} \]

prin urmare densitatea comună a vectorului \((T,V)\) este

\[ \begin{aligned} f_{T, V}(t, v) & =f_{U, V}\left(g^{-1}(t, v)\right)\left|\operatorname{det}\left(J_{g-1}(t, v)\right)\right|=f_{U, V}\left(t \sqrt{\frac{v}{n}}, v\right) \sqrt{\frac{v}{n}}\\ & =\frac{1}{2^{\frac{n}{2}} \sqrt{2\pi} \Gamma\left(\frac{n}{2}\right)} v^{\frac{n}{2}-1} e^{-\frac{1}{2}\left(v+v \frac{t^2}{n}\right)} \cdot\sqrt{\frac{v}{n}} \\ & =\frac{1}{2^{\frac{n}{2}} \sqrt{2\pi n} \Gamma\left(\frac{n}{2}\right)} \cdot v^{\frac{n+1}{2}-1} e^{-\frac{v}{2}\left(1+\frac{t^2}{n}\right)} . \end{aligned} \]

Densitatea marginală a lui \(T\) este

\[ f_T(t)=\frac{1}{2^{\frac{n}{2}} \sqrt{2\pi n} \Gamma\left(\frac{n}{2}\right)} \int_0^{\infty} e^{-\frac{v}{2}\left(\frac{t^2}{n}+1\right)} v^{\frac{n+1}{2}-1} d v \]

și considerând schimbarea de variabilă \(y = \frac{v}{2}\left(\frac{t^2}{n}+1\right)\) găsim \(v = \frac{2y}{\frac{t^2}{n}+1}\) de unde \(d v = \frac{2}{\frac{t^2}{n}+1} d y\) ceea ce conduce la

\[ \begin{aligned} f_T(t) & =\frac{1}{2^{\frac{n}{2}} \sqrt{2\pi n} \Gamma\left(\frac{n}{2}\right)} \cdot \int_0^{\infty} e^{-y} \cdot\left[(2 y)\left(\frac{t^2}{n}+1\right)^{-1}\right]^{\frac{n+1}{2}-1} \cdot 2\left(\frac{t^2}{n}+1\right)^{-1} d y \\ & =\frac{1}{2^{\frac{n}{2}} \sqrt{2\pi n} \Gamma\left(\frac{n}{2}\right)} \cdot\frac{2^{\frac{n+1}{2}}}{\left(\frac{t^2}{n}+1\right)^{\frac{n+1}{2}}} \cdot \int_0^{\infty} y^{\frac{n+1}{2}-1} e^{-y} d y \\ & =\frac{1}{\sqrt{\pi n} \Gamma\left(\frac{n}{2}\right)} \cdot\frac{1}{\left(\frac{t^2}{n}+1\right)^{\frac{n+1}{2}}}\Gamma\left(\frac{n+1}{2}\right) \\ & =\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n} \Gamma\left(\frac{n}{2}\right)} \left(\frac{t^2}{n}+1\right)^{-\frac{n+1}{2}}. \end{aligned} \]

Remarcă

Ca aplicație fundamentală a acestui rezultat, să observăm că dacă \(X_1,\ldots,X_n\) este un eșantion de volum \(n\) dintr-o populație \(\mathcal{N}(\mu,\sigma^2)\) atunci

\[ \frac{\bar{X}_n - \mu}{\frac{S_n^2}{\sqrt{n}}}\sim t_{n-1}. \]

Remarcă

Dacă \(T\sim t_n\) și \(n = 1\) atunci variabila \(T\) este repartizată Cauchy (raport de două normale independente) și prin urmare nu are medie (evident nici varianță). Dacă \(n = 2\) atunci \(T\) este de medie \(0\) dar de varianță infinită iar pentru \(n\geq 3\), \(\mathbb{E}[T] = 0\) și \(Var(T) = \frac{n}{n-2}\).

În R putem să

  • generăm observații independente din repartiția \(t_n\) (e.g. \(n = 3\))

rt(15, df = 3)
 [1] -1.0721285 -1.4029261  0.8429237  0.4333925 -0.2439989 -0.2350459
 [7] -0.0933165  3.2847772 -0.9054785  1.0910964 -0.2326827  1.1623898
[13] -1.0208643  0.5676930  0.6201232

  • calculăm densitatea unei variabile aleatoare repartizate \(t_n\) în diferite puncte

dt(seq(-4, 4, length.out = 20), df = 3)
 [1] 0.009163361 0.013236119 0.019657491 0.030059780 0.047298807 0.076170626
 [7] 0.123676667 0.196017166 0.286343470 0.356928333 0.356928333 0.286343470
[13] 0.196017166 0.123676667 0.076170626 0.047298807 0.030059780 0.019657491
[19] 0.013236119 0.009163361

  • calculăm funcția de repartiție a unei variabile repartizate \(t_n\) pentru diferite valori

pt(seq(-4, 4, length.out = 15), df = 3)
 [1] 0.01400423 0.02079072 0.03236422 0.05318729 0.09249432 0.16802029
 [7] 0.30385726 0.50000000 0.69614274 0.83197971 0.90750568 0.94681271
[13] 0.96763578 0.97920928 0.98599577

  • calculăm cuantilele de ordin \(p\in(0,1)\)

qt(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), df = 3)
[1] -4.5407029 -3.1824463 -2.3533634 -0.7648923  0.0000000  0.7648923  2.3533634
[8]  3.1824463  4.5407029

Exercițiul 2.32 Fie \(X\) o variabilă aleatoare repartizată \(t_n\). Pentru fiecare \(n\in\{1, 3, 9\}\) trasați pe același grafic densitățile repartițiilor \(t_n\) corespunzătoare. Adăugați legendele aferente. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.28: Ilustrarea densității și a funcției de repartiție a repartiției \(t_n\) pentru o serie de grade de libertate.

Exercițiul 2.33 Arătați că pentru \(n\) suficient de mare avem că \(T\approx \mathcal{N}(0,1)\) (de exemplu observând că, din Legea Numerelor Mari, numitorul tinde la \(1\) atunci când \(n\to\infty\)). Ilustrați grafic acest fenomen.

Soluție. Într-adevăr, dacă în limita

\[ \lim _{n \rightarrow \infty}\left(1+\frac{a}{n}\right)^n=e^a, \]

înlocuim pe \(a = x^2\) găsim că

\[ \lim _{n \rightarrow \infty}\left(1+\frac{x^2}{n}\right)^{\frac{n+1}{2}}=e^{\frac{x^2}{2} \lim _{n \rightarrow \infty}\frac{n+1}{n}}=\mathrm{e}^{\frac{x^2}{2}} . \]

În plus, ținând cont de faptul că (acest rezultat se poate obține imediat prin aplicarea inegalității lui Gautschi)

\[ \lim _{n \rightarrow \infty} \frac{\Gamma\left(\frac{n+1}{2}\right)}{\Gamma\left(\frac{n}{2}\right) \sqrt{n}}=\frac{1}{\sqrt{2}} \]

concluzionăm că

\[ \lim _{n \rightarrow \infty}f_n(x)=\lim _{n \rightarrow \infty}\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n} \Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}} = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}}. \]

Figura 2.29: Aproximarea densității repartiției \(t_n\) cu normala \(\mathcal{N}(0,1)\).

Exercițiul 2.34 Generați \(250\) de observații din repartiția \(t_5\), trasați histograma acestora și suprapuneți densitatea repartiției date (vezi Figura 2.30).

Figura 2.30: Histograma observațiilor generate din repartiția \(t_5\) și densitatea teoretică suprapusă.

Repartiția Fisher-Snedecor

Definiția 2.10 (Variabilă aleatoare repartizată Fisher-Snedecor) Spunem că o variabilă aleatoare \(F\) este repartizată Fisher-Snedecor (sau pe scurt are repartiția \(F\) sau Fisher) cu \(n_1\) grade de libertate la numărător și \(n_2\) grade de libertate la numitor și notăm \(F\sim F_{n_1,n_2}\) dacă admite densitatea de repartiție

\[ f_{n_{1}, n_{2}}(x)=\frac{\Gamma\left(\frac{n_{1}+n_{2}}{2}\right)}{\Gamma\left(\frac{n_{1}}{2}\right) \Gamma\left(\frac{n_{2}}{2}\right)}\left(\frac{n_{1}}{n_{2}}\right)^{\frac{n_{1}}{2}} \frac{x^{\frac{n_{1}-2}{2}}}{\left(1+\frac{n_{1}}{n_{2}} x\right)^{\frac{n_{1}+n_{2}}{2}}} \quad \text { dacă } x>0 \quad(0 \text { altfel}). \]

(a) Densitatea
(b) Funcția de repartiție
Figura 2.31: Densitatea și funcția de repartiție a repartiției Fisher-Snedecor \(F_{n_1,n_2}\).

Remarcă

Pentru \(n_2\geq 3\) media variabilei aleatoare \(F\) există și este egală cu \(\frac{n_2}{n_2-2}\) iar pentru \(n_2\geq 5\) varianța există și este egală cu \(\frac{2 n_{2}^{2}\left(n_{1}+n_{2}-2\right)}{n_{1}\left(n_{2}-2\right)^{2}\left(n_{2}-4\right)}\).

Avem următorul de rezultat:

Exercițiul 2.35 (Rezultat de caracterizare a repartiției Fisher) Fie \(U\) o variabilă aleatoare repartizată \(\chi^2_{n_1}\) și \(V\) o variabilă aleatoare repartizată \(\chi^2_{n_2}\), cu \(U\) și \(V\) independente. Atunci variabila aleatoare \(F = \frac{U/n_1}{V/n_2}\) este repartizată Fisher-Snedecor cu \(n_1\) grade de libertate la numărător și \(n_2\) grade de libertate la numitor.

Soluție. Vom determina pentru început repartiția comună a vectorului \((F, V)\) și, plecând de la aceasta, vom găsi repartiția marginală a lui \(F\). În acest sens considerăm transformarea

\[ g:(u, v) \mapsto(f, v)=\left(\frac{u/n_1}{v /n_2}, v\right) \]

astfel că \((F,V) = g(U, V)\) și a cărei inversă este dată de

\[ g^{-1}:(f, v) \mapsto\left(\frac{n_1}{n_2}fv, v\right). \]

Matricea Jacobiană corespunzătoare lui \(g^{-1}\) este

\[ J_{g^{-1}}=\left(\begin{array}{cc} \frac{n_1}{n_2}v & \frac{n_1}{n_2}f \\ 0 & 1 \end{array}\right) \]

de unde găsim determinantul \(\operatorname{det}\left(J_{g^{-1}}(f, v)\right)=\frac{n_1}{n_2}v\). Cum \(U\) și \(V\) sunt independente rezultă că densitatea comună a vectorului \((U,V)\) este egală cu produsul densităților marginale,

\[ f_{U, V}(u, v)=f_U(u) f_V(v)=\frac{1}{2^{\frac{n_1}{2}} \Gamma\left(\frac{n_1}{2}\right)} u^{\frac{n_1}{2}-1} e^{-\frac{u}{2}}\frac{1}{2^{\frac{n_2}{2}} \Gamma\left(\frac{n_2}{2}\right)} v^{\frac{n_2}{2}-1} e^{-\frac{v}{2}} \]

prin urmare densitatea comună a vectorului \((F,V)\) este, pentru \(f, v > 0\),

\[ \begin{aligned} f_{F, V}(f, v) & =f_{U, V}\left(g^{-1}(f, v)\right)\left|\operatorname{det}\left(J_{g-1}(f, v)\right)\right|=f_{U, V}\left(\frac{n_1}{n_2}fv, v\right) \frac{n_1}{n_2}v\\ & =\frac{1}{2^{\frac{n_1+n_2}{2}} \Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)} \left(\frac{n_1}{n_2}\right)^{\frac{n_1}{2}-1} f^{\frac{n_1}{2}-1} v^{\frac{n_1+n_2}{2}-2} e^{-\frac{v}{2}\left(\frac{n_1}{n_2}f + 1\right)}\frac{n_1}{n_2}v\\ & =\frac{1}{2^{\frac{n_1+n_2}{2}} \Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)} \left(\frac{n_1}{n_2}\right)^{\frac{n_1}{2}} f^{\frac{n_1}{2}-1} v^{\frac{n_1+n_2}{2}-1} e^{-\frac{v}{2}\left(\frac{n_1}{n_2}f + 1\right)}. \end{aligned} \]

Integrând densitatea comună după \(v\) găsim că densitatea marginală a lui \(F\) este

\[ \begin{aligned} f_F(f) &= \int_0^{\infty} f_{F, V}(f, v) dv \\ &= \frac{1}{2^{\frac{n_1+n_2}{2}} \Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)} \left(\frac{n_1}{n_2}\right)^{\frac{n_1}{2}} f^{\frac{n_1}{2}-1} \int_0^{\infty} v^{\frac{n_1+n_2}{2}-1} e^{-\frac{v}{2}\left(\frac{n_1}{n_2}f + 1\right)} dv \end{aligned} \]

și considerând schimbarea de variabilă \(y = \frac{v}{2}\left(\frac{n_1}{n_2}f + 1\right)\) găsim \(v = \frac{2y}{\frac{n_1}{n_2}f + 1}\) de unde \(d v = \frac{2}{\frac{n_1}{n_2}f + 1} d y\), \(y\in[0,\infty)\) ceea ce conduce la

\[ \begin{aligned} f_F(f) & =\frac{\left(\frac{n_1}{n_2}\right)^{\frac{n_1}{2}} f^{\frac{n_1}{2}-1}}{2^{\frac{n_1+n_2}{2}} \Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)} \left(\frac{2}{\frac{n_1}{n_2}f + 1}\right)^{\frac{n_1+n_2}{2}-1}\frac{2}{\frac{n_1}{n_2}f + 1}\int_0^{\infty}y^{\frac{n_1+n_2}{2}-1}e^{-y}dy\\ & = \frac{\left(\frac{n_1}{n_2}\right)^{\frac{n_1}{2}} \Gamma(\frac{n_1 + n_2}{2})}{ \Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)}\cdot \frac{f^{\frac{n_1}{2}-1}}{\left(\frac{n_1}{n_2}f + 1\right)^{\frac{n_1+n_2}{2}}}. \end{aligned} \]

Ca aplicație fundamentală a acestui rezultat avem:

Remarcă

Fie \(X_1, \ldots,X_n\stackrel{\mathrm{iid}}{\sim} \mathcal{N}\left(\mu_1, \sigma^2\right)\) și \(Y_1, \ldots,Y_m\stackrel{\mathrm{iid}}{\sim} \mathcal{N}\left(\mu_2, \sigma^2\right)\) de eșantioane de volume \(n\) și respectiv \(m\) din populații normale de medii diferite și de aceeași dispersie. Dacă \(X_i\) și \(Y_j\) sunt independente între ele atunci

\[ \frac{\frac{\sum_{i=1}^n\left(X_i-\bar{X}_n\right)^2}{n-1}}{\frac{\sum_{j=1}^m\left(Y_j-\bar{Y}_m\right)^2}{m-1}} \sim F(n-1, m-1) . \]

În R putem să

  • generăm observații independente din repartiția \(F_{n_1,n_2}\) (e.g. \(n_1 = 3\) și \(n_2 = 5\))

rf(15, df1 = 3, df2 = 5)
 [1] 0.5611893 0.2999308 1.5192759 2.4552251 0.3579799 1.3638477 3.6752075
 [8] 1.2254009 0.4076597 0.2416272 0.1839748 0.9284453 2.1291211 0.5172592
[15] 0.5440689

  • calculăm densitatea unei variabile aleatoare repartizate \(F_{n_1,n_2}\) în diferite puncte

df(seq(0, 10, length.out = 20), df1 = 3, df2 = 5)
 [1] 0.000000000 0.572894370 0.342691089 0.206817993 0.130915408 0.086803107
 [7] 0.059904501 0.042762616 0.031410899 0.023640922 0.018168799 0.014218547
[13] 0.011304716 0.009114216 0.007439602 0.006140083 0.005118035 0.004304449
[19] 0.003649690 0.003117488

  • calculăm funcția de repartiție a unei variabile repartizate \(F_{n_1,n_2}\) pentru diferite valori

pf(seq(0, 10, length.out = 15), df1 = 3, df2 = 5)
 [1] 0.0000000 0.4156879 0.6614035 0.7866222 0.8561264 0.8978297 0.9244603
 [8] 0.9423311 0.9548142 0.9638260 0.9705131 0.9755920 0.9795271 0.9826291
[15] 0.9851115

  • calculăm cuantilele de ordin \(p\in(0,1)\)

qf(c(0.01, 0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975, 0.99), df1 = 3, df2 = 5)
[1]  0.03541443  0.06718253  0.11094525  0.41502458  0.90714622  1.88426785
[7]  5.40945132  7.76358948 12.05995369

Exercițiul 2.36 Fie \(X\) o variabilă aleatoare repartizată \(F_{n_1,n_2}\). Pentru fiecare pereche de parametrii \((n_1,n_2)\) din mulțimea \(\{(1,1), (2, 1), (5, 3), (10,10)\}\) trasați pe același grafic densitățile repartițiilor Fisher cu parametrii \((n_1,n_2)\). Adăugați legendele corespunzătoare. Aceeași cerință pentru funcțiile de repartiție.

Figura 2.32: Ilustrarea densității și a funcției de repartiție a repartiției \(F_{n_1,n_2}\) pentru o serie de grade de libertate.

Remarcă

Se observă că dacă \(F\sim F_{n_1,n_2}\) atunci \(\frac{1}{F}\sim F_{n_2,n_1}\). Mai mult, între repartiția Student și repartiția Fisher există relația

\[ F_{1,n} = t_n^2 \]

altfel spus, repartiția Fisher cu un grad de libertate la numărător și \(n\) grade de libertate la numitor este pătratul repartiției Student cu \(n\) grade de libertate.

În plus, dacă \(n_2\) este mare atunci putem aproxima repartiția lui \(F\) cu \(F\approx \frac{\chi^2_{n_1}}{n_1}\).

Figura 2.33: Aproximarea densității repartiției \(F\) cu \(\frac{\chi^2_{n_1}}{n_1}\).

Exercițiul 2.37 Generați \(250\) de observații din repartiția \(F_{5,10}\), trasați histograma acestora și suprapuneți densitatea repartiției date (vezi Figura 2.34).

Figura 2.34: Histograma observațiilor generate din repartiția \(F_{5,10}\) și densitatea teoretică suprapusă.

Legea Numerelor Mari

Înainte de a discuta despre Legea Numerelor Mari este bine să reamintim și să încercăm să înțelegem la nivel intuitiv noțiunea de convergență în probabilitate.

Fie \(X_n, n\geq 1\) și \(X\) variabile aleatoare definite pe câmpul de probabilitate \((\Omega, \mathcal{F}, \mathbb{P})\). Spunem că un șirul de variabile aleatoare \((X_n)_n\) converge în probabilitate la variabila aleatoare \(X\), și notăm \(X_n\overset{\mathbb{P}}{\to}X\), dacă pentru orice \(\epsilon>0\) are loc

\[ \mathbb{P}\left(\left|X_{n} - X\right| > \epsilon\right) \overset{n\to\infty}{\longrightarrow} 0. \]

De asemenea putem observa că \(X_n\overset{\mathbb{P}}{\to}X\) dacă și numai dacă \(X_n-X\overset{\mathbb{P}}{\to}0\). Pentru a ilustra grafic acest tip de convergență6 vom aproxima probabilitatea \(\mathbb{P}(A_n)\), unde \(A_n = \{\omega\in\Omega\,|\,\left|X_{n}(\omega) - X(\omega)\right| > \epsilon\}\), folosind abordarea frecvenționistă. Aceasta presupune ca pentru \(n\) dat să considerăm \(\omega_1, \ldots,\omega_M\in\Omega\), \(M\) realizări ale experimentului (repetat în condiții identice) și să folosim aproximarea

\[ \mathbb{P}(A_n) \approx p_n(M) = \frac{\#\left\{j\in\{1,\ldots,M\}\,|\,\left|X_{n}(\omega_j) - X(\omega_j)\right| > \epsilon\right\}}{M}. \]

Concret, în Figura 3.1, considerăm \(M = 30\) de repetiții ale experimentului (avem \(M\) curbe) cu \(n = 5000\) de realizări ale unui șir de variabile aleatoare \(X_k = \frac{Y_1+\cdots+Y_k}{k}\), cu \(Y_i\) independente și repartizate \(\mathcal{U}[0,1]\), \(X = 0.5\) și \(\epsilon = 0.01\). Pentru \(i\in\{500, 1500, 2500, 3500, 4500\}\) am calculat și afișat frecvența de realizarea a evenimentului \(A_i\) (câte din cele \(M\) curbe sunt în afara benzii \([-\epsilon, \epsilon]\) pentru \(i\), fixat). Observăm că \(p_{500}(30) = 0.37\) și \(p_{3500}(30) = 0.03\), convergența lui \(p_n(M)\underset{n\to \infty}{\longrightarrow} 0\) implicând convergența în probabilitate.

Figura 3.1: Ilustrarea convergenței în probabilitate.

Teorema 3.1 (Legea numerelor mari (versiunea slabă)) Fie \(X_1, X_2, \ldots\) un șir de variabile aleatoare independente și identic repartizate, de medie \(\mathbb{E}[X_1] = \mu<\infty\) și varianță \(Var(X_1) = \sigma^2<\infty\). Atunci \(\forall \epsilon>0\) avem

\[ \mathbb{P}\left(\left|\frac{X_1+\cdots+X_n}{n} - \mu\right| > \epsilon\right) \overset{n\to\infty}{\longrightarrow} 0 \]

sau echivalent

\[ \mathbb{P}\left(\left|\frac{X_1+\cdots+X_n}{n} - \mu\right| \leq \epsilon\right) \overset{n\to\infty}{\longrightarrow} 1 \]

Notând media eșantionului cu \(\bar{X}_n = \frac{X_1+\cdots X_n}{n}\), Legea numerelor mari (versiunea slabă) afirmă că \(\bar{X}_n\overset{\mathbb{P}}{\to}\mu\). Figura 3.2 de mai jos ilustrează această convergență pentru \(M = 100\) de traiectorii. În figura din dreapta este ilustrată evoluția probabilității \(p_n\) pentru \(n\in\{1,2,\ldots, N\}\).

Figura 3.2: Ilustrarea convergenței în Legea Numerelor Mari.

Exercițiul 3.1 Să presupunem că primim o monedă și ni se spune că aceasta aterizează pe fața cap în \(48\%\) din cazuri. Vrem să testăm această afirmație. Folosind Legea numerelor mari și știind că vrem să fim siguri în \(95\%\) din cazuri, ne întrebăm de câte ori trebuie să aruncăm moneda pentru a verifica afirmația?

Să presupunem că aruncăm moneda, independent, de \(n\) ori și fie \(X_i\) rezultatul obținut la cea de-a \(i\)-a aruncare: \(X_i=1\) dacă la a \(i\)-a aruncare am obținut cap și \(X_i = 0\) dacă am obținut pajură. Avem că variabilele aleatoare \(X_1, X_2, \ldots, X_n\) sunt independente și repartizare \(\mathcal{B}(p)\), cu \(p=0.48\) din ipoteză.

De asemenea, observăm că \(\mathbb{E}[X_1]= \mu = 0.48\) și \(Var(X_1) = \sigma^2 = p(1-p) = 0.2496\). Pentru testarea monedei permitem o eroare \(\epsilon = 0.02\) ceea ce înseamnă că probabilitatea ca moneda să aterizeze cap se află în intervalul \((0.46, 0.5)\). Din Inegalitatea lui Cebîșev avem că

\[ \mathbb{P}\left(\left|\frac{X_1+\cdots+X_n}{n} - 0.48\right| >0.02\right)\leq \frac{Var(X_1)}{n\times(0.02)^2}, \]

de unde, având un grad de încredere de \(95\%\), vrem să determinăm pe \(n\) pentru care

\[ \frac{0.2496}{n\times(0.02)^2} = 0.05 \]

ceea ce implică \(n = 12480\).

Exercițiul 3.2 (Ilustrarea Legii Numerelor Mari (I)) Fie \(X_1,X_2,\dots,X_N\), \(N\) v.a. i.i.d. de lege \(\mathcal{U}([0,1])\). Pentru \(1\leq n\leq N\), notăm cu \(S_n=X_1+X_2+\cdots X_n\) șirul sumelor parțiale și \(\mu\) media legii \(\mathcal{U}([0,1])\). Trasați pe același grafic funcția \(n\to \bar{X}_n=\frac{S_n}{n}\) pentru \(n=1,\dots,N\) și dreapta de ecuație \(y=\mu\). Faceți același lucru pentru legea normală \(\mathcal{N}(2,1)\).

În cazul în care v.a. \(X_1,X_2,\dots,X_N\) sunt repartizate uniform \(\mathcal{U}([0,1])\) (deci media este \(\mu=\frac{1}{2}\)) avem:

Figura 3.3: Ilustrarea convergenței în Legea Numerelor Mari pentru un șir de variabile i.i.d. \(\mathcal{U}([0,1])\).

În cazul în care v.a. \(X_1,X_2,\dots,X_N\) sunt normale de parametrii \(\mathcal{N}(2,1)\) (deci media este \(\mu=2\)) avem:

Figura 3.4: Ilustrarea convergenței în Legea Numerelor Mari pentru un șir de variabile i.i.d. \(\mathcal{N}(2, 1)\).

Exercițiul 3.3 (Ilustrarea Legii Numerelor Mari (II)) Construiți o funcție care să vă permită generarea a \(m\) eșantioane de volum \(n\) dintr-o populație normală de medie \(\mu\) și varianță \(\sigma^2\) dată. Ilustrați grafic cu ajutorul unui boxplot cum variază diferența dintre media aritmetică (media eșantionului \(\bar{X}_n\)) și media teoretică pentru \(m = 100\) și diferite volume ale eșantionului \(n\in\{10, 100, 1000, 10000\}\). Se consideră \(\mu = 1\) și \(\sigma^2 = 1\).

Următoarea funcție verifică cerința din problemă (normal.mean = \(\mu\), normal.sd = \(\sigma\), num.samp = m și samp.size = n). Să observăm că am folosit funcția rowMeans pentru a calcula media fiecărui eșantion (media pe liniile matricii de observații).

normalSampleMean <- function(normal.mean, normal.sd, num.samp, samp.size) {
  # generam matricea de observatii 
    x <- matrix(rnorm(n = num.samp * samp.size, mean = normal.mean, sd = normal.sd), 
        nrow = num.samp, ncol = samp.size)
    
  # calculam media esantionului pentru fiecare esantion
    x.mean = rowMeans(x)
    
    return(x.mean)
}

Pentru a ilustra grafic să considerăm o populație \(\mathcal{N}(1,1)\) și pentru volumul eșantionului, \(n\in\{10, 100, 1000, 10000\}\), să calculăm \(\bar{X}_n\) corespunzător (aici am folosit funcția sapply).

Figura 3.5: Ilustrarea convergenței în Legea Numerelor Mari.

Din boxplot-ul din Figura 3.5 observăm că pe măsură ce creștem volumul eșantionului media boxplot-ului se duce spre \(0\) ceea ce justifică enunțul Legii Numerelor Mari, și anume că media eșantionului converge la media populației (media teoretică). De asemenea putem observa că și varianța scade (gradul de împrăștiere scade) odată cu creșterea numărului de observații.

Exercițiul 3.4 (Calculul unei integrale (I)) Utilizați Legea Numerelor Mari pentru a aproxima integrala următoare

\[ I = \int_{0}^{1}e^{x}sin(2x)cos(2x)dx. \]

Calculați de asemenea valoarea exactă \(I\) a acesteia și comparați-o cu aproximarea găsită.

Fie \(U_1,U_2,\dots,U_n\) un șir de v.a. i.i.d. repartizare uniform pe \([0,1]\). Cum \(g\) este o funcție continuă atunci \(g(U_1), g(U_2),\ldots, g(U_n)\) sunt variabile aleatoare i.i.d. și aplicând Legea Numerelor Mari obținem

\[ g_n=\frac{1}{n}\sum_{i=1}^{n}g(U_{i}) \overset{\mathbb{P}}{\to} \mathbb{E}[g(U_1)] = \int_{0}^{1}g(x)dx. \]

Pentru a calcula integrala numeric vom folosi funcția integrate (trebuie observat că această integrală se poate calcula ușor și exact prin integrare prin părți). Următorul script ne dă valoare numerică și aproximarea obținută cu ajutorul metodei Monte Carlo pentru integrale \(\int_{0}^{1}g(x)dx\):

myfun <- function(x){
  y <- exp(x)*sin(2*x)*cos(2*x);
  return(y);
}

# calculul integralei cu metode numerice
I <- integrate(myfun,0,1) # raspunsul este o lista si oprim prima valoare
I <- I[[1]]

# calculul integralei cu ajutorul metodei Monte Carlo
n <- 10000 

u <- runif(n) # generarea sirului U_n
z <- myfun(u) # calcularea sirului g_n

I2 <- sum(z)/n # aproximarea MC

Obținem că valoarea numerică a lui \(I\) este 0.2662 iar cea obținută cu ajutorul metodei Monte Carlo este 0.2673.

Avem următoarea ilustrare grafică a convergenței metodei Monte Carlo:

Figura 3.6: Ilustrarea convergenței în metoda Monte Carlo.

Teorema Limită Centrală

Teorema 4.1 (Teorema Limită Centrală) Fie \(X_1, X_2, \ldots\) un șir de variabile aleatoare independente și indentic repartizate, de medie \(\mathbb{E}[X_1] = \mu<\infty\) și varianță \(Var(X_1) = \sigma^2<\infty\). Atunci, notând \(S_n = X_1 + \cdots + X_n\), avem

\[ \mathbb{P}\left(\frac{S_n - \mathbb{E}[S_n]}{\sqrt{Var(S_n)}}\leq x\right) = \mathbb{P}\left(\frac{S_n - n\mu}{\sigma\sqrt{n}}\leq x\right) \overset{n\to\infty}{\longrightarrow} \Phi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}\,dt, \quad \forall x\in\mathbb{R}. \]

Echivalent, dacă notăm media eșantionului cu \(\bar{X}_n = \frac{S_n}{n}\), atunci

\[ \mathbb{P}\left(\sqrt{n}\frac{\bar{X}_n - \mu}{\sigma}\leq x\right) \overset{n\to\infty}{\longrightarrow} \Phi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}\,dt, \quad \forall x\in\mathbb{R}. \]

În esență, Teorema Limită Centrală ne spune că, indiferent de repartiția mamă a eșantionului, media eșantionului \(\bar{X}_n\) este aproximativ normal repartizată. În Figura 4.1 de mai jos prezentăm evoluția repartiției lui \(\bar{X}_n\) după volumul eșantionului pentru diferite repartiții inițiale:

Figura 4.1: Ilustrarea Teoremei Limită Centrale: repartiția lui \(\bar{X}_n\) după volumul eșantionului pentru diferite repartiții inițiale.

O aplicație simplă a Teoremei Limită Centrale este dat de următorul exercițiu:

Exercițiul 4.1 Să presupunem că primim o monedă și ni se spune că aceasta aterizează pe fața cap în \(48\%\) din cazuri. Vrem să testăm această afirmație. Folosind Teorema Limită Centrală și știind că vrem să fim siguri în \(95\%\) din cazuri, ne întrebăm de câte ori trebuie să aruncăm moneda pentru a verifica afirmația? Comparați răspunsul cu cel din exercițiul în care am folosit LNM, de mai sus.

Folosind aceleași notații ca și în exercițiul din secțiunea de mai sus și notând în plus \(S_n = X_1+\cdots+X_n\), avem

\[\begin{align*} \mathbb{P}\left(\frac{S_n}{n}<0.5\right) &= \mathbb{P}\left(\frac{S_n - n\mu}{\sigma\sqrt{n}}<\frac{(0.5-\mu)\sqrt{n}}{\sigma}\right)= \mathbb{P}\left(\frac{S_n - n\mu}{\sigma\sqrt{n}}<\frac{0.02\sqrt{n}}{\sqrt{0.2496}}\right) \\ &= \mathbb{P}\left(\frac{S_n - n\mu}{\sigma\sqrt{n}}<0.04\sqrt{n}\right) \approx\Phi(0.04\sqrt{n})\geq 0.95 \end{align*}\]

Prin urmare, \((0.04\sqrt{n}\geq 1.645\) de unde \(n = 1692\). Putem observa că rezultatul obținut prin aplicarea Teoremei Limită Centrală este mai precis decât cel obținut prin aplicarea Legii numerelor mari.

Exercițiul 4.2 Fie \((X_n)_{n\geq1}\) un șir de v.a. i.i.d. de lege \(\mathcal{E}(1)\). Pentru toți \(n\), notăm cu \(S_n=X_1+X_2+\cdots X_n\) șirul sumelor parțiale, \(\mu\) și \(\sigma^2\) reprezentând media și respectiv varianța legii \(\mathcal{E}(1)\). Teorema Limită Centrală afirmă că dacă \(n\) este mare atunci v.a.

\[ \frac{S_n-n\mu}{\sqrt{n}\sigma} \]

are aproximativ aceeași distribuție ca și legea normală \(\mathcal{N}(0,1)\). Ilustrați această convergență în distribuție cu ajutorul unei histograme. Suprapuneți peste această histogramă densitatea legii \(\mathcal{N}(0,1)\).

Știm că media unei v.a. distribuite exponențial de parametru \(\lambda\), \(\mathcal{E}(\lambda)\) este \(\mu=\frac{1}{\lambda}\) iar varianța acesteia este \(\sigma^2=\frac{1}{\lambda^2}\). Pentru fiecare valoare a lui \(i\) de la \(1\) la \(N\) calculăm raportul \(\frac{S_n-n\mu}{\sigma\sqrt{n}}\) (cu alte cuvinte repetăm experimentul de \(N\) ori):

N <- 1000 # alegem numarul de repetitii ale experimentului
n <- 1000 # alegem n pentru care folosim aproximarea normala

lambda <- 1 # parametrul legii E(1)

mu <- 1/lambda # media
sigma <- 1/lambda # abaterea standard 

s <- rep(0,N) # initializam sirul sumelor partiale

for (i in 1:N){
  x <- rexp(n, rate = lambda) # generam variabilele exponentiale
  s[i] <- (sum(x)-n*mu)/(sigma*sqrt(n)) # calculam raportul 
  
}

Continuăm prin trasarea histogramei cerute și adăugăm la grafic densitatea legii normale \(\mathcal{N}(0,1)\):

Figura 4.2: Ilustrarea Teoremei Limită Centrale.

Exercițiul 4.3 Fie \(X_1,X_2,\dots,X_{1000}\) v.a. i.i.d. de lege \(\mathcal{B}(\frac{1}{2})\) (Bernoulli de parametru \(\frac{1}{2}\)). Dați un interval de încredere bilateral \(\mathcal{I}\) de nivel \(99\%\) pentru \(S_{1000}=X_1+X_2+\cdots X_{1000}\). Fie \((Y_n)_{n\geq1}\) un șir de v.a. i.i.d. de aceeași lega ca și \(S_{1000}\). Luând:

\[ T=\inf\{n\geq1,\,Y_n\not\in\mathcal{I}\} \]

afișați mai multe rezultate ale v.a. \(T\) și \(Y_T\). Analizați aceste rezultate.

Prin aplicarea Teoremei Limită Centrală avem că un interval de încredere \(\mathcal{I}\) de nivel \(99\%\) pentru v.a. \(S_n\), este dat de formula

\[ \mathcal{I} = \left[n\mu-2.58\times\sqrt{n\sigma^2}, n\mu-2.58\times\sqrt{n\sigma^2}\right] \]

Următorul cod permite construirea acestui interval:

n <- 1000 
p <- 1/2 # parametrul v.a. Bernoulli

mu <- p # ,edia 
sigma <- sqrt(p*(1-p)) # abaterea standard

# determinarea intervalului I 
z <- 0.99

Imin <- n*mu + qnorm((1-z)/2)*sqrt(n)*sigma
Imax <- n*mu - qnorm((1-z)/2)*sqrt(n)*sigma

Obținem astfel că intervalul de încredere este I = [459, 541].

Funcția care generează realizările v.a. \(T\) și \(Y_T\) plecând de la intervalul găsit \(\mathcal{I}\) este dată de codul următor:

# functia care genereaza v.a. T si Y_T
gen_T <- function(n,p,Imin,Imax){
  t <- 1
  y <- rbinom(1,n,p)
  
  while (Imin<=y & y<=Imax){
    y <- rbinom(1,n,p)
    t <- t+1
  }
  
  out = c(t,y)
  return(out)
  
}

Următorul cod returnează \(10\) realizări ale v.a. \(T\) și \(Y_T\):

# realizari ale v.a. T si Y_T
iter <- 10
v <- c()

for (i in 1:iter){
  v <- rbind(v,gen_T(1000,0.5,Imin,Imax))
}

v <- data.frame(v)
names(v) = c("T", "Y_T")

Tabelul 4.1: O serie de realizări
T Y_T
141 547
315 542
15 459
87 454
34 542
15 458
59 542
47 544
77 454
40 459

Putem observa cu ușurință că v.a. \(T\) este o v.a. geometrică de parametru \(p=\mathbb{P}(Y_1\not\in\mathcal{I})=0.01\), deoarece pentru \(k\geq1\)

\[ \begin{aligned} \mathbb{P}(T=k) &= \mathbb{P}(Y_1\in\mathcal{I},Y_2\in\mathcal{I},\dots,Y_{k-1}\in\mathcal{I},Y_k\not\in\mathcal{I})\\ &\overset{indep.}{=} \mathbb{P}(Y_1\in\mathcal{I})\mathbb{P}(Y_2\in\mathcal{I})\cdots\mathbb{P}(Y_{k-1}\in\mathcal{I})\mathbb{P}(Y_k\not\in\mathcal{I})\\ &= \mathbb{P}(Y_1\in\mathcal{I})^{k-1}\mathbb{P}(Y_1\not\in\mathcal{I}) = (1-p)^{k-1}p. \end{aligned} \]

Prin urmarea găsim că media lui \(T\) este egală cu \(\mathbb{E}[T]=\frac{1}{p}=100\) și când comparăm cu rezultatul numeric avem:

iter <- 1000 # nr de iteratii
v <- c()

for (i in 1:iter){
  v <- rbind(v,gen_T(1000,0.5,Imin,Imax))
}

Astfel, media empirică a lui \(T\) este 103.1, pentru 1000 iterații, iar cea teoretică este \(100\).

De asemenea avem că

\[ \mathbb{E}[Y_T] = \sum_{k\geq1}\mathbb{E}[Y_k]\mathbb{P}(T=k) = \mathbb{E}[Y_1]\sum_{k\geq1}\mathbb{P}(T=k) = \mathbb{E}[Y_1] \]

și verificăm această afirmație prin simulări numerice. Media empirică a lui \(Y_T\) este 500.37, pentru 1000 iterații, iar cea teoretică este \(500\).

Note de subsol

  1. de Moivre, A. (1756). The Doctrine of Chances: or, A Method of Calculating the Probabilities of Events in Play (Third ed.). New York: Chelsea.↩︎

  2. A se vedea cartea lui Feller, W. (1968). An Introduction to Probability Theory and Its Applications (third ed.), Volume 1. New York: Wiley. pag. 52-53 pentru o derivare a formulei lui Stirling.↩︎

  3. Pentru mai multe astfel de inegalități se poate consulta cartea (capitolul 2): Lin, Z. și Bai, Z. Probability Inequalities, Springer, 2010.↩︎

  4. Pentru cazul discret avem variabila repartizată Geometric.↩︎

  5. Pentru mai multe proprietăți puteți consulta lucrarea lui E. Artin The Gamma Function↩︎

  6. Pentru alte moduri de convergență și ilustrarea lor grafică se poate consulta lucrarea: Pierre LAFAYE DE MICHEAUX și Benoit LIQUET Understanding Convergence Concepts: A Visual-Minded and Graphical Simulation-Based Approach, The American Statistician, Vol. 63, No. 2, 2009↩︎