Mai jos regăsiți subiectele pentru proiectul de laborator pentru cursul de Statistică.
Fiecare echipa va trimite prin liderul echipei un singur e-mail la adresa simona.cojocea@fmi.unibuc.ro ce va conține o arhivă cu 2 componente: codul
R(comentat!) și documentația proiectului, în format.docxsau.pdf.Documentația proiectului trebuie să conțină, pe prima pagină, numele membrilor echipei, liderul echipei și grupa din care face parte fiecare.
Pentru fiecare exercițiu în parte documentația trebuie să conțină:
- Calculele matematice solicitate (pot fi tehnoredactate sau scrise de mână și scanate, însă dacă apelați la ultima variantă vă rog să vă asigurați că ați scris citeț, fără ștersături sau zone scanate deficitar)
- Codul
Rcomentat - Graficele realizate (acolo unde au fost cerute)
- Comentariile și concluziile voastre
Pentru obținerea punctajului maxim trebuie să rezolvați toate exercițiile propuse, fiecare dintre ele având un punctaj maxim de 10p. Dacă odată cu rezolvarea lor, identificați și rezolvați unele cerințe suplimentare care sunt relevante pentru subiectul respectiv puteți obține un bonus de până la 10p, fără ca nota finală de laborator să poată depăși 50p.
Data de predare a proiectului este 4 februarie 2026 ora 22:00.
Subiecte
O inegalitate cu aplicații interdiciplinare
Inegalitatea lui Kantorovich-prezentare generală
Fie \(A \in \mathbb{R}^{n \times n}\) o matrice simetrică pozitiv definită, cu spectrul inclus într-un interval finit:
\[ 0<m=\lambda_{\min }(A) \leq \lambda_{\max }(A)=M<\infty . \]
Atunci, pentru orice vector \(x \in \mathbb{R}^n, x \neq 0\), are loc inegalitatea:
\[ \left(x^{\top} A x\right)\left(x^{\top} A^{-1} x\right) \leq \frac{(M+m)^2}{4 M m}\left(x^{\top} x\right)^2 \]
În particular, pentru \(\|x\|=1\),
\[ \left(x^{\top} A x\right)\left(x^{\top} A^{-1} x\right) \leq \frac{(M+m)^2}{4 M m}. \]
Demonstrația probabilistă a lui T. W. Anderson (1971)
Deși inegalitatea este de natură algebrică, există o demonstrație elegantă, atribuită lui T. W. Anderson (a se vedea Anderson (2011) Lema 10.2.5 pag. 569 sau Alpargu (1996) pag. 9-14), care o reduce la o inegalitate despre momentele unei variabile aleatoare. Ideea-cheie a lui Anderson este următoarea: probabilitățile nu sunt introduse “din exterior”, ci sunt construite exact astfel încât formele pătratice să devină medii.
Această reinterpretare transformă o problemă de algebră liniară într-o problemă elementară de probabilități, în care singura informație folosită este faptul că o variabilă aleatoare este mărginită între două constante.
Pasul 1. Reducerea la cazul diagonal
\(A\) este o matrice simetrică pozitiv definită, deci există o matrice ortogonală \(Q\) și o matrice diagonală \(\Lambda=\operatorname{diag}\left(\lambda_1, \ldots, \lambda_n\right), \quad m=\lambda_1 \leq \cdots \leq \lambda_n=M\), astfel încât \(A=Q \Lambda Q^{\top}\).
Notând cu \(y=Q^{\top} x\). Atunci:
\[ x^{\top} A x=\sum_{i=1}^n \lambda_i y_i^2, \quad x^{\top} A^{-1} x=\sum_{i=1}^n \frac{1}{\lambda_i} y_i^2, \quad x^{\top} x=\sum_{i=1}^n y_i^2 \] Pasul 2. Construirea distribuției de probabilitate
Definim \(p_i=\frac{y_i^2}{\sum_{j=1}^n y_j^2}, \quad i=1, \ldots, n\). Atunci \(p_i \geq 0\) și \(\sum_i p_i=1\), deci \(\left(p_i\right)\) este o distribuție de probabilitate discretă.
Pasul 3. Introducerea variabilei aleatoare
Construim o variabilă aleatoare discretă \(T\) definite prin: \(\mathbb{P}\left(T=\lambda_i\right)=p_i\). Atunci:
\[ \mathbb{E}(T)=\frac{x^{\top} A x}{x^{\top} x}, \quad \mathbb{E}(1 / T)=\frac{x^{\top} A^{-1} x}{x^{\top} x} . \]
Astfel, inegalitatea lui Kantorovich devine echivalentă cu:
\[ \mathbb{E}(T) \mathbb{E}(1 / T) \leq \frac{(M+m)^2}{4 M m} . \] Pasul 4. Inegalitatea probabilistică elementară
Deoarece \(T\) ia valori doar în intervalul \([m, M]\), avem că \((T-m)(M-T) \geq 0\). Aceasta conduce, printr-o manipulare algebrică elementară și aplicarea operatorului de medie, la ceea ce trebuia demonstrat.
Esența demonstrației este aceea că inegalitatea matricială este redusă la o inegalitate pentru o variabilă aleatoare pozitivă, folosind doar faptul că aceasta este mărginită între două constante. Această reformulare este contribuția conceptuală majoră a lui Anderson.
Cerințe de proiect – simulare și convergență
Exercițiul 1 (Reconstrucția demonstrației prin simulare)
Alegeți \(n \geq 6\) și un set de valori \(m=\lambda_1 \leq \cdots \leq \lambda_n=M\).
Generați un vector aleator \(y=\left(y_1, \ldots, y_n\right)\) și definiți \(p_i=\frac{y_i^2}{\sum_j y_j^2}\).
Definiți variabila aleatoare \(T \operatorname{cu} \mathbb{P}\left(T=\lambda_i\right)=p_i\).
Simulați \(N\) observații din \(T\) și estimați \(\widehat{\mathbb{E}}_N(T), \widehat{\mathbb{E}}_N\left(\frac{1}{T}\right), \widehat{R}_N=\widehat{\mathbb{E}}_N(T) \widehat{\mathbb{E}}_N(1 / T)\).
Comparați \(\hat{R}_N\) cu limita teoretică \(B=\frac{(M+m)^2}{4 M m}\).
Sugestii:
- pentru \(y_i\) : Normal \((0,1)\), Student cu 3-5 grade de libertate, Laplace;
- studiați efectul raportului \(\kappa=M / m\);
- măsurați „concentrarea” repartiției \(p\left(\right.\) ex. \(\left.\max _i p_i\right)\).
Exercițiul 2 (Convergența estimatorilor)
Pentru \(N \in\left\{10^2, 10^3, 10^4\right\}\), folosind replicări independente, ilustrați numeric: \(\widehat{\mathbb{E}}_N(T) \xrightarrow{\mathbb{P}} \mathbb{E}(T), \quad \widehat{\mathbb{E}}_N(1 / T) \xrightarrow{\mathbb{P}} \mathbb{E}(1 / T)\).
Argumentați (teoretic și prin simulare) că: \(\widehat{R}_N \xrightarrow{\mathbb{P}} R=\mathbb{E}(T) \mathbb{E}(1 / T)\), deci \(\quad \hat{R}_N \xrightarrow{d} R\).
Explicați de ce pentru \(N\) mic pot apărea încălcări numerice ale inegalității, deși aceasta este adevărată pentru valorile teoretice.
Exercițiul 3 (Aplicație practică: media aritmetică vs. media armonică) Fie \(T\) o variabilă aleatoare pozitivă cu valori în \([m, M]\). Definim media aritmetică \(A=\mathbb{E}(T)\) și respectiv media armonică \(H=1 / \mathbb{E}(1 / T)\).
Raportul \(\frac{A}{H}=\mathbb{E}(T) \mathbb{E}(1 / T)\) este o măsură a heterogenității valorilor lui \(T\).
Construiți cel puțin patru distribuții diferite pentru \(T\) pe \([m, M]\).
Pentru fiecare distribuție estimați \(A, H, A / H\).
Verificați numeric limita Kantorovich și interpretați diferențele între distribuții.
Explicați de ce două distribuții cu același interval \([m, M]\) pot avea heterogenități foarte diferite, dar toate respectă aceeași limită universală.
Repartițiile recomandate sunt: uniformă pe \([m, M]\), \(\operatorname{Beta}(\alpha, \beta)\) re-scalată (pentru parametri diferiți), distribuție bimodală(amestec de două uniforme sau două Beta), distribuție discretă cu un număr finit de valori.
Familia exponențială, estimare și acuratețea aproximării normale (Berry-Esseen)
Pentru exercițiul următor vom introduce noțiunea de familie exponențială:
Definiția 1 (Familia exponențială) O variabilă aleatoare \(X\) face parte din familia exponențială s-dimensională dacă densitatea/funcția de masă poate fi scrisă sub forma:
\[ f_{X}(x ; \theta)=h(x) \cdot \exp \left(\sum_{i=1}^s \eta_i(\theta) \cdot T_i(x)-A(\theta)\right) \]
unde \(\eta_i\) și \(A\) sunt funcții reale de \(\theta=\left(\theta_1, \theta_2, \ldots \theta_s\right)\), \(T_i\) reprezintă statistici suficiente, iar \(h\) este o funcție pozitivă de \(x\).
Funcția \(A(\theta)\) se numește constantă de log-normalizare, rolul ei este de a asigura că funcția \(f_X(x;\theta)\) este o funcție de densitate de probabilitate/funcție de masă, după caz.
Exemplu: Fie \(X\sim\mathcal{N}(0,1)\). Vom arăta că aceasta face parte din familia exponențială 2-dimensională. Avem
\[ \begin{aligned} & f\left(x ; \mu, \sigma^2\right)=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(\frac{(x-\mu)^2}{2 \sigma^2}\right)\\ &=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(\frac{\mu}{\sigma^2} x \frac{1}{2 \sigma^2} x^2 \frac{\mu^2}{2 \sigma^2}\right) \\ & =\frac{1}{\sqrt{2 \pi}} \exp \left(\frac{\mu}{\sigma^2} x-\frac{1}{2 \sigma^2} x^2-\frac{\mu^2}{2 \sigma^2}-\ln (\sigma)\right) \end{aligned} \]
de unde identificăm următoarele relații:
\[ \begin{aligned} & h(x)=\frac{1}{\sqrt{2 \pi}} \\ & \eta_1\left(\theta_1, \theta_2\right)=\frac{\mu}{\sigma^2},\quad \eta_2\left(\theta_1, \theta_2\right)=-\frac{1}{2 \sigma^2},\quad \theta_1=\mu,\quad \theta_2=\sigma^2 \\ & A(\theta)=\frac{\mu^2}{2 \sigma^2}+\ln (\sigma) \\ & T_1(x)=x, T_2(x)=x^2 \end{aligned} \]
Așadar, repartiția normală (cu parametrii media \(\mu\) și dispersia \(\sigma^2\)) face parte din familia exponențială 2-dimensională.
Cerințe
Exercițiul 4 (Apartenența la familia exponențială și reprezentări grafice)
Verificați dacă fac parte din familia exponențială următoarele repartiții: Binomială \(\operatorname{Bin}(n, p)\), Geometrică \(\operatorname{Geom}(p)\), Poisson \(\operatorname{Pois}(\lambda)\), Exponențială \(\operatorname{Exp}(\lambda)\), Gamma \(\Gamma(\alpha, \beta)\), Beta \(\operatorname{Beta}(\alpha, \beta)\), Uniformă \(\mathrm{U}(a, b)\). În caz afirmativ, precizați dimensiunea familiei și statisticile suficiente.
Ilustrați grafic, în
R, funcțiile de masă/densitățile repartițiilor de mai sus pentru \(4\) seturi de parametri particulari, la alegere, în cadrul aceluiași sistem de axe ortogonale (fiecare repartiție va avea reprezentări grafice distincte de celelalte).
Exercițiul 5 (Concavitatea funcției de log-verosimilitate)
Construiți funcția de log-verosimilitate pentru familia exponențială și demonstrați că aceasta este concavă (construiți matricea hessiană și arătați că este negativ definită sau negativ semidefinită).
Particularizați forma funcției de log-verosimilitate pentru repartițiile de la Exercițiul 4 care fac parte din familia exponențială cu un parametru sau cu doi parametri.
Pentru repartițiile cu un parametru reprezentați grafic funcția de log-verosimilitate (în
R) și determinați punctul de maxim folosind funcțiaoptimize.Pentru repartițiile cu doi parametri, fixați pe rând, unul dintre parametri (alegeți o valoare particulară), apoi reprezentați grafic log-verosimilitatea în funcție de celălalt parametru și determinați punctul de maxim folosind funcția
optimize.
Exercițiul 6 (Estimatori: metoda verosimilității maxime și metoda momentelor)
Pentru familiile exponențiale cu un parametru și respectiv cu doi parametri de la Exercițiul 4 calculați estimatorul de verosimilitate maximă și estimatorul obținut prin metoda momentelor.
Ilustrați în
R, pentru un eșantion de volum \(n=1000\) generat de voi, faptul că estimațiile obținute prin cele două metode sunt foarte apropiate de valoarea adevărată a parametrului de interes, pentru toate repartițiile de la Exercițiul 4 care fac parte din familia exponențială.
Exercițiul 7 (Inegalitatea Berry-Esseen și acuratețea aproximării normale) Se consideră un eșantion i.i.d. \(X_1, \ldots, X_n\) cu:
\[ E\left(X_i\right)=\mu, \quad \operatorname{Var}\left(X_i\right)=\sigma^2, \quad \rho=E\left|X_i-\mu\right|^3<\infty . \]
Inegalitatea Berry-Esseen afirmă că:
\[ \sup _x\left|F_n(x)-\Phi(x)\right| \leq C \frac{\rho}{\sigma^3 \sqrt{n}} \]
unde \(F_n\) este funcția de repartiție a variabilei \(\mathrm{Z}_n=\frac{\sqrt{n}\left(X_n-\mu\right)}{\sigma}\), iar \(\Phi\) este funcția de repartiție a normalei standard.
Calculați \(\rho\) pentru repartițiile: Binomială, Geometrică, Poisson, Uniformă (discret și continuu), Exponențială, Gamma și Beta.
Reprezentați grafic funcțiile obținute la punctul a).
Construiți în
R:- funcție care calculează \(\rho\);
- funcție care calculează marginea Berry-Esseen;
- funcție care aproximează numeric \(\sup_x\left|F_n(x)-\Phi(x)\right|\).
În practică, supremul poate fi aproximat numeric ca maxim al diferenței pe o grilă fină de valori, aleasă în funcție de cuantilele repartiției normale.
Construiți un dataframe care să conțină marginile date de inegalitatea Berry-Esseen pentru repartițiile de mai sus, pentru diferite dimensiuni al eșantionului \(n\) alese de voi.
Ilustrați grafic evoluția diferenței \(\left|F_n(x)-\Phi(x)\right|\) pentru un interval relevant de valori și discutați rezultatele obținute.
Exercițiul 8 (Estimarea constantei din inegalitatea Berry-Esseen)
Pentru fiecare repartiție studiată, definiți: \(C_n=\frac{\sup _x\left|F_n(x)-\Phi(x)\right| \sigma^3 \sqrt{n}}{\rho}\).
Estimați prin simulare Monte Carlo valorile lui \(C_n\) pentru mai multe volume ale eșantionului \(n\) (de exemplu \(n\in\{30,50,100,200,500\}\)).
Studiați comportamentul lui \(C_n\) în funcție de \(n\), tipul repartiției și respectiv valorile parametrilor.
Reprezentați grafic evoluția lui \(C_n\) și comentați rezultatele.
Exercițiul 9 (Analiză de sinteză) Pe baza rezultatelor teoretice și numerice obținute, comentați:
Rolul familiei exponențiale în simplificarea estimării parametrilor.
Influența momentului de ordin 3 asupra vitezei de convergență în TLC.
Semnificația practică a constantei din inegalitatea Berry-Esseen.
Diferențe între repartiții din punctul de vedere al acurateței aproximării normale.
În ce măsură rezultatele numerice obținute susțin ideea că familia exponențială oferă un cadru natural atât pentru estimare, cât și pentru aproximare asimptotică?