# trebuie rulat o singura data pentru a instala pachetul in sistem
install.packages("dplyr")
install.packages("ggplot2")
install.packages("purrr")
install.packages("tidyr")
install.packages("readr")
install.packages("tibble")
# pentru a folosi functionalitatile trebuie inregistrate
library(dplyr)
library(ggplot2)
library(purrr)
library(tidyr)
library(readr)
library(tibble)
Introducere
Tidyverse, dezvoltat de Hadley Wickham cercetător principal la RStudio, este o librărie care însumează o colecție de pachete ce împărtășesc aceeași viziune (standard) asupra modului în care trebuie prelucrate, analizate și vizualizate datele. Acest pachet nu reprezintă doar o colecție de funcții care să înlocuiască funcțiile de bază din R
ci mai degrabă este un mod de a gândi și de a analiza seturile de date.
Pachetele de bază din tidyverse
sunt:
readr
șireadxl
care permit citirea datelor de tip dreptunghiular (.csv, .tsv, .fwf, .xls, .xlsx)dplyr
șitidyr
care permit manipularea și transformarea datelor într-un format consistent (tidy
)ggplot2
care asigură vizualizarea datelorpurrr
care îmbunătățește funcționalitățile de programare, în special permite lucrul cu vectori, liste și funcțiistringr
care asigură un set de funcționalități necesare analizei de textforcats
care îmbunătățește lucrul cu elementele de tip factor
Structura de date primară pe care se bazează pachetul tidyverse
este data.frame
-ul (care, odată ce vom avansa în ecosistemul tidyverse
se va transforma în tibble
), prin urmare este indicat ca seturile de date să fie stocate sub această formă (spre deosebire de o matrice sau un vector). Ne putem imagina că datele noastre, stocate sub forma unui data.frame
, reprezintă universul de lucru iar coloanele acestui data.frame
sunt obiectele pe care vrem să le explorăm, manipulăm și modelăm.
Pentru a folosi funcționalitățile prezente în pachetul tidyverse
putem instala individual pachetele componente
sau putem instala pachetul integral
install.packages("tidyverse")
library(tidyverse)
care este mult mai ușor și include întreagă colecție de funcții.
Trebuie menționat că este posibil ca prin încărcarea librăriei tidyverse
, o serie de funcționalități din alte pachete să fie mascate (acest fenomen apare atunci când funcțiile au același nume). Pentru a evita astfel de situații este indicat să se specifice numele integral al funcției folosite utilizând operatorul ::
, de exemplu dplyr::filter
folosește funcția filter
din pachetul dplyr
.
În cele ce urmează vom include, atât cât este posibil, și o comparație între funcțiile din tidyverse
și cele din R
-ul de bază.