Introducere

Tidyverse, dezvoltat de Hadley Wickham cercetător principal la RStudio, este o librărie care însumează o colecție de pachete ce împărtășesc aceeași viziune (standard) asupra modului în care trebuie prelucrate, analizate și vizualizate datele. Acest pachet nu reprezintă doar o colecție de funcții care să înlocuiască funcțiile de bază din R ci mai degrabă este un mod de a gândi și de a analiza seturile de date.

Pachetele de bază din tidyverse sunt:

  • readr și readxl care permit citirea datelor de tip dreptunghiular (.csv, .tsv, .fwf, .xls, .xlsx)
  • dplyr și tidyr care permit manipularea și transformarea datelor într-un format consistent (tidy)
  • ggplot2 care asigură vizualizarea datelor
  • purrr care îmbunătățește funcționalitățile de programare, în special permite lucrul cu vectori, liste și funcții
  • stringr care asigură un set de funcționalități necesare analizei de text
  • forcats care îmbunătățește lucrul cu elementele de tip factor

Structura de date primară pe care se bazează pachetul tidyverse este data.frame-ul (care, odată ce vom avansa în ecosistemul tidyverse se va transforma în tibble), prin urmare este indicat ca seturile de date să fie stocate sub această formă (spre deosebire de o matrice sau un vector). Ne putem imagina că datele noastre, stocate sub forma unui data.frame, reprezintă universul de lucru iar coloanele acestui data.frame sunt obiectele pe care vrem să le explorăm, manipulăm și modelăm.

Pentru a folosi funcționalitățile prezente în pachetul tidyverse putem instala individual pachetele componente

# trebuie rulat o singura data pentru a instala pachetul in sistem
install.packages("dplyr")
install.packages("ggplot2")
install.packages("purrr")
install.packages("tidyr")
install.packages("readr")
install.packages("tibble")

# pentru a folosi functionalitatile trebuie inregistrate
library(dplyr)
library(ggplot2)
library(purrr)
library(tidyr)
library(readr)
library(tibble)

sau putem instala pachetul integral

install.packages("tidyverse")

library(tidyverse)

care este mult mai ușor și include întreagă colecție de funcții.

Trebuie menționat că este posibil ca prin încărcarea librăriei tidyverse, o serie de funcționalități din alte pachete să fie mascate (acest fenomen apare atunci când funcțiile au același nume). Pentru a evita astfel de situații este indicat să se specifice numele integral al funcției folosite utilizând operatorul ::, de exemplu dplyr::filter folosește funcția filter din pachetul dplyr.

În cele ce urmează vom include, atât cât este posibil, și o comparație între funcțiile din tidyverse și cele din R-ul de bază.