Uno de los paquetes principales de tidyverse en el lenguaje de programación R , dplyr es principalmente un conjunto de funciones diseñadas para permitir la manipulación de marcos de datos de una manera intuitiva y fácil de usar. Los analistas de datos suelen utilizar dplyr para transformar conjuntos de datos existentes en un formato más adecuado para algún tipo particular de análisis o visualización de datos. [1] [2]
Autor (es) original (es) | Hadley Wickham |
---|---|
Versión inicial | 7 de enero de 2014 |
Lanzamiento estable | 1.0.0 / 1 de junio de 2020 |
Escrito en | R |
Licencia | GPLv2 |
Sitio web | dplyr |
Por ejemplo, alguien que busque analizar un conjunto de datos enorme puede desear ver solo un subconjunto más pequeño de los datos. Alternativamente, un usuario puede desear reorganizar los datos para ver las filas clasificadas por algún valor numérico, o incluso basándose en una combinación de valores del conjunto de datos original.
Escrito principalmente por Hadley Wickham , dplyr se lanzó en 2014. [3] En la página web de dplyr, el paquete se describe como "una gramática de manipulación de datos, que proporciona un conjunto consistente de verbos que le ayudan a resolver los desafíos más comunes de manipulación de datos. " [4]
Los cinco verbos centrales
Si bien dplyr en realidad incluye varias docenas de funciones que permiten varias formas de manipulación de datos, el paquete presenta cinco verbos principales: [5]
filter () , que se utiliza para extraer filas de un marco de datos, según las condiciones especificadas por un usuario;
select () , que se utiliza para crear subconjuntos de un marco de datos por sus columnas;
organizar () , que se utiliza para ordenar filas en un marco de datos en función de los atributos de columnas particulares;
mutate () , que se utiliza para crear nuevas variables, alterando y / o combinando valores de columnas existentes; y
resume () , también escrito resume () , que se usa para colapsar valores de un marco de datos en un solo resumen.
Funciones adicionales
Además de sus cinco verbos principales, dplyr también incluye varias otras funciones que permiten la exploración y manipulación de marcos de datos. Entre estos se incluyen:
count () , que se usa para sumar el número de observaciones únicas que contienen algún valor particular o atributo categórico;
rename () , que permite al usuario modificar los nombres de las columnas de las variables, a menudo para mejorar la facilidad de uso y la comprensión intuitiva de un conjunto de datos;
slice_max () , que devuelve un subconjunto de datos que contiene las filas con el mayor número de valores para alguna variable en particular;
slice_min () , que devuelve un subconjunto de datos que contiene las filas con el menor número de valores para alguna variable en particular.
Conjuntos de datos integrados
El paquete dplyr viene con cinco conjuntos de datos. Estos son: band_instruments, band_instruments2, band_members, starwars, storms.
Referencias
- ↑ Yadav, Rohit (29 de octubre de 2019). "Pandas de Python vs Tidyverse de R: ¿Quién sale en la cima?" . Revista Analytics India . Consultado el 6 de febrero de 2021 .
- ^ Krill, Paul (30 de junio de 2015). "¿Por qué R? Los pros y contras del lenguaje R" . InfoWorld . Consultado el 6 de febrero de 2021 .
- ^ "Presentando dplyr" . blog.rstudio.com . Consultado el 2 de septiembre de 2020 .
- ^ "Referencia de función" . dplyr.tidyverse.org . Consultado el 6 de febrero de 2021 .
- ^ Grolemund, Garrett; Wickham, Hadley. 5 Transformación de datos | R para ciencia de datos .