Ciencia de datos con R
Author

(Fernández‑Avilés & Montero, 2024, pp. 41-42)

3.1 Introducción

El análisis estadístico de datos es una tarea fundamental en la transformación digital de las empresas y organizaciones. Siempre ha estado ahí, pero en la actualidad la disponibilidad de datos, la cantidad de los mismos y la velocidad con la que se requieren resultados están haciendo necesario el capacitar a los profesionales para su análisis con nuevas herramientas. Nuevas tendencias (muchas veces malinterpretadas), como Inteligencia Artificial (IA), Big Data, Industria 4.0, Internet of Things (IoT) o Data Science, aumentan el interés por parte de las empresas, los profesionales y los investigadores en estas técnicas.

El tratamiento de datos y su análisis requiere el uso de software avanzado. Aunque algunas tareas como, por ejemplo, mecanizar y almacenar datos, se pueden realizar eficazmente con programas de hoja de cálculo como Excel, se debería utilizar software especializado para el análisis de datos. Existen distintos paquetes estadísticos comerciales, como SPSS, Statgraphics, Stata, SAS, JMP o Minitab. En los últimos años se ha abierto camino como alternativa el software estadístico y lenguaje de programación R (R Core Team, 2023). Hay otras alternativas que, en su mayoría, o son parciales, referidas a un ámbito concreto, o son más lenguajes de programación que software estadístico, como Python. R es software libre, pero su gratuidad solo es una de sus ventajas, como se verá a lo largo del libro. Su gran inconveniente es la curva de aprendizaje: no es tan fácil de aprender y usar como un software de ventanas, ya que el uso de R se basa en expresiones que hay que ejecutar desde scripts (archivos de código).

R es un sistema para computación estadística: software de análisis de datos y lenguaje de programación. Ha sido ampliamente utilizado en investigación y docencia, y actualmente también en las empresas y organismos públicos. Es la evolución del trabajo de los laboratorios Bell con el lenguaje S (Venables & Ripley, 2002), llevado al mundo del software libre por Ross Ihaka y Robert Gentleman en los años 90 (Ihaka & Gentleman, 1996). La version R 1.0.0 se publicó el 29 de febrero de 2000.

Uno de los aspectos más espectaculares de R es la cantidad de paquetes disponibles. Un paquete (package) de R es un componente con funcionalidad adicional que se puede instalar en el sistema para ser utilizado por R. En el momento de compilar este libro, el número de paquetes disponibles en el repositorio oficial es de 20250.

Una vez conocido el mundo de R, se plantea la siguiente pregunta: ¿y por qué utilizar R? Es imposible dar un único motivo. A continuación se enumeran algunos de ellos:

  • Es Free and Open Source Software (FOSS). Gratis y libre. En inglés se suele decir free as in free beer, and free as in free speech.

  • Tiene una amplia comunidad de usuarios que proporciona recursos.

  • Es multiplataforma.

  • Se usa cada vez en más empresas e instituciones.

  • Es posible obtener soporte comercial, por ejemplo a través de Posit Software PBC.3

  • Se ha alcanzado una masa crítica de usuarios que lo hace confiable.

  • Es extensible (desde pequeñas funciones, hasta paquetes).

  • Se puede implementar la innovación inmediatamente. En software comercial hay que esperar a nuevas versiones, en el mejor de los casos.

  • Posee características de “investigación reproducible”. En el Cap. 44 se tratará qué implica este enfoque. En contextos distintos a la investigación, se puede hablar de informes reproducibles y trazabilidad del análisis.

Por otra parte, el uso de R en las empresas está creciendo exponencialmente debido, principalmente, a la necesidad de analizar y visualizar datos con herramientas potentes para explotar todo su potencial. Grandes empresas de todos los sectores llevan tiempo utilizándolo, si bien la popularización del software y su conocimiento entre los nuevos titulados está facilitando que empresas de todo tipo y tamaño aprovechen esta herramienta en su estrategia digital. Así, además de la visualización y presentación efectiva de los datos, equipos bien formados pueden descubrir relaciones entre variables clave, realizar predicciones, tomar mejores decisiones o mejorar sus procesos gracias al análisis avanzado de datos más allá de la hoja de cálculo.