Ciencia de datos con R
Author

(Fernández‑Avilés & Montero, 2024, pp. 32-34)

1.3 Lo científico de ciencia de datos

En la Sec. 1.1 se manifestó que un aspecto fundamental de la ciencia es que utiliza el método científico con la finalidad de hallar estructuras generales (principios y leyes) con capacidad predictiva y comprobable (en el sentido amplio del término). Es por ello que el marco general de la metodología científica ha sido bien fundamentado a lo largo de las últimas décadas gracias a las contribuciones de diferentes teóricos de la ciencia (Bunge, 2004; Chalmers et al., 2000; Díez & Moulines, 2008). Por otra parte, las ciencias se clasifican, según el objeto de estudio (Bunge, 2018), en: empíricas y formales.2 Dado que la ciencia de datos subsume diferentes disciplinas y se aplica a diferentes campos, puede tener características tanto de las ciencias empíricas como de las formales.

Si se analiza el conjunto de saberes científicos se aprecia que tienen en común una serie de características (Bunge, 2018). Por tanto, la pregunta fundamental en este punto es: ¿comparte la ciencia de datos estas características? De ser satisfechas, conferirían a la ciencia de datos el estatuto de ciencia que comparten otros saberes científicos:

  1. La actividad científica es metódica. Es decir, utiliza un método, se caracteriza por proceder de manera ordenada y planificada. Esta estructuración le otorga solidez y consistencia. En ciencia de datos también se actúa de manera metódica, a través de diferentes metodologías, como Knowledge Discovery in Databases (KDD), Sample, Explore, Modify, Model, Assess (SEMMA) y CRoss-Industry Standard Process for Data Mining (CRISP-DM), tal y como se expone en el Cap. 2.

  2. El conocimiento científico se fundamenta en hechos. En general, los científicos disponen de diferentes instrumentos para observar y registrar la realidad sobre la que conjeturan. Esta labor también la realizan los científicos de datos, quienes cuentan con un elevado número de instrumentos y metodologías para la recolección de datos. Tal es el caso de los cuestionarios, escalas psicométricas o datos transaccionales producidos por diferentes tecnologías.

  3. El saber científico implica que las afirmaciones científicas puedan ser contrastadas a través de los hechos. En ciencia de datos, esto también sucede, ya que, estadísticamente, los resultados a los que se llega no están ligados a la subjetividad del analista, sino a la objetividad de los datos y a las técnicas estadísticas de contrastación.

  4. La ciencia es una actividad que trasciende los hechos. Es decir, la ciencia parte de evidencias empíricas que tienden a ser superadas, puesto que la explotación de las mismas suele generar nuevas evidencias que, a su vez, pueden contribuir a crear nuevos marcos teóricos explicativos o a ampliar los existentes. La ciencia de datos puede ejercerse en el mismo sentido. Por ejemplo, la construcción de un recomendador, como Netflix, parte de ciertos datos, pero su uso genera nuevos inputs comportamentales que pueden ser empleados para optimizar su sustrato algorítmico.

  5. La investigación científica se caracteriza también por ser una actividad analítica. Es decir, tiende a descomponer los problemas en sus partes constitutivas. Cabe observar que la consecuencia de ello es que no se pueda hablar de una ciencia general, sino de especializaciones. Naturalmente, la especialización también existe en esta disciplina; por eso, cuando la ciencia de datos se aplica intensivamente en recursos humanos, por ejemplo, es posible hablar de Human Resource Analytics. Lo mismo ocurre en Economía, con el Business Analytics, y así en un sinfín de disciplinas.

  6. La ciencia es comunicable y, para ello, se sirve de sistemas representacionales lógico-formales. Este atributo también se aprecia en la ciencia de datos, puesto que los resultados tienden a ser compartidos a través de diferentes estrategias, entre ellas, la visualización de datos.

La ciencia, sin embargo, no solo puede describirse mediante sus características constitutivas, sino también funcionalmente (Hempel, 2005). De hecho, las características anteriormente citadas son las que posibilitan las funciones descriptiva, explicativa y predictiva.

  1. La primera, la descriptiva, permite recabar información sobre el suceso que se analiza para tratar de conocerlo en mayor profundidad y detalle. En ciencia de datos, usualmente, una de las primeras tareas consiste en describir el conjunto de datos para conocer en detalle sus características, es decir, el número de variables, el número de observaciones, los valores nulos, etc. Esta tarea se conoce como “comprensión de los datos” en la metodología CRISP-DM (véase Sec. 2.3).

  2. La segunda, la explicativa, determina cómo se relacionan los fenómenos que se observan. En general, cuando un científico de datos emplea un modelo de regresión lineal, lo que hace es establecer una relación explicativa entre la variable dependiente y las independientes. Esta parte se conoce como “modelado” en la metodología CRISP-DM (véase Sec. 2.3).

  3. La tercera, la predictiva, permite anticipar ciertos eventos en el tiempo o en el espacio. Tal es el caso de los científicos de datos que ejercen su labor en el ámbito comercial y emplean, por ejemplo, el análisis de series temporales para pronosticar las ventas futuras y poder realizar una planificación del aprovisionamiento de existencias con mayor eficiencia. Esta parte está incluida en la fase de “validación” en la metodología CRISP-DM (véase Sec. 2.3).

A la luz de lo expuesto hasta aquí, se puede sostener, sin lugar a dudas, que la ciencia de datos emplea el método científico y comparte las principales funciones de la ciencia. Ahora bien, la ciencia de datos no puede entenderse plenamente sin presuponer las disciplinas en las que se aplica. Por tanto, uno de los interrogantes que deberán resolver los futuros profesionales es si la ciencia de datos es un saber de primer orden, que lidia directamente con la realidad, como la física o la química, o si, por el contrario, es un saber de segundo orden, es decir, una suerte de disciplina que se sirve de otros saberes para desplegarlos y actualizarlos.

ImportantResumen
  • Para determinar si la ciencia de datos es, realmente, una ciencia, en primer lugar se debe consensuar la definición de ciencia, que va íntimamente ligada a la definición de método científico.

  • Las ciencias tienen en común una serie de características, que deben ser satisfechas por la ciencia de datos para adquirir el estatus de ciencia.

  • Dado que la ciencia de datos emplea el método científico y comparte las principales funciones de la ciencia, se concluye que la ciencia de datos es una ciencia.