Cómo Pensar Acerca de Los Datos

Kovid Rathee
Jun 05, 2020

Cómo Pensar Acerca de Los Datos

Jun 05, 2020 5 minutes read

La verdadera diferencia entre un ingeniero de datos y un científico de datos - cómo piensan

Hace una década, cuando los trabajos de ciencia de datos comenzaron a ser una corriente principal, hubo una inundación de oportunidades en el mundo de la tecnología. Sin embargo, la mayoría de las empresas no entendieron qué hacer con ello. En una de mis primeras etapas, solía escuchar frases repetidas varias veces, tales como: "estamos haciendo big data y estamos haciendo ciencia de datos". Porque se anunció que los científicos de datos reciben grandes sueldos, analistas de datos, administradores de bases de datos, ingenieros de datos - todos querían ser científicos de datos; sin entender lo que se requiere para serlo.

Esta no es la era de la especialización. Uno necesita ser un generalista que se especializa en algo. Al igual que la vida. Uno puede ser un neurocirujano y aún así conducir un coche. No es extraño encontrar un ingeniero de datos y un científico de datos en la misma persona, pero es muy poco probable que lo vea en la práctica porque es un área de responsabilidad demasiado amplia. Del mismo modo, es muy poco probable encontrar un neurocirujano por la noche que conduzca un Uber durante el día.

"La especialización es para los insectos" - Robert A. Heinlein

Ser ingeniero de datos y científico de datos, ambos en uno, también conlleva el desafío de sumergirse en el vasto océano de conocimientos en ambos campos relacionados con los datos. Un ingeniero de datos debe ser capaz de hacer cosas básicas de ciencia de datos y un científico de datos debe ser capaz de hacer ingeniería básica de datos. Lo mismo puede decirse de otros campos de software. Como en, el ingeniero de datos debe ser capaz de hacer trabajo básico de frontend y así sucesivamente.

Dicho esto, no es tanto que la habilidad sea el distintivo entre todos estos campos, sino que es el proceso de pensamiento.

"No importa tanto lo que pienses, sino cómo lo pienses" - Christopher Hitchens

Fontaneros o no


Uno de mis gerentes solía hacer una interesante analogía de la ingeniería de datos con la plomería. Los ingenieros de datos mueven datos de un lugar a otro. Al igual que el gas de cocina o el agua potable necesitan una tubería para pasar de la planta a su casa, los datos necesitan una tubería para pasar de un sistema a otro. A riesgo de sonar grosero y de explicar a los ingenieros, no quiero seguir adelante con esta analogía, pero es bastante cierta si se piensa en ella.

"Los ingenieros de datos son los plomeros que construyen una tubería de datos, mientras que los científicos de datos son los pintores y narradores de historias, dando significado a una entidad de otra manera estática" - Dave Bianco

Los ingenieros de datos son fontaneros. Pero también son más que eso. Además de asegurarse de que los datos se transportan de un lugar a otro, los ingenieros de datos se aseguran de que la calidad de los datos sea buena para su uso.

También miden cómo se van a utilizar los datos y en base a eso toman decisiones sobre cómo almacenarlos, cómo recuperarlos mejor, cómo procesarlos y así sucesivamente. 

Algunos ejemplos son elegir entre bases de datos relacionales tradicionales, almacenes de datos y almacenes de datos NoSQL o elegir entre almacenes de datos en columnas y en filas, elegir programadores de tareas, elegir la infraestructura de procesamiento de datos.

"Mientras que un ingeniero de datos puede ser un fontanero, un científico de datos es el que accede al agua a través de las cañerías y hace limonada".

Lea la introducción de Robert Chang a la ingeniería de datos en tres partes.


Pensamiento Probabilístico vs. Determinista


Vayamos al principal punto de diferencia entre un ingeniero de datos y un científico de datos. Obviamente, los títulos de los puestos son diferentes, los KRA son diferentes pero seguramente pueden superponerse. La principal cualidad que distingue a estas dos criaturas es cómo piensan.

"Un ingeniero de datos piensa en términos de movimiento, rigor, previsibilidad, limpieza y resistencia - de los datos y, de los sistemas que llevan los datos".

Hay una diferencia sorprendente entre estos dos enfoques de manejo de datos - el movimiento de datos, por ejemplo, debería tener la cualidad de ser determinístico. Si se supone que algunos datos deben llegar de un lugar a otro, deberían. Si se aplicara una transformación a un conjunto de datos para limpiarlo o modificarlo, debería ocurrir. La ingeniería de datos, en ese sentido, debe ser predecible, confiable, resistente - Determinística.

"Un científico de datos piensa en términos de derivación de valor, mejora de procesos, toma de decisiones, coste y previsión".

A un científico de datos no le importa el movimiento de datos de un lugar a otro - al menos, no como la parte principal del trabajo. Un científico de datos responde a las preguntas usando datos, reconoce patrones (ocultos u obvios), hace predicciones, ayuda a tomar decisiones, ayuda a entender cosas que ni siquiera un humano mirando los mismos datos puede. Un científico de datos trabaja con todo eso. Por lo tanto, su trabajo se convierte en - Probabilístico.


Epílogo


Habrá más y más superposición entre el trabajo de estos dos dominios en el futuro. Los ingenieros de datos y los desarrolladores de software automatizarán mucho trabajo repetitivo de los científicos de datos. Los científicos de datos se asegurarán de que pueden trabajar independientemente de un ingeniero de datos mediante la mejora de sus habilidades. Un futuro científico o ingeniero de datos usará ambos sombreros y tendrá un muy buen entendimiento de ambos dominios, y probablemente aún más. Como dice la cita de Robert A. Heinlein - La especialización es para los insectos.

Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!