Las 10 Habilidades Más Importantes Para Un Científico De Datos

Rashi Desai
Apr 21, 2020

Contents Outline

Las 10 Habilidades Más Importantes Para Un Científico De Datos

Apr 21, 2020 13 minutes read



Para las vacaciones de invierno, tenía una lista de historias que quería escribir, ¡y esta era la que más me entusiasmaba! Porque yo también trabajé mucho para aprender las habilidades necesarias de Ciencia de Datos. Como alguien del campo de los datos, usted terminará leyendo y sabiendo muchas, muchas cosas.

A mi entender, la ciencia de los datos siempre ha sido la combinación de las herramientas más adecuadas para hacer el trabajo. Se trata de la extracción del conocimiento que hay en los datos para responder a una pregunta en particular. Para mí, en pocas palabras, la ciencia de datos es un poder que permite a las empresas y a las partes interesadas tomar decisiones informadas y resolver problemas con los datos.

Ahora bien, no todos los tecnólogos se apasionan por todas las habilidades, pero le entusiasmarán las habilidades de su área de trabajo. A medida que nos preparamos para las nuevas tendencias tecnológicas y los desafíos más significativos a resolver, es esencial que establezcamos nuestra base.

Sin ningún orden en particular, ¡conozcamos las 10 habilidades para un Científico de Datos en 2020!

1. Probabilidad y Estadística
La Ciencia de Datos trata sobre el uso de procesos, algoritmos o sistemas para extraer conocimiento, percepciones y tomar decisiones informadas a partir de los datos. En este caso, hacer inferencias, estimar o predecir forman una parte importante de la Ciencia de Datos.

La probabilidad con la ayuda de métodos estadísticos ayuda a hacer estimaciones para análisis posteriores. La estadística depende en gran medida de la teoría de la probabilidad. En pocas palabras, ambas están entrelazadas.

¿Qué puede usted hacer con probabilidad y estadística en ciencia de datos?
  1. Explorar y entender más sobre los datos
  2. Identificar las relaciones o dependencias subyacentes que pueden existir entre dos variables
  3. Predecir la tendencia futura o pronosticar una derivada basada en las tendencias de los datos anteriores
  4. Determinar las pautas o el motivo de los datos
  5. Descubrir anomalías en los datos

Especialmente en el caso de las empresas basadas en datos, en las que los interesados dependen de los datos para la adopción de decisiones y el diseño/evaluación de los modelos de datos, la probabilidad y las estadísticas son parte integrante de la ciencia de datos.

2. Cálculo multivariable y álgebra lineal
La mayoría del machine learning y de los modelos de ciencia de datos, invariablemente se construyen con varios predictores o variables desconocidas. El conocimiento del cálculo multivariable es significativo para construir un modelo de aprendizaje automático. Estos son algunos de los temas de matemáticas con los que debes estar familiarizado para trabajar en la ciencia de datos:

  1. Derivadas y gradientes
  2. Función de paso, función sigmoide, función de logit, función ReLU (unidad lineal rectificada)
  3. Función de costo (la más importante)
  4. Trazado de funciones
  5. Valores mínimos y máximos de una función
  6. Funciones escalares, vectoriales, matriciales y tensoriales

3. Programación, paquetes y programas
¡Por supuesto! La ciencia de datos se basa esencialmente en programación. Las habilidades de programación para la Ciencia de Datos reúne todas las habilidades fundamentales necesarias para transformar los datos en bruto en conocimientos accionables. Aunque no hay una regla específica sobre la selección del lenguaje de programación, Python y R son los más favorecidos.

No soy una persona religiosa en cuanto a las preferencias de lenguajes de programación o plataformas. Los científicos de datos eligen un lenguaje de programación que sirva para la necesidad de una declaración de problemas. Python, sin embargo, parece haberse convertido en lo más cercano a una panacea para la ciencia de los datos.

Lea más acerca de las 10 principales bibliotecas python para la ciencia de los datos aquí.
Sin ningún orden en particular, aquí hay una lista de lenguajes de programación y algunos paquetes para la Ciencia de Datos a elegir:

  1. Python
  2. R
  3. SQL
  4. Java
  5. Julia
  6. Scala
  7. MATLAB
  8. TensorFlow (genial para la ciencia de datos en Python)

Todo lo que hay a continuación es sobre código. La Ciencia de Datos, sin familiaridad con la experiencia o el conocimiento de código puede ser un poco difícil. Yo por lo tanto, prefiero refrescar mis habilidades en Python primero, leer la literatura sobre el proyecto en el que estaré trabajando y luego empezar a construir el código.

4. Exploración de datos
A menudo los datos que una empresa adquiere o recibe no están listos para ser modelados. Por lo tanto, es imperativo entender y saber cómo tratar las imperfecciones de los datos.

El Data Wrangling es el proceso en el que se preparan los datos para su posterior análisis; transformando y mapeando los datos en bruto de un formulario a otro para preparar los datos para su comprensión. Para la exploración de datos, básicamente se adquieren datos, se combinan los campos relevantes, y luego se limpian los datos.

¿Qué puedes hacer con la "Exploración de datos en la ciencia de datos"?

  1. Revelar una inteligencia profunda dentro de sus datos mediante la recopilación de datos de múltiples canales
  2. Proporcionar una representación muy precisa de los datos procesables en manos de los empresarios y analistas de datos en un asunto oportuno
  3. Reducir el tiempo de procesamiento, el tiempo de respuesta y el tiempo dedicado a reunir y organizar datos desordenados antes de que puedan ser utilizados
  4. Permitir que los científicos de datos se centren más en el análisis de los datos, en lugar de la parte de la limpieza
  5. Dirigir el proceso de toma de decisiones basado en datos en una dirección apoyada por datos precisos

5. Gestión de bases de datos
Para mí, los científicos de datos son personas diferentes. Tienen que saber matemáticas, estadística, programación, manejo de datos, visualización, y ser un cientifico de datos "full stack".

Como mencioné antes, el 80% del trabajo se dedica a preparar los datos para su procesamiento en un entorno industrial. Con montones y grandes trozos de datos en los que trabajar, es fundamental que un científico de datos sepa cómo gestionar esos datos.

La administración de bases de datos consiste esencialmente en un grupo de programas que pueden editar, indexar y manipular la base de datos. El DBMS acepta una solicitud de datos de una aplicación e instruye al sistema operativo para que proporcione los datos específicos requeridos. En los sistemas grandes, un SGBD ayuda a los usuarios a almacenar y recuperar datos en un momento dado.

¿Qué se puede hacer con la Administración de Bases de Datos para la Ciencia de los Datos?

  1. Definir, recuperar y administrar los datos de una base de datos
  2. Manipular los datos en sí, el formato de los datos, los nombres de los campos, la estructura de los registros y la estructura de los archivos
  3. Define las reglas para escribir, validar y probar los datos
  4. Operar a nivel de registro de la base de datos
  5. Apoyar el entorno multiusuario para acceder y manipular los datos en paralelo
  6. Algunos de los populares DBMS incluyen: Bases de datos MySQL, SQL Server, Oracle, IBM DB2, PostgreSQL y NoSQL (MongoDB, CouchDB, DynamoDB, HBase, Neo4j, Cassandra, Redis)

6. Visualización de datos
¿Qué significa la visualización de datos? Para mí, es una representación gráfica de los hallazgos de los datos en cuestión. Las visualizaciones comunican de forma efectiva y llevan la exploración a la conclusión.

La visualización da el poder de elaborar una historia a partir de los datos y crear una presentación completa. La Visualización de Datos es una de las habilidades más esenciales porque no se trata sólo de representar los resultados finales, sino también de entender y aprender de los datos y su vulnerabilidad.

Siempre es mejor representar las cosas visualmente; el valor real está bien establecido y comprendido. Cuando creo una visualización, estoy seguro de que obtengo información significativa, lo que puede ser sorprendente ya que tiene el poder de influir en el sistema.

Histogramas, gráficos de barras, gráficos circulares, gráficos de dispersión, gráficos lineales, series de tiempo, mapas de relación, mapas de calor, mapas geográficos, gráficos en 3-D, y una larga lista de visualizaciones puedes usar para tus datos. Para una lista más detallada, visite aquí.

¿Qué puede hacer con la visualización de datos para la ciencia de los datos?
  1. Trazar los datos para una poderosa comprensión (¡por supuesto! 😀)
  2. Determinar las relaciones entre las variables desconocidas
  3. Visualizar las áreas que necesitan atención o mejora
  4. Identificar los factores que influyen en el comportamiento del cliente
  5. Comprender qué productos colocar y donde
  6. Mostrar las tendencias de las noticias, conexiones, sitios web, medios sociales
  7. Visualizar el volumen de información
  8. Informes de clientes, rendimiento de los empleados, mapeo de ventas trimestrales
  9. Idear una estrategia de marketing dirigida a los segmentos de usuarios

Algunas de las herramientas de visualización de datos más populares incluyen: Tableau, PowerBI, QlikView, Google Analytics (para la Web), MS Excel, Plotly, Fusion Charts, SAS

7. Machine Learning / Deep Learning
Si trabajas con una empresa que gestiona y opera con grandes cantidades de datos, donde el proceso de toma de decisiones está centrado en los datos, puede darse el caso de que una habilidad exigida sea el aprendizaje automático. El ML es un subconjunto del ecosistema de la Ciencia de Datos, al igual que la Estadística o la Probabilidad que contribuye a la modelización de los datos y a la obtención de resultados.

El Aprendizaje Automático para la Ciencia de Datos incluye algoritmos que son centrales para el ML; K-nearest Neighbors, Random Forest, Naibe Bayes, Modelos de regresión. 

PyTorch, TensorFlow, Keras también encuentran su utilidad en Machine Learning para Data Science

¿Qué puedes hacer con el aprendizaje automático para la ciencia de los datos?
  1. Detección y gestión de fraudes y riesgos
  2. Salud (uno de los campos de la Ciencia de Datos en auge! Genética, Genómica, Análisis de imágenes)
  3. Planificación de rutas de aerolíneas
  4. Filtrado automático de spam
  5. Sistemas de reconocimiento facial y de voz
  6. Respuesta de voz interactiva mejorada (IVR)
  7. Reconocimiento y traducción integral de idiomas y documentos

8. Computación en la nube
La práctica de la ciencia de datos suele incluir el uso de productos y servicios de computación en la nube para ayudar a los profesionales de los datos a acceder a los recursos necesarios para gestionar y procesar los datos. [customerthink.com] Un papel cotidiano de un científico de datos generalmente incluye el análisis y la visualización de los datos que se almacenan en la nube.

Usted puede haber leído que la ciencia de datos y la computación en ls nube van de la mano, típicamente porque la computación en la nube le da una mano a los científicos de datos para usar plataformas como AWS, Azure, Google Cloud que provee acceso a bases de datos, frameworks, lenguajes de programación y herramientas operacionales.

Familiarizado con el hecho de que la ciencia de datos incluye la interacción con grandes volúmenes de datos, dado el tamaño y la disponibilidad de las herramientas y plataformas, la comprensión del concepto de la nube y la computación en nube no es sólo una habilidad pertinente sino crítica para un científico de datos.

¿Qué se puede hacer con la computación en nube para la ciencia de los datos?
  1. Adquisición de datos
  2. Analizar, explorar, transformar, analizar y limpiar los datos...
  3. Minería de datos [Análisis de datos de exploración (EDA), estadísticas de resumen, ...]
  4. Validar y probar los modelos de predicción, los sistemas de recomendación y tales modelos
  5. Ajustar las variables de datos y optimizar el rendimiento del modelo
Algunas plataformas de nube populares para la Ciencia de Datos incluyen AWS, Windows Azure, Google Cloud, o IBM Cloud. También leí hace algún tiempo que la gente ahora está experimentando con la Nube de Alibaba y que suena interesante.

9. Microsoft Excel
Sabemos que MS Excel es probablemente una de las mejores y más populares herramientas para trabajar con datos. Podríamos estar escuchando, "Oye, ¿recibiste el envío del jefe de Excel? Espera, ¿no estamos discutiendo las habilidades para la Ciencia de los Datos? ¿Excel? Siempre me he preguntado si debe haber alguna forma fácil de manejar datos. Con el tiempo, explorando Excel para el manejo de datos, me di cuenta, Excel es:

  • El mejor editor de datos 2D
  • Una plataforma fundamental para el análisis avanzado de datos
  • Obtener una conexión en vivo a una hoja de Excel en Python
  • Puedes hacer lo que quieras, cuando quieras y guardar tantas versiones como prefieras
  • La manipulación de los datos es relativamente fácil
La mayoría de las personas no técnicas de hoy en día suelen utilizar Excel como sustituto de la base de datos. Puede ser un uso erróneo porque carece de control de versiones, precisión, reproductibilidad o mantenibilidad hasta cierto punto. Sin embargo, lo que puede hacer Excel es algo sorprendente también!

¿Qué puede hacer con Excel para la ciencia de los datos?
  1. Nombrar y crear rangos
  2. Archivar, clasificar, fusionar, recortar datos
  3. Crear tablas pivot y gráficos
  4. Visual Basic for Applications (VBA) [Búscalo en Google si no lo sabes ya. Es una superpotencia de MS Excel, y este espacio no hará justicia a su explicación. VBA es el lenguaje de programación de Excel que te permite ejecutar bucles, macros, si...]
  5. Limpiar los datos: eliminar los valores duplicados, cambiar las referencias entre absolutas, mixtas y relativas
  6. La búsqueda de los datos necesarios entre miles de registros

10. DevOps
Siempre he oído y creído que la Ciencia de los Datos es para alguien que sabe de matemáticas, estadística, algoritmos y manejo de datos. Ahora, hace algún tiempo, conocí a alguien con más de 6 años de experiencia en el núcleo de DevOps buscando un cambio de carrera a la Ciencia de Datos.

Si tienes estas 10 habilidades, y te sientes listo para un trabajo en data science, busca aquí diferentes posibilidades.

No sé mucho (en realidad, nada) sobre el DevOps, pero una cosa era segura: La creciente importancia del DevOps para la Ciencia de Datos.

DevOps es un conjunto de métodos que combina el desarrollo de software y las operaciones de TI que tiene como objetivo acortar el ciclo de vida del desarrollo y proporcionar una entrega ininterrumpida con alta calidad de software.

Los equipos de DevOps trabajan estrechamente con los equipos de desarrollo para gestionar el ciclo de vida de las aplicaciones de forma eficaz. La transformación de datos exige una estrecha colaboración de los equipos de ciencias de datos con DevOps. Se espera que el equipo de DevOps proporcione grupos de alta disponibilidad de Apache Hadoop, Apache Kafka, Apache Spark y Apache Airflow para abordar la extracción y transformación de datos.

¿Qué se puede hacer con DevOps para la ciencia de  datos?
  1. Suministrar, configurar, escalar y gestionar los clusters de datos
  2. Gestionar la infraestructura de la información mediante la integración, el despliegue y la supervisión continuos de los datos
  3. Crear scripts para automatizar el aprovisionamiento y la configuración de la base para una variedad de entornos.

¡Gracias por leer! Espero que hayan disfrutado del artículo. Hágame saber qué habilidad desea aprender o explorar en su viaje de Ciencias de los Datos.
Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!