Algunos Stacks Comunes para Ciencia De Datos

Luke Posey
Apr 20, 2020

Contents Outline

Algunos Stacks Comunes para Ciencia De Datos

Apr 20, 2020 4 minutes read

7 stacks como resultado de entrevistar diferentes analistas, científicos e ingenieros.



Las organizaciones tienen diferentes combinaciones de tecnologías similares para crear su propio stack único.

Pero hay algunas tendencias en marcha y si estás empezando un nuevo equipo, organización o compañía, te puede servir para emular uno de los stacks existentes en los primeros días y luego construirla según tus propias necesidades, como consideres oportuno. Y hay muchas tecnologías anticuadas por ahí que podrían necesitar una actualización.

Para el siguiente stack he incluido la tecnología más usada en cada parte del stack. Esto no incluye la aplicación y el modelo de despliegue - elección sobre nubes, contenedores, herramientas de CI/CD, etc.

Guardaré eso para que mis amigos de ingeniería y de DevOps lo exploren. Esta información proviene de conversaciones con compañeros de datos de cada empresa que cotiza en bolsa, y basadas en datos disponibles públicamente.

Aquí hay algunas stacks de datos que he encontrado recientemente en conversaciones con varios Ingenieros de Datos, Científicos de Datos, y Analistas:


Compañía A - SaaS Startup
  • Database: MySQL
  • Warehouse: PostgreSQL, Snowflake
  • ETL: Embulk, Python, Airflow
  • Visualizations: Redash, Metabase
  • AI/ML: None
Compañía B -AI Startup
  • Database: PostgreSQL
  • Warehouse: PostgreSQL + Stitch
  • ETL: Lots and lots of Python
  • Visualizations: Matplotlib, TensorBoard (sorta cuenta?)
  • AI/ML: TensorFlow por todos lados, algo de Sklearn y operaciones hechas desde cero.

Compañía C - Mid-cap Tech Company
  • Database: MongoDB (NoSQL), moving to DynamoDB (NoSQL)
  • Warehouse: Amazon Redshift
  • ETL: Airflow, Python
  • Visualizations: Un poco de todo
  • AI/ML: Un monto decente de "de todo un poco" 

Compañía D - Large-Cap con Huge Analytics Org
  • Database: SQL Server (casi exclusivamente Azure SQL DB)
  • Warehouse: Azure Synapse (SQL DW), Snowflake
  • ETL: Azure Data Factory, Python
  • Visualizations: Tableau, Power BI
  • Analytics: Un poco de todo
  • AI/ML: Un poco de todo

Compañía E - Large-Cap con Small Analytics Org
  • Database: Redis, SQL Server
  • Warehouse: Azure Databricks (Spark)
  • ETL: Azure Data Factory, Python
  • Visualizations: Redash
  • AI/ML: random one-offs, user’s preference

Compañía F - Mid-Cap Data Company
  • Database: MySQL (otras con poco uso)
  • Warehouse: Hive (Hive como primaria, pero usando otras de a poco)
  • ETL: 50 herramientas diferentes (exageración, pero en realidad no hay estructura aqui)
  • Visualizations: subscripciones a todas las mayores herramientas de negocios. 
  • AI/ML: De todo, depende de la preferencia del usuario.  


Compañía G - Compañía tecnológica (Cultura de datos de primer nivel)
  • Database: MySQL, Cassandra (NoSQL), custom built off another DB
  • Warehouse: Hadoop & custom/from scratch
  • ETL: Many different use-cases resulted in many different interactions in this layer of the stack. This company is extremely thoughtful about every decision in their stack… Have developed much of their ETL from scratch or off the back of existing tools.
  • Visualizations: Everyday tools like Python libraries, R, and Tableau, but also developed many of their own tools, open-sourced some of them, etc...
  • AI/ML: TensorFlow for Deep Learning, standard libs for everyday ML, tons of custom stuff built for managing models, tracking metrics, etc…

La mejor manera de ser competente rápidamente es emular. Para ser grande tienes que averiguar qué es lo que funciona para ti.

Claro, tratar de aprender algunos de los movimientos de LeBron podría convertirte en un buen jugador de baloncesto. Incluso podrías pasar incontables horas tratando de emular su juego. Pero tú no eres LeBron. Podrías ser muy bueno imitando partes de su juego. Pero si no estás cerca de la capacidad sobrehumana de LeBron como yo y no puedes saltar por el techo, debes averiguar qué es lo mejor para que tu juego se convierta en grande.

Nota: hay muchas tecnologías que no he enumerado aquí... algunas populares que puede que no hayas visto enumeradas incluyen Impala (motor para Hadoop), Rapidminer (herramienta de análisis), R (lenguaje de programación), PyTorch (biblioteca ML), y muchas otras.

Por favor, no te enfades si no has visto tu tecnología favorita en la lista! Sólo significa que mi pequeña muestra de gente con la que he hablado recientemente no la usan en su día a día.

Aprende diferentes stacks para data science aqui.

¡Gracias por leer!

¡Continuemos la conversación en Twitter!
Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!