Cómo Construir Su Portafolio Definitivo de Data Science

Vincent Tatan
Apr 30, 2020

Contents Outline

Cómo Construir Su Portafolio Definitivo de Data Science

Apr 30, 2020 11 minutes read

"Voy a construir un rastreador de fitness para analizar mis métricas de fitness/nutrición"

"Tengo estos dashboards de Tableau en los que he trabajado. No tengo un plan, sólo por diversión"

Hace unos días, tuve una charla con un científico de datos e ingeniero de machine learning de una startup de renombre. Como profesional que acaba de terminar sus estudios, es ambicioso y entusiasta. Me pidió una reunión en Google y escribió todo lo que hablamos. Estaba muy entusiasmado por compartir sus proyectos de Data Science y dispuesto a leer cualquier libro técnico interesante que le permitiera salir adelante en sus competiciones de "kaggle" y sus empleos secundarios.

Si eso te recuerda a ti mismo o a tus amigos aspirantes a científicos de datos, no estás solo. De hecho, he encontrado muchos colegas junior y profesionales en la industria de datos y tecnología que consistentemente usan su tiempo libre/fin de semana para construir sus portafolios. El Data Science es una industria que se mueve rápidamente con tendencias que evolucionan incluso cada mes. Tu elección es construir o perder con tus compañeros en términos de portafolio

Construya su portafolio (Unsplash)

“Pero, ¿se ha preguntado: "¿Es este el enfoque correcto?"

No me malinterprete, admiro hablar con él y su entusiasmo ilimitado para construir sus proyectos. Compartió sus interesantes experiencias de aprendizaje y no tengo dudas de que aprenderá mucho más. Pero de alguna manera la forma en que promovió sus complejas habilidades técnicas con sus proyectos secundarios no tiene sentido para mí.

“Les faltan impactos.”
Construir cosas que importan en tiempo limitado
Si tenemos tiempo para trabajar en mejorar nuestro portafolio. ¿Por qué dedicamos la mayor parte del tiempo a mostrar nuestras habilidades técnicas en lugar de los impactos que hemos logrado? ¿Por qué damos prioridad a trabajar en las competiciones de Kaggle en lugar de resolver los problemas que nuestros amigos tienen y que el análisis de datos puede resolver? ¿No sería mejor decir que ayudas a tus compañeros a ganar dinero con tu modelo de selección de acciones en lugar de estar en el puesto 30 en las competiciones de Kaggle?

Esto es exactamente lo que, en mi opinión, separa a los buenos científicos de datos de los grandes científicos de datos.

Los científicos buenos vs. los grandes científicos de datos: Construye tus productos midiendo el impacto

Un buen científico de datos tiene un gran repositorio de aprendizaje. Sabe cómo hacer dashboards hermosos. Construye mejores modelos de redes neuronales para clasificar conjuntos de datos MNIST (datasets de dígitos escritos a mano). Ejecuta algoritmos de trading altamente complejos que a una persona le llevarían años aprender.

“Esto es bueno, pero no es suficiente para generar impactos.”
Lo que necesitas para convertirte en un gran científico de datos es un gran producto e impacto. Los productos indican valor para los usuarios que se benefician. Es un indicador de que tus habilidades trajeron impacto a la sociedad. En última instancia, cuando vayas a una entrevista de Data Science, tendrás que demostrar que puedes resolver problemas y generar valor.

Por lo tanto, un gran científico de datos utiliza sus dashboards para construir fórmulas de predicción para detener la propagación del Coronavirus a millones de personas. Un gran científico de datos utiliza su modelo de redes neuronales para clasificar los ataques de phishing para proteger a millones de usuarios de los secuestros de datos. Naturalmente, un gran científico de datos tiene audiencias, productos e impactos en su portafolio.

Tus productos serán su portafolio definitivo
Cuando comunique sus productos como un portafolio, se convertirá en un Experto en la materia (Subject Matter Expert) independientemente de su formación académica. En consecuencia, los reclutadores de recursos humanos de Analytics te buscarán a ti en lugar de que tú los busques a ellos. Cuando vayas a las entrevistas, tendrás historias emocionantes que contar, más que lista aburrida  de habilidades técnicas y certificados que tienes.


“Construya su portafolio definitivo construyendo sus productos, conozca a sus audiencias y genere impactos.”
Tres claves para construir su portafolio definitivo
1. Apuntar a soluciones simples con impacto para sus audiencias

Quién es su audiencia. Esa siempre es la primera pregunta que debe hacerse (Unsplash)

El peligro surge cuando estás más interesado en construir tus habilidades que en construir tu público. Déjenme poner como ejemplo al sujeto del encabezado principal de nuestra historia. Planeó construir un rastreador de fitness para analizar sus propias métricas de fitness/nutrición. Grandes proyectos, pero sin impacto en nadie más que en sí mismo.

Del mismo modo, muchos aspirantes a científicos de datos/colegas junior que conozco sólo se enfocan en construir modelos complejos pero no aportan valor a su público. En el concurso de Netflix, el equipo ganador no tuvo en cuenta los esfuerzos de ingeniería necesarios para implementar su modelo de recomendación. Aunque ganaron con una precisión asombrosa, su solución es demasiado compleja. Como resultado, Netflix desperdició un millón de dólares para premiar un modelo de machine learning  que no pudo adoptar.

Del mismo modo, debe construir sus productos teniendo en mente las necesidades de su público. Esto lo obligaría a construir un inventario de iniciativas de análisis de datos más realista. Usted analiza problemas reales de negocio, extrae datos sucios, limpia los datos, hace ingeniería de características, diseña, despliega y mantiene el modelo.

En la universidad y otras certificaciones tipo MOOC, normalmente, la formulación del problema y el dataset limpio es entregado. Por lo tanto, construir soluciones para audiencias reales sería más desafiante. Pero, a largo plazo, recibirá la satisfacción de construir productos que importan. Durante las entrevistas de trabajo para ciencia de datos, usted tendrá cantidad de historias para promocionar su proyecto real en lugar de presumir de sus habilidades técnicas y competiciones de Kaggle.

2. Construir soluciones de su área de conocimiento

Fuente (Unsplash)

He hablado con muchos principiantes y profesionales que se están pasando de diferentes industrias a la industria de datos/tecnología. Hablé con una señora que se matriculó en la Universidad Nacional de Singapur (NUS), doctora en química y vino a pedirme consejo para trabajar como científico de datos en una industria tecnológica.

Ella nunca ha trabajado en la industria tecnológica pero quería aprender Python y desarrollar sus habilidades de programación desde cero.

Mientras es admirable que la gente  salte valientemente a otro expertise,  yo le advertí fuertemente de las desventajas de esto sin un plan sólido. Después de todo, ¿qué clase de ventaja tendría ella comparada con los miles de graduados en Ciencias de la Computación o Analítica de Negocios que han cursado 4 años de estudios? ¿Cómo va a ponerse al día con las habilidades y competir cuando ya hay tantas expectativas en el análisis de datos?

“Este es un gran salto de fe”

Por lo tanto, le sugerí que siga con sus estudios de química. Le sugerí que fuera la mejor química primero y que se aventurara en el análisis después. ¿Por qué? Porque no necesita empezar de cero. Ella ya tiene una gran ventaja, en su campo de dominio que es la química y podría aprender solo  las habilidades analíticas necesarias para construir productos químicos y demostrar sus capacidades. Ella no debería tirar a la basura sus conocimientos. Debería usarlos como una plataforma para encontrar su lugar en la analítica.

Del mismo modo, si eres un estudiante de finanzas, construye una herramienta de investigación de acciones. Si es un estudiante de gestión de operaciones o de ingeniería industrial, construya herramientas de optimización de six sigma. Eso le permite aprovechar su conocimiento existente para crear un trabajo de análisis de datos más significativo de que si comienza a aprender analítica desde cero desde el primer día.

Idealmente, debería alcanzar la proporción de Pareto, la mayor parte del trabajo de análisis de datos es solucionable usando modelos simples como la regresión lineal y el árbol de decisión. Si usa correctamente su conocimiento en su área de dominio, el 20% de su esfuerzo debería crear ya el 80% de impacto.

3. Despliegue y comunique sus soluciones


Mi presentación sobre modelos de redes neuronales convolucionales para Data Science Singapur en Google 

Si quieres convertirte en un gran científico de datos, tendrás que publicar tu trabajo. 
Abre tus soluciones para que otras personas las usen. Deja que la gente contribuya a tu Github. Escribe y habla sobre ello. Cuanta más gente encuentre valor en tu trabajo, más probable será que difundan tus productos. En el futuro, te sumergiras en la construcción de tu portafolio y marcas personales mientras educas a otros aparte de tu trabajo profesional.

En mi caso, normalmente uso Github para que la gente acceda a mis códigos y al aprendizaje online, Youtube/Medium para comunicar mis pensamientos por escrito y en vídeos, y finalmente Heroku para lanzar mis aplicaciones en Python. Recibí ingresos y tráfico de mis soluciones que refuerzan el valor de mi conocimiento para beneficiar a otros. Posteriormente, construí productos me permitieron asumir la propiedad de mi trabajo mientras construía mi marca personal e historias.

Conclusión
Si lo haces bien, tendrás muchos beneficios. Primero, construirías tu portafolio y te divertirás al ver los impactos que haces. Segundo, promoverás tu personal branding y la visibilidad en línea para oportunidades de trabajo y conferencias. Por último, te capacitaste para escribir y contar historias para inspirar acciones en tus audiencias. Todos estos beneficios te abrirán oportunidades para convertirte en un gran científico de datos.

En resumen, para lograr estos resultados, necesitarás:

1. Apuntar a soluciones simples con impactos: Centrarse en la construcción de su público en lugar de sólo en la construcción de sus habilidades.
2. Construir soluciones de su área de conocimiento: No empieces desde cero para perseguir la ciencia de los datos. Aproveche sus talentos y su área de dominio para crear productos de Data Science para sus pares.
3. Despliegue y comunique sus soluciones: Despliegue y comercialice sus productos. Haga que lo utilicen muchas personas y realice un seguimiento a los impactos que hizo. Esto le proporcionará más inspiración e historias para aumentar su aprendizaje como un gran científico de datos.

Soli Deo Gloria

Finalmente...
Espero que esta haya sido una gran lectura y una fuente de inspiración para que desarrolles e innoves.

Por favor, comenten a continuación sugerencias y comentarios. Al igual que usted, todavía estoy aprendiendo a ser un mejor científico de datos e ingeniero. Por favor, ayúdame a mejorar para que pueda ayudarte mas en mis siguientes publicaciones de artículos.

Gracias y Feliz código:)

Sobre el autor
Vincent Tatan es un entusiasta de los datos y la tecnología con experiencias de trabajo relevantes de Google LLC, Visa Inc. y Lazada en implementar arquitecturas de microservicios, inteligencia de negocios y pipelines de proyectos de analítica.

Vincent es un indonesio nativo con un historial de logros en la resolución de problemas con fortalezas en desarrollo full stack, analítica de datos y planeación estratégica.

Ha sido consultor activo de SMU BI & Analytics Club, guiando a aspirantes a científicos e ingenieros de datos de varios orígenes y abriendo su experiencia para que las empresas desarrollen sus productos.

Si ya tienes un gran portafolio, y quieres encontrar trabajo y demostrar tus habilidades, aqui tenemos una recomendacion para ti. Un sitio donde podrás encontrar trabajo remoto como data scientist o data engineer.

Por último, por favor, contacte con Vincent a través de LinkedIn, Medium o Youtube Channel
Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!