¿Por qué las competiciones en data science son importantes para las startups?

Daniel Morales
Feb 05, 2021


Hoy en día, las empresas grandes tienen grandes presupuestos de investigación y desarrollo que les permiten experimentar y estar a la vanguardia con las nuevas tecnologías; siempre adoptando lo más nuevo, tratando de adaptarlo a sus propias necesidades, tratando de encontrar el valor oculto en cada una de ellas. 

Es natural que no siempre una nueva tecnología se adapte a las necesidades de una empresa en particular, sin embargo, con el proceso de investigación y desarrollo las empresas tienen un laboratorio de innovación donde es permitido fallar, y donde también suceden avances maravillosos. 

En los últimos años, la tecnología que ha ganado millones de adeptos (empresas e ingenieros), es la Inteligencia Artificial, o el Machine Learning para ser específicos. Estas grandes empresas han podido encontrar casos de uso que les permiten optimizar todo tipo de operaciones internas, bajar costos y/o aumentar ventas, ingresos y rentabilidades. 

Pero, ¿dónde han quedado las startups en esta carrera por explotar y aplicar nuevos casos de uso usando esta tecnología?

Desafortunadamente no todas las startups tienen capacidad económica para darse el lujo de experimentar con nuevas tecnologías, ni tercerizando ni contratando internamente el talento. 

De hecho muchos fundadores de startups ven lejos la posibilidad de usar esta tecnología. Más preocupante aún, nos hemos encontrado con que muchos fundadores no tienen ni idea de que puede hacer machine learning por sus startups. 

Y es preocupante debido a que esta tecnología puede darles ventajas significativas con respecto a la competencia y/o aumentar su diferenciación estratégica. 

Se habla de que los datos son el nuevo oro, y tiene sentido siempre y cuando las startups sepan cómo convertir esos datos en oro. 

Finalmente, cuando hablamos de Machine Learning, estamos hablando de datos procesados de la forma correcta, que permiten generar una “inteligencia artificial” permitiendo hacer predicciones o clasificaciones con esos datos. 

Sin embargo hay todo un proceso detrás para capturar los datos correctamente, limpiarlos, organizarlos, tenerlos listos, llevarlos a un modelo de machine learning, experimentar con el modelo (o modelos) y finalmente obtener scores y subirlo a producción. 

Esto no es un proceso fácil, y es aquí donde las startups se quedan mirando a distancia como los que sí pueden hacerlo sacan provecho de ello. Si tan solo pudiéramos democratizar la forma en que usamos esta tecnología podríamos generar más valor para todos los stakeholders, incluyendo los usuarios obviamente. Pero cómo democratizar el acceso a esa tecnología y a las soluciones que se pueden crear?

Democratizando las competiciones en data science


Hace un tiempo nacieron varias plataformas en las cuales las empresas grandes de tecnología de Silicon Valley e incluso Multinacionales tratan de solucionar problemas realmente complejos con la ayuda de personas externas, por medio de algo llamado “competiciones en data science”. 

Esto se daba ya que el talento interno no podía solucionar estos problemas, ya que no tenían el tiempo, o las capacidades. Obviamente se trataba de problemas realmente complejos.

Estas plataformas de competiciones en data science le permiten a la empresa acceder a un pool de talento global de especialistas en data science que iban desde PHDs hasta autodidactas que se lanzaban en la aventura de solucionar el reto planteado por la empresa que patrocina una competición. 

Los premios obviamente son exorbitantes, donde incluso Netflix llegó a pagar 1 millones de dólares por una solución de machine learning. 

Los premios en estas plataformas oscilan entre los $10.000 USD y los $100.000 USD en promedio. Un lujo que solo pueden permitirse las grandes tecnológicas (o las multinacionales). 

Y las startups? Pues bien, a menos que hayas levantado una Serie B o una Serie C, quizás puedas permitirte el lujo de patrocinar una competición de $10.000 USD, o incluso tener un equipo interno de data scientists que te ayude a experimentar o a resolver un problema con machine learning. 

Pero ¿qué pasa con las empresas que están en etapa más temprana y no tienen estos fondos o ese talento interno? O ¿qué pasa con las que están haciendo bootstrapping? Aquí es donde nos ha surgido una idea para ayudar a las startups que se encuentran en esta situación. Hemos decidido repensar las competiciones en data science

Repensando las competiciones en data science


Nuestro enfoque es democratizar las competiciones en data science. Nos dimos cuenta que otras plataformas de competiciones en data science están enfocadas en empresas muy grandes, en premios muy altos y en problemas muy complejos. 

Esto se traduce en competiciones que solo pueden ser pagadas por empresas con bolsillos profundos, competiciones que tardan meses en completarse, y que están hechas para data scientists y equipos “super-senior”. 

Al fin de cuentas patrocinar una competición de $50.000 USD (o 1 millón de USD) no es para todo tipo de empresas. 

Por ello decidimos re-pensar la forma en que están construidas las competiciones en data science y decidimos enfocarnos en startups de cualquier tamaño y de cualquier parte del mundo, que puedan pagar competiciones desde $499 USD, que no tomen tanto tiempo en ser resueltas (4 semanas), que puedan lanzar más de una, dos o tres competiciones (porque lo pueden pagar) y en las cuales puedan participar todo tipo de talento en data science, de cualquier nivel y desde cualquier parte del mundo. 

¿Y no sería mejor contratar un equipo de data scientists en vez de patrocinar una competición?


En este caso, obviamente debes pensar en cuántas personas necesitarás contratar, hacer el proceso de contratación y obviamente pagar un sueldo considerable a dicho talento (ya que lo vale!). 

Pero si haces esto sin haber experimentado con las primeras soluciones, estarás dando un salto al vacío sin saber si efectivamente necesitarás de esta tecnología, si realmente podrás sacar provecho de ella y si definitivamente generará valor para tu startup. 

Quizás contratar a alguien tenga más sentido si ya has experimentado un poco con la tecnología y sabes lo que quieres y lo que puedes hacer. 

Dado el caso en que no hayas experimentado, (y no sepas que se puede construir para tu startup en particular), las competiciones son la mejor opción para que puedas sacar el máximo provecho. 

De hecho en nuestra plataforma hay más de 1.400 data scientist, quienes estarán compitiendo por solucionar tu problema, quiere decir que tendrás 1.400 personas trabajando para ti! No estamos hablando de 2 o 3 personas, estamos hablando de miles!

Pero el mayor beneficio que se puede obtener de una competición finalmente son las soluciones. (ver párrafo: “Hagamos un ejemplo). 


¿Para que una competición, si ya tengo data scientists en mi equipo?



Tener talento en data science es una gran noticia para ti, ya debes haber experimentado con la tecnología, tener soluciones implementadas y notar las grandes ventajas de dicha tecnología.

Sin embargo, estas con la vista acotada, debido a que un equipo de data science por sí solo, podría no haber encontrado la mejor solución a un problema. 

Digamos que para el problema XYZ tu equipo logró un score de 0.75 (para un máximo de 1). Las preguntas correctas serían:
  • ¿Esto es una muy buena solución? 
  • ¿Es la solución más óptima? 
  • ¿Es el mejor algoritmo?
  • ¿Es el score más alto que alguien pueda obtener? 
  • ¿Qué pasa si alguien tiene un score de 0.89 para el mismo problema?
  • Y la más importante de todas: ¿Hay alguien allá afuera, en cualquier parte del mundo, que pueda lograr un score mayor? 

En pocas palabras estás teniendo un costo de oportunidad. Tienes la vista acotada. 

Esa diferencia en scores (0.75 vs 0.89) puede parecer poca diferencia, pero podrían significar miles de dólares en ahorro, o en ingresos (depende del problema). 

O como muchos data scientists podrían decir: “Sería una diferencia de vida o muerte”. Solo piense en lo siguiente: ¿Y si este modelo es para predecir si alguien tiene una rara enfermedad o no?. Sería una diferencia de vida o muerte, de eso podría depender un tratamiento médico. 

Por esto, las competiciones son la mejor opción para que puedas sacar el máximo provecho. Mantienes tu equipo de data scientists, pero experimentas con las competiciones y comparas resultados. O simplemente ellos se enfocan en solucionar otros problemas. 

Pero el mayor beneficio que se puede obtener de una competición finalmente son las soluciones. Veamos un ejemplo

Hagamos un ejemplo


Digamos que has encontrado un problema de data science, el cual está enmarcado en un problema de predicción (de mediana dificultad), y para el cual esperas un score final del modelo entre 0 y 1, siendo 1 una predicción perfecta y 0 una muy pobre predicción. 

Si tuvieras, digamos, 1 data scientist a tiempo completo en tu startup, trabajando para solucionar ese problema, posiblemente se tardaría 1 mes en solucionarlo y en crear un modelo de machine learning, y al final podría tener un score de, digamos: 0.71. 

0.71 es una buena calificación, al fin y al cabo lo máximo es 1, estas a un 71% de asertividad en la solución del problema.  Ahora la pregunta es: 

¿Cuánto le costó a la startup llegar a esa solución? 
  • Respuesta: el salario mensual de los 1 data scientist! (Si le pagas anualmente $100.000 USD, quiere decir que la solución costó $8.333. Eso es un montón!). Otros costos asociados son el costo de oportunidad de saber si hay mejores soluciones y mejores scores para ese problema! ¿Podrían haber soluciones que lleguen a un score de más de 0.8? ¡Probablemente si! Pero la startup nunca lo sabrá, porque si su equipo no sigue trabajando en optimizarlo, ese sería el máximo score, no tiene como comparar el resultado final! El mismo ejemplo aplica si tienes un equipo más robusto, vas a estar limitado por el tamaño de tu equipo.

Supongamos ahora que has decidido patrocinar una competición y pagarás a los ganadores $999 USD en dinero en efectivo. 

Al final de la competición, la cual dura 8 semanas, obtendrás 20 modelos de machine learning (los mejores 20 del leaderboard), y digamos que las soluciones a las cuales llegaron los competidores, están en un rango de: 0.58 a 0.86. Quiere decir que el ganador de la competición obtuvo un score de 0.86 y el participante número 20 obtuvo un score de 0.58. 

Si comparamos resultados, veremos que el ganador de la competición se ubicó muy por encima de la calificación única que sacó tu data scientist interno (0.86 vs 0.71). 

Además obtuviste 20 soluciones/modelos diferentes, con diferentes aproximaciones, de los cuales podrás aprender a abordar cada vez mejor las soluciones

¿Cuánto le costó a la startup llegar a esa solución? 
  • Respuesta: $999USD + 30% fee y la seguridad de saber que el modelo ganador (para ese problema en particular) es el mejor modelo entre más de 1.400 data scientists! No hay costo de oportunidad. Esto es innovación abierta!


Este mismo ejemplo se aplica si planeas subcontratar este trabajo a una empresa de software que ofrece el servicio de machine learning (¡sólo es una empresa, no varias compitiendo para ofrecer el mejor modelo!) o si intentas contratar una empresa de consultoría, o si quieres contratar a un freelance. Todos ellos tienen el mismo problema que un equipo interno de data scientists: sólo obtendrás un valor limitado. 


En definitiva, no existe mejor manera de experimentar con esta tecnología que patrocinando una competición y entendiendo los resultados y el valor que pueden generar para tu startup!


Gracias por leer!

“¿Por qué las competiciones en data science son importantes para las startups?”
– Daniel Morales twitter social icon Tweet

Compartir este artículo:

0 Comentarios

Crear un comentario
Ingresar para Comentar

Artículos Relacionados

Oct 16, 2021

6 Conceptos de Estadística Avanzada en Data Science

El artículo contiene algunos de los conceptos estadísticos avanzados más utilizados junto con su implementación en Python.En mis artículos anterior...

Nagesh Singh Chauhan
Por Nagesh Singh Chauhan
Oct 09, 2021

Las 10 Mejores Extensiones de Python para Visual Studio Code

En este nuevo post queremos hablar de las extensiones más útiles de Python para Visual Studio Code. Visual Studio Code es un entorno de desarrollo ...

Daniel Morales
Por Daniel Morales
Sep 25, 2021

10 Preguntas Altamente Probables en Una Entrevista de Data Science

La popularidad de la ciencia de los datos atrae a muchas personas de una amplia gama de profesiones para hacer un cambio de carrera con el objetivo...

Soner Yıldırım
Por Soner Yıldırım
Icon

Únete a nuestra comunidad privada en Slack

Manténgase al día participando de ésta gran comunidad de data scientists en latinoamérica. Hablamos sobre competiciones en data science, cómo estamos resolviendo los retos, modelos de machine learning aplicados a las competiciones, técnicas novedosas y mucho más!

 
Te enviaremos el link de invitación a tu email de forma inmediata.
arrow-up icon