¿Qué hay de nuevo en DataSource.ai?

Daniel Morales
Apr 16, 2021

¿Qué hay de nuevo en DataSource.ai?

Apr 16, 2021 6 minutes read

Hola a todos, soy Daniel Morales cofundador de DataSource.ai y hoy quiero compartir con ustedes muy buenas noticias y los nuevos avances que estamos haciendo con el fin de tener una excelente comunidad de data scientist a nivel global. 

Nuevo CEO


Esta es quizás la noticia más importante de todas, ya que tenemos un nuevo CEO o Gerente General el cual ha venido trabajando en DataSource.ai los últimos 3 meses, entendiendo los procesos internos, las competiciones, la comunidad  y la tecnología con la que trabajamos. Este es un enorme aliciente ya que se trata de una persona con alta experiencia en empresas de tecnología, con más de 20 años trabajando en empresas como IBM, Cisco y AT&T y está radicado en San Francisco, CA. corazón de Silicon Valley. Su nombre es Dimitry Kushelevsky, pueden contactarlo en Linkedin, o al email dimitry@datasource.ai

Nuestro objetivo principal con Dimitry es cumplir nuestra misión de democratizar la Inteligencia Artificial hacia las compañias medianas y pequeñas, asi como crear una excelente cultura organizacional, tener un lider no-técnico para crecer el equipo y tener patrocinadores para las competiciones en data science, brindando así  valor a dichas compañías con los resultados que se obtienen de sus modelos de Machine Learning, y como resultado de esto tener premios en dinero, de forma constante y consistente para toda la comunidad. ¡Bienvenido al equipo Dimitry!

Competiciones

Hasta el momento hemos realizado 6 competiciones, y estamos en medio de la séptima competición. En un camino de más de un año hemos aprendido toneladas acerca de las competiciones, como funcionan en detalle, como postearlas, cómo evaluarlas, cómo automatizar tareas, y mucho más. A la vez hemos aprendido de ustedes, de quienes han ganado competiciones, y han llenado nuestros cuestionarios de feedback. Aprovechamos para darles las gracias por ello! Con base en dichos conocimientos hemos realizado una serie de cambios que vale la pena compartir con ustedes. 


Discusiones dentro de las competiciones




Este es un feature que nos pedían muchas veces en las encuestas, así que ya se encuentra habilitado para todas las competiciones. Si tienen dudas o comentarios las pueden publicar por este medio. 


Máximo de 50 envios por dia



Cuando un competidor realice más de 50 envíos  por día, el botón se deshabilitará, ya que ha llegado a su máximo. 

Si un competidor esta enviando esta cantidad de modelos por dia, posiblemente lo este haciendo de forma automatica, tratando de hacer un overfitting sobre el Test.csv, lo cual no es bueno para el competidor, ni para los otros competidores. 

Recuerda siempre elegir sus mejores modelos para enviar, y así no tener que esperar hasta el siguiente día. Como consejo adicional, te recomendamos hacer diferentes splits de los datos que se encuentran en el Train.csv, que a su vez sirvan como Hold-out test sets, y asi puedan simular escenarios de nuevos datos no vistos, y corran la misma metrica de evaluacion de la competición sobre ellos. Así estarán más seguros acerca de los posibles resultados cuando envien el archivo csv a nuestra plataforma.


Proceso de finalización de las competiciones


Este es quizás el cambio más importante que hemos realizado dentro de la plataforma, así que presta mucha atención

El proceso normal de participación dentro de la competición se da como sigue:
  1. Descargas el dataset Train.csv
  2. Haces EDAs y construyes un modelo base
  3. Haces un .predict sobre el dataset Test.csv
  4. Cread un csv siguiendo los lineamientos del archivo SampleSumbission.csv
  5. Cargas el csv en nuestra plataforma para obtener el puntaje
  6. Apareces en la tabla de posiciones pública
  7. Sigues trabajando el modelo con técnicas avanzadas y pruebas diferentes modelos
  8. Repites el proceso de envío
  9. Vas obteniendo diferente scores (y los vas mejorando)

Este es el proceso normal, pero tiene el problema de overfitting. El modelo que tenga el mejor puntaje, podemos decir que se ha sobre-ajustado a los datos dados en Test.csv. Es por ello que hemos decidido introducir un nuevo dataset el cual será liberado al final de la competición, que hará las veces de un set de datos de la “vida real”, sobre el cual no se ha “sobre ajustado” el modelo. Este dataset lo llamaremos FinalTest.csv. Y el proceso para mandar el modelo es como sigue:


  1. Una vez llegado a la fecha (ver timeline de la competición) se habilita el dataset llamado FinalTest.csv
  2. Los descargas a tu entorno
  3. Eliges tu mejor modelo (el que mejor puntaje te ha dado hasta el momento con Test.csv)
  4. Y haces un .predict sobre FinalTest.csv
  5. Te cuidado porque solo tendrás UNA oportunidad de enviar este ultimo modelo, asi que elige bien
  6. Creas el csv siguiendo los lineamientos del archivo SampleSumbission.csv. En el formulario final (del botón Submit Final Model) debes incluir 
    1. El csv para obtener el puntaje
    2. El .ipynb (Notebook)
    3. Ya no será necesario que envies el Notebook a nuestro email
  7. Verás tu puntaje final en la pantalla, pero no se reflejará inmediatamente en la tabla de posiciones privada
  8. Tendrás un lapso de tiempo de una semana para hacer este envío
  9. Cuando finalice esta semana, se revelarán todos los puntajes y se revelará la tabla de posiciones privada
  10. La tabla de posiciones privada es la que tendremos en cuenta para los premios por puntos, de regalos y/o premios en dinero


Timeline de finalización



Siguiendo el ejemplo anterior, como se puede ver en esta imagen la competición (una competición ficticia)  inició el 22 de marzo, terminó el 14 de abril, y se completará el 21 de abril. Eso quiere decir que:

  1. Hasta el 14 de abril puedes usar el dataset Test.csv para hacer tus predicciones y estar en el leaderboard público
  2. A partir del siguiente día, y hasta una semana después, es la ventana final de envíos. La cual se cierra definitivamente el 21 de abril. En este lapso de tiempo es donde debes enviar tus predicciones sobre el dataset FinalTest.csv

Envio tardíos



Algunas competiciones permitirán la participación tardía, esto con fines académicos y de aprendizaje. Si la competición ya terminó, quiere decir que ya se asignaron los premios respectivos (puntos, premios en especie o dinero), por tanto no es posible participar tardiamente para ganarlos. 

Pero si que podrás descargar los datasets, jugar con ellos, divertirte, aprender, enviar tus resultados, obtener los scores y finalmente aparecer en la tabla pública. Esta es una buena forma de seguir practicando y demostrando tus habilidades en data science!


Certificado de participación en las competiciones




Dentro de tu Dashboard > My Profile > Certificates podrás encontrar los certificados de tus participaciones. Te será otorgado un certificado siempre y cuando hayas quedado en los primeros 10 lugares de la tabla de posiciones privada, y una vez se llegue a la fecha final, se asignan automáticamente. Estos certificados los puedes también compartir en tu Linkedin como “certificates” de forma automática asi:



Haz click en “Add to profile” y aparecerá lo siguiente


Y así podrás compartir tus logros con los reclutadores!

Este es un ejemplo del certificado en PDF




Tu perfil público


También hemos cambiado un poco los perfiles públicos, para ver la participación en las competiciones, y así puedas demostrarlo a los reclutadores ya la comunidad





Actualmente estamos trabajando en otras grandiosas oportunidades dentro de las competiciones, así que ¡espera noticias pronto!
Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!