Línea de Tiempo
2021/07/03
2021/09/03
2021/09/10
Competition empezó el: 2021/07/03 00:01:00
Competición termina el: 2021/09/03 23:59:00
Límite del Envío Final: 2021/09/10 23:59:00
Descripción
Para este desafío, nos hemos asociado con el Battelle Memorial Institute -uno de los nombres más respetados en la comunidad científica y de investigación mundial- para lanzar una competición de Ciencia de Datos que puede ayudar a acelerar drásticamente el ritmo de la innovación global. El objetivo de este proyecto es derribar varias barreras que actualmente se interponen en el camino de los papers de investigación avanzada que se hacen notar y que reciben el rápido reconocimiento de las mentes más brillantes del mundo. Este challenge también ofrecerá premios en efectivo a los autores de los dos mejores modelos ML, según determine el algoritmo de evaluación de nuestra plataforma. Siga leyendo para conocer más detalles y ¡buena suerte!
Acerca de Battelle (battelle.org)
Formamos parte de una comunidad que trabaja para fomentar el descubrimiento de nuevas e interesantes investigaciones en Inteligencia Artificial y Aprendizaje Automático, especialmente en idiomas distintos al inglés. Gran parte de la investigación que se realiza en estos campos está fácilmente disponible en la web a través de sitios como Arxiv.org, pero muchos descubrimientos interesantes están ocurriendo todos los días en diferentes rincones de Internet que pueden tomar tiempo para identificar y llevar a la atención del resto de la comunidad.
Esto es especialmente cierto en el caso de las investigaciones que están en un idioma distinto al inglés, que pueden pasar desapercibidas para gran parte de la comunidad. Nos apasiona encontrar las mejores investigaciones actuales e identificar las tendencias para seguir impulsando la vanguardia. Para seguir en esa dirección, ideamos un problema que intenta medir cuándo se están discutiendo nuevas ideas, en cualquier idioma. Basándonos en una métrica de recencia de palabras clave, ¿cómo podemos identificar cuándo un trabajo de investigación está aportando nuevas ideas para poder aislarlas mejor?
Recencia: Es la propiedad de ser reciente, novedoso, nuevo.
El problema
Los datos son una colección de 42.912 resúmenes de papers recientes, junto con el idioma y el año de publicación. Los abstracts llevan asociadas unas palabras clave dadas por el autor, y se les ha dado una puntuación basada en el número medio de años en que esas palabras clave aparecen en nuestra base de datos. El objetivo de esta competición es construir un modelo que sea capaz de tomar el abstract, el idioma y el año de publicación, y predecir la puntuación de recencia. Estos modelos se puntuarán en función de la precisión de sus predicciones.
Evaluación
Si quieres profundizar un poco más sobre la métrica MLSE que calcula Scikit Learn, puedes encontrarla aqui: https://scikit-learn.org/stable/modules/model_evaluation.html#mean-squared-log-error
Donde:
N = Número de filas en el dataset Test.csv= valor real
= valor estimado
Reglas
- El código no debe ser compartido en privado. Cualquier código que se comparta, debe estar disponible para todos los participantes del concurso a través de la plataforma
- La solución debe utilizar únicamente bibliotecas de código abierto disponibles públicamente
- Si dos soluciones obtienen idéntica puntuación en la tabla de clasificación, el criterio de desempate será la fecha y hora de presentación (ganará la primera solución presentada).
- Nos reservamos el derecho de solicitar el código de cualquier usuario en cualquier momento del desafío. Tendrá 72 horas para enviar su código siguiendo las reglas de revisión de código.
- Nos reservamos el derecho de actualizar estas reglas en cualquier momento.
- Su solución no debe infringir los derechos de ningún tercero y debe estar legalmente autorizado a ceder la propiedad de todos los derechos de autor del código de la solución ganadora al anfitrión/patrocinador del concurso.
- Los concursantes pueden inscribirse y presentar soluciones como individuos (no como equipos, al menos por ahora).
- Máximo 50 soluciones enviadas por día.
Al final del concurso deberás presentar el modelo completo en formato .ipynb (Jupyter Notebook) - no se aceptarán otros formatos. Normalmente, tendrás 1 semana después de la finalización del concurso para enviarlo a través de nuestro botón "Submit Final Model" - Este modelo nos ayudará a obtener las evaluaciones finales reales, por lo que la clasificación privada podría cambiar cuando se muestre la evaluación privada final.
Thanks for reaching out to us. We were inspecting the file named: "submission_df (5).csv" and we found a number with scientific notation in line 6.579 (we sent you an email with the evidence) inside your submitted file. Please be aware of this kind of notation, because it contains letters or dashes (1e-04), and that means that these are not numeric values, so the evaluation metric cannot compute a result.
If you have any other questions, please let us know
Regards!