Predecir el Puntaje de Recencia en Papers de Investigación
Compartir:
USD $2,000

Predecir el Puntaje de Recencia en Papers de Investigación

Image
Descripción

¡[email protected] a nuestro nueva y emocionante competencia!Para este desafío, nos hemos asociado con el Battelle Memorial Institute -uno de los nombres...

Premios
Hay DOS ganadores para esta competición. Se otorgan en base a la clasificación de la tabla de posiciones privada. 1er puesto: USD $1.5002do puesto: USD $500¡Para este concurso queremos dar otro regalo muy especial para el 3º y 4º puesto!Haremos ll...
Competidores
  • Choonghwan Lee-es
  • MatiSepul
  • EugeniaP
  • Pranjali-es
  • StalinJavier04
  • BrandonV
116 Competidores Publicada el: 07/01/2021
Premio Total
$2,000
graphical divider

Tabla de Posiciones Pública


Ranking
Data Scientist
País
# Envíos
Último envío
Mejor Puntaje
1
margeperez-es margeperez-es
Colombia
22
Hace 4 días
0.130017241019823
2
Diegonov Diegonov
Chile
14
Hace 10 días
0.130941730370718
3
ottobanol-es ottobanol-es
Mexico
39
Hace 4 días
0.133712701929298
4
Hans Hidalgo Alta-es Hans Hidalgo Alta-es Destacado
Peru
36
Hace 21 días
0.133900643307075
5
c.olate c.olate
Chile
80
Hace 8 días
0.134179987541261
6
Valentino Valentino
Colombia
3
Hace 4 días
0.134381296411218
7
sammy786-es sammy786-es
India
3
Hace 9 días
0.134393177559309
8
felipenunezb felipenunezb
Chile
7
Hace 2 días
0.135304985870311
9
Santiago Serna Santiago Serna Destacado
Colombia
17
Hace 8 días
0.135417679209297
10
Elizabeth Elizabeth
Colombia
2
Hace 4 días
0.135961431282156
11
jayantsogikar-es jayantsogikar-es
India
19
Hace 9 días
0.135970524477256
12
William Berrios-es William Berrios-es
Peru
2
Hace 30 días
0.136863276800597
13
Pablo Lucero Pablo Lucero Destacado
Ecuador
20
Hace 7 días
0.139878418045267
14
Sean Robinson-es Sean Robinson-es
United Kingdom
3
Hace 30 días
0.142655453393989
15
María Paula María Paula
Colombia
6
Hace 4 días
0.142901359138741
16
simoncerda simoncerda
Chile
2
Hace 7 días
0.142914490431918
17
Luis Salazar Luis Salazar
Colombia
46
Hace 1 día
0.143327399881598
18
Johan David Erazo Avila Johan David Erazo Avila
Colombia
14
Hace 15 días
0.144053885012541
19
diegoethi diegoethi
Chile
1
Hace 19 días
0.144615069713798
20
ESTHER PINILLA ESTHER PINILLA
España
9
Hace 16 días
0.144830576627327
21
Pablo Neira Vergara Pablo Neira Vergara Destacado
Chile
4
Hace 16 días
0.147770188750051
22
Lautaro Pacella Lautaro Pacella
Argentina
1
Hace 18 días
0.147794791763907
23
Guillermo Ruiz-es Guillermo Ruiz-es
Peru
2
Hace 24 días
0.14783199403615
24
Anurag Maji-es Anurag Maji-es
India
54
Hace 16 días
0.149716692736577
25
Diego Fernando Rua Diego Fernando Rua
Mexico
2
Hace 27 días
0.167378124601123



Línea de Tiempo

Inicio
2021/07/03
Final
2021/09/03
Completo
2021/09/10

Competition empezó el: 2021/07/03 00:01:00
Competición termina el: 2021/09/03 23:59:00
Límite del Envío Final: 2021/09/10 23:59:00

Esta competición tiene una duración total de 2 meses, dentro de los cuales podrás realizar tus envíos y obtener resultados automáticamente. Una vez finalizada la primera parte de la competición, tendrás una semana para elegir tu mejor modelo y presentarlo para que sea puntuado y considerado para el premio en efectivo. 


Descripción

¡[email protected] a nuestro nueva y emocionante competencia!

Para este desafío, nos hemos asociado con el Battelle Memorial Institute -uno de los nombres más respetados en la comunidad científica y de investigación mundial- para lanzar una competición de Ciencia de Datos que puede ayudar a acelerar drásticamente el ritmo de la innovación global. El objetivo de este proyecto es derribar varias barreras que actualmente se interponen en el camino de los papers de investigación avanzada que se hacen notar y que reciben el rápido reconocimiento de las mentes más brillantes del mundo. Este challenge también ofrecerá premios en efectivo a los autores de los dos mejores modelos ML, según determine el algoritmo de evaluación de nuestra plataforma. Siga leyendo para conocer más detalles y ¡buena suerte!

Acerca de Battelle (battelle.org)


Battelle está resolviendo los retos más urgentes del mundo. Cumplimos cuando otros no pueden. Llevamos a cabo actividades de investigación y desarrollo, gestionamos laboratorios, diseñamos y fabricamos productos y prestamos servicios críticos para nuestros clientes, ya sea una corporación multinacional, una pequeña organización de nueva creación o una agencia gubernamental. Se nos valora por nuestra independencia y capacidad de innovación.

Formamos parte de una comunidad que trabaja para fomentar el descubrimiento de nuevas e interesantes investigaciones en Inteligencia Artificial y Aprendizaje Automático, especialmente en idiomas distintos al inglés. Gran parte de la investigación que se realiza en estos campos está fácilmente disponible en la web a través de sitios como Arxiv.org, pero muchos descubrimientos interesantes están ocurriendo todos los días en diferentes rincones de Internet que pueden tomar tiempo para identificar y llevar a la atención del resto de la comunidad.

Esto es especialmente cierto en el caso de las investigaciones que están en un idioma distinto al inglés, que pueden pasar desapercibidas para gran parte de la comunidad. Nos apasiona encontrar las mejores investigaciones actuales e identificar las tendencias para seguir impulsando la vanguardia. Para seguir en esa dirección, ideamos un problema que intenta medir cuándo se están discutiendo nuevas ideas, en cualquier idioma. Basándonos en una métrica de recencia de palabras clave, ¿cómo podemos identificar cuándo un trabajo de investigación está aportando nuevas ideas para poder aislarlas mejor?

Recencia: Es la propiedad de ser reciente, novedoso, nuevo.

El problema
Los datos son una colección de 42.912 resúmenes de papers recientes, junto con el idioma y el año de publicación. Los abstracts llevan asociadas unas palabras clave dadas por el autor, y se les ha dado una puntuación basada en el número medio de años en que esas palabras clave aparecen en nuestra base de datos. El objetivo de esta competición es construir un modelo que sea capaz de tomar el abstract, el idioma y el año de publicación, y predecir la puntuación de recencia. Estos modelos se puntuarán en función de la precisión de sus predicciones.


Evaluación

La evaluación del modelo se hará usando el RMSLE (Root Mean Squared Logarithmic Error). Lo que hacemos es calcular la Raiz Cuadrada a la métrica MLSE que implementa Scikit-learn.

Si quieres profundizar un poco más sobre la métrica MLSE que calcula Scikit Learn, puedes encontrarla aqui: https://scikit-learn.org/stable/modules/model_evaluation.html#mean-squared-log-error


Donde:

N = Número de filas en el dataset Test.csv

 = valor real

 = valor estimado


Reglas

Reglas de la competencia

  1. El código no debe ser compartido en privado. Cualquier código que se comparta, debe estar disponible para todos los participantes del concurso a través de la plataforma
  2. La solución debe utilizar únicamente bibliotecas de código abierto disponibles públicamente
  3. Si dos soluciones obtienen idéntica puntuación en la tabla de clasificación, el criterio de desempate será la fecha y hora de presentación (ganará la primera solución presentada).
  4. Nos reservamos el derecho de solicitar el código de cualquier usuario en cualquier momento del desafío. Tendrá 72 horas para enviar su código siguiendo las reglas de revisión de código.
  5. Nos reservamos el derecho de actualizar estas reglas en cualquier momento.
  6. Su solución no debe infringir los derechos de ningún tercero y debe estar legalmente autorizado a ceder la propiedad de todos los derechos de autor del código de la solución ganadora al anfitrión/patrocinador del concurso.
  7. Los concursantes pueden inscribirse y presentar soluciones como individuos (no como equipos, al menos por ahora).
  8. Aparte de las normas de las condiciones de uso de DataSource.ai, se aplicarán las normas generales del concurso y las normas sobre requisitos de código.
  9. Máximo 50 soluciones enviadas por día.
  10. La intención de los modelos ganadores y las puntuaciones será publicarlo en el sitio web Neuralberry.org

Al final del concurso deberás presentar el modelo completo en formato .ipynb (Jupyter Notebook) - no se aceptarán otros formatos. Normalmente, tendrás 1 semana después de la finalización del concurso para enviarlo a través de nuestro botón "Submit Final Model" - Este modelo nos ayudará a obtener las evaluaciones finales reales, por lo que la clasificación privada podría cambiar cuando se muestre la evaluación privada final.

Además, si estás en el top 5 de los finalistas, tienes que
cumplir con los requisitos de este código para ser elegible para ganar el premio en efectivo.


Hay DOS ganadores para esta competición. Se otorgan en base a la clasificación de la tabla de posiciones privada. 

  • 1er puesto: USD $1.500
  • 2do puesto: USD $500

¡Para este concurso queremos dar otro regalo muy especial para el 3º y 4º puesto!

Haremos llegar a cualquier país y ciudad del mundo este premio! (hecho por https://www.devwear.co/)

* Esta sudadera sirve para hombre o mujer (Unisex)

Escalafón de puntajes

Estas serán las premiaciones una vez finalice la competición:

  • 1st Place: 30.000 pts + USD $1.500
  • 2nd Place: 29.000 pts + USD $500
  • 3rd Place: 28.000 pts + Python Hoodie (Delivery to any city around the world)
  • 4th Place: 27.000 pts + Python Hoodie (Delivery to any city around the world)
  • 5th Place: 26.000 pts 
  • 6th Place: 25.000 pts 
  • 7th Place: 24.000 pts 
  • 8th Place: 23.000 pts
  • 9th Place: 22.000 pts 
  • 10th Place: 21.000 pts

Total Prize: $2,000


Los datos son una colección de 32.184 abstracts de papers recientes, junto con el idioma y el año de publicación. Los abstracts llevan asociadas palabras clave del autor, y se les ha dado una puntuación basada en el número medio de años en que esas palabras clave aparecen en nuestra base de datos. El objetivo de este concurso es construir un modelo que sea capaz de tomar el resumen, el idioma y el año de publicación, y predecir la puntuación de recencia.

Columnas
  • Language: idioma en el que están escritos los artículos
  • Year: año de publicación del artículo
  • Abstract: resumen del artículo
  • Title: título del artículo
Variable objetivo
  • total_rel_score: métrica que calcula la recencia

El total_rel_score fue calculado usando el año del publicacion del paper y el año en que la palabra clave del paper aparecio por primera vez en otro documento. Esencialmente un valor cercano a 1 significa que se trata de un paper reciente (dadas sus palabras clave), y un valor cercano a 0 significa que se trata de un paper no reciente. La tarea es predecir dicho valor para las caracteristicas dadas (Language, Year, Abstract, Title)

Archivo de envio (Submission file)
Para cada "id" del conjunto de pruebas, debe predecir una etiqueta para la variable "total_rel_score". El archivo debe contener una cabecera y tener el siguiente formato

id,total_rel_score
1,0.545714
2,0.635714
3,0.532713
4,0.335710
5,0.135714
6,0.535710
....
10725,0.187
10726,0.225
10727,0.014
10728,0.590

For this competition stage, you need to send your submission file with this details:

# of columns: 2
Column names: id,total_rel_score
# of rows: 10729


4 Comentarios
  1. ottobanol-es
    ottobanol-es
    25 días ago
    Personally, I'm trying to use Keras for Bag-of-words. I'll see if I can use other NLP advanced methods like BERT
  2. 5hr3ya5h-es
    5hr3ya5h-es
    25 días ago
    Which algos are you guys using?
  3. Daniel Morales
    Daniel Morales
    29 días ago
    Hola Santiago. Gracias por avisarnos. El problema ya fue solucionado. Deberia validar valores negativos y valores nulos automaticamente. El archivo que usted habia enviado, tenia un solo valor negativo, lo cambiamos a positivo y corrimos manualmente la metrica, dando como resultado: 0.13573531711075593 para dicho archivo. Sigue adelante, esperamos verte en los primeros lugares al finalizar la competición! 
  4. Santiago Serna
    Santiago Serna
    29 días ago
    Hola, hay un problema con la evaluación de la métrica, si hay algún valor negativo da como resultado 0.

¿Tienes algún comentario o pregunta de la competición?
Ingresar para Comentar


Compartir esta competición:

Otras Competiciones

Listo para empezar?

Registra tus datos aquí para iniciar con las competencias, te divertirás, aprenderás y ganarás premios en dinero!

Recibirás una notificación en breve acerca de tu registro exitoso.
deco-ring-1 decoration
deco-dots-3 decoration

Gana USD $2,000 en premios en efectivo con nuestra competición en data science!

🎉 Envios de modelos para la competición "Predecir el Puntaje de Recencia en Papers de Investigación" terminará en

arrow-up icon