Predecir el Puntaje de Recencia en Papers de Investigación
Compartir:
USD $2,000

Predecir el Puntaje de Recencia en Papers de Investigación

Image
Descripción

¡[email protected] a nuestro nueva y emocionante competencia!Para este desafío, nos hemos asociado con el Battelle Memorial Institute -uno de los nombres...

Premios
Hay DOS ganadores para esta competición. Se otorgan en base a la clasificación de la tabla de posiciones privada. 1er puesto: USD $1.5002do puesto: USD $500¡Para este concurso queremos dar otro regalo muy especial para el 3º y 4º puesto!Haremos ll...
Competidores
  • Otoniel Sánchez
  • msaid-es
  • Shubhamai-es
  • hark99-es
  • A.L.
  • Muhammad4hmed-es
  • oscar970
150 Competidores Publicada el: 07/01/2021
Premio Total
$2,000
graphical divider

Tabla de Posiciones Pública


Ranking
Data Scientist
País
# Envíos
Último envío
Mejor Puntaje
1
ottobanol-es ottobanol-es Destacado
Mexico
47
Hace 2 meses
0.129871068157291
2
sammy786-es sammy786-es Destacado
India
19
Hace 2 meses
0.1298826714927
3
margeperez-es margeperez-es Destacado
Colombia
25
Hace 2 meses
0.12997125018146
4
Diegonov Diegonov Destacado
Chile
33
Hace cerca de 2 meses
0.130553676070521
5
Amanda Amanda Destacado
Colombia
4
Hace 2 meses
0.132681725419753
6
Hans Hidalgo Alta-es Hans Hidalgo Alta-es Destacado
Peru
36
Hace 3 meses
0.133900643307075
7
edcalderin-es edcalderin-es Destacado
Argentina
25
Hace cerca de 2 meses
0.133927686141685
8
c.olate c.olate
Chile
92
Hace cerca de 2 meses
0.134179987541261
9
Valentino Valentino Destacado
Colombia
3
Hace 3 meses
0.134381296411218
10
felipenunezb felipenunezb Destacado
Chile
10
Hace 3 meses
0.135085005321184
11
Santiago Serna Santiago Serna Destacado
Colombia
17
Hace 3 meses
0.135417679209297
12
jayantsogikar-es jayantsogikar-es Destacado
India
21
Hace 3 meses
0.135717616428963
13
Elizabeth Dominguez Elizabeth Dominguez
Colombia
2
Hace 3 meses
0.135961431282156
14
Pablo Lucero Pablo Lucero Destacado
Ecuador
22
Hace 2 meses
0.13684530739476
15
William Berrios-es William Berrios-es
Peru
2
Hace 4 meses
0.136863276800597
16
Sidereus Sidereus Destacado
Colombia
3
Hace cerca de 2 meses
0.137948248431841
17
kudasov.dm-es kudasov.dm-es
Russian Federation
5
Hace cerca de 2 meses
0.140518083813079
18
rprilepskiy-es rprilepskiy-es
Russian Federation
8
Hace cerca de 2 meses
0.141083277373482
19
Emmy-es Emmy-es
Uganda
9
Hace cerca de 2 meses
0.141575625713195
20
Sean Robinson-es Sean Robinson-es
United Kingdom
3
Hace 4 meses
0.142655453393989
21
María Paula María Paula
Canada
6
Hace 3 meses
0.142901359138741
22
simoncerda simoncerda
Chile
2
Hace 3 meses
0.142914490431918
23
Victor Andres De La Puente Ancco-en Victor Andres De La Puente Ancco-en
Peru
1
Hace cerca de 2 meses
0.143261959115854
24
Luis Salazar Luis Salazar
Colombia
62
Hace cerca de 2 meses
0.143327399881598
25
ESTHER PINILLA ESTHER PINILLA
España
37
Hace cerca de 2 meses
0.143911537956907
26
Johan David Erazo Avila Johan David Erazo Avila
Colombia
14
Hace 3 meses
0.144053885012541
27
diegoethi diegoethi
Chile
1
Hace 3 meses
0.144615069713798
28
Pablo Neira Vergara Pablo Neira Vergara Destacado
Chile
4
Hace 3 meses
0.147770188750051
29
Lautaro Pacella Lautaro Pacella
Argentina
1
Hace 3 meses
0.147794791763907
30
Guillermo Ruiz-es Guillermo Ruiz-es
Peru
2
Hace 4 meses
0.14783199403615
31
Adrian Monsalve Adrian Monsalve
Guatemala
3
Hace 2 meses
0.149116721132589
32
Anurag Maji-es Anurag Maji-es
India
54
Hace 3 meses
0.149716692736577
33
Diego Fernando Rua Diego Fernando Rua
Mexico
2
Hace 4 meses
0.167378124601123
34
Bharathi-es Bharathi-es
India
11
Hace 2 meses
0.217223446743259



Línea de Tiempo

Inicio
2021/07/03
Final
2021/09/03
Completo
2021/09/10

Competition empezó el: 2021/07/03 00:01:00
Competición termina el: 2021/09/03 23:59:00
Límite del Envío Final: 2021/09/10 23:59:00

Esta competición tiene una duración total de 2 meses, dentro de los cuales podrás realizar tus envíos y obtener resultados automáticamente. Una vez finalizada la primera parte de la competición, tendrás una semana para elegir tu mejor modelo y presentarlo para que sea puntuado y considerado para el premio en efectivo. 


Descripción

¡[email protected] a nuestro nueva y emocionante competencia!

Para este desafío, nos hemos asociado con el Battelle Memorial Institute -uno de los nombres más respetados en la comunidad científica y de investigación mundial- para lanzar una competición de Ciencia de Datos que puede ayudar a acelerar drásticamente el ritmo de la innovación global. El objetivo de este proyecto es derribar varias barreras que actualmente se interponen en el camino de los papers de investigación avanzada que se hacen notar y que reciben el rápido reconocimiento de las mentes más brillantes del mundo. Este challenge también ofrecerá premios en efectivo a los autores de los dos mejores modelos ML, según determine el algoritmo de evaluación de nuestra plataforma. Siga leyendo para conocer más detalles y ¡buena suerte!

Acerca de Battelle (battelle.org)


Battelle está resolviendo los retos más urgentes del mundo. Cumplimos cuando otros no pueden. Llevamos a cabo actividades de investigación y desarrollo, gestionamos laboratorios, diseñamos y fabricamos productos y prestamos servicios críticos para nuestros clientes, ya sea una corporación multinacional, una pequeña organización de nueva creación o una agencia gubernamental. Se nos valora por nuestra independencia y capacidad de innovación.

Formamos parte de una comunidad que trabaja para fomentar el descubrimiento de nuevas e interesantes investigaciones en Inteligencia Artificial y Aprendizaje Automático, especialmente en idiomas distintos al inglés. Gran parte de la investigación que se realiza en estos campos está fácilmente disponible en la web a través de sitios como Arxiv.org, pero muchos descubrimientos interesantes están ocurriendo todos los días en diferentes rincones de Internet que pueden tomar tiempo para identificar y llevar a la atención del resto de la comunidad.

Esto es especialmente cierto en el caso de las investigaciones que están en un idioma distinto al inglés, que pueden pasar desapercibidas para gran parte de la comunidad. Nos apasiona encontrar las mejores investigaciones actuales e identificar las tendencias para seguir impulsando la vanguardia. Para seguir en esa dirección, ideamos un problema que intenta medir cuándo se están discutiendo nuevas ideas, en cualquier idioma. Basándonos en una métrica de recencia de palabras clave, ¿cómo podemos identificar cuándo un trabajo de investigación está aportando nuevas ideas para poder aislarlas mejor?

Recencia: Es la propiedad de ser reciente, novedoso, nuevo.

El problema
Los datos son una colección de 42.912 resúmenes de papers recientes, junto con el idioma y el año de publicación. Los abstracts llevan asociadas unas palabras clave dadas por el autor, y se les ha dado una puntuación basada en el número medio de años en que esas palabras clave aparecen en nuestra base de datos. El objetivo de esta competición es construir un modelo que sea capaz de tomar el abstract, el idioma y el año de publicación, y predecir la puntuación de recencia. Estos modelos se puntuarán en función de la precisión de sus predicciones.


Evaluación

La evaluación del modelo se hará usando el RMSLE (Root Mean Squared Logarithmic Error). Lo que hacemos es calcular la Raiz Cuadrada a la métrica MLSE que implementa Scikit-learn.

Si quieres profundizar un poco más sobre la métrica MLSE que calcula Scikit Learn, puedes encontrarla aqui: https://scikit-learn.org/stable/modules/model_evaluation.html#mean-squared-log-error


Donde:

N = Número de filas en el dataset Test.csv

 = valor real

 = valor estimado


Reglas

Reglas de la competencia

  1. El código no debe ser compartido en privado. Cualquier código que se comparta, debe estar disponible para todos los participantes del concurso a través de la plataforma
  2. La solución debe utilizar únicamente bibliotecas de código abierto disponibles públicamente
  3. Si dos soluciones obtienen idéntica puntuación en la tabla de clasificación, el criterio de desempate será la fecha y hora de presentación (ganará la primera solución presentada).
  4. Nos reservamos el derecho de solicitar el código de cualquier usuario en cualquier momento del desafío. Tendrá 72 horas para enviar su código siguiendo las reglas de revisión de código.
  5. Nos reservamos el derecho de actualizar estas reglas en cualquier momento.
  6. Su solución no debe infringir los derechos de ningún tercero y debe estar legalmente autorizado a ceder la propiedad de todos los derechos de autor del código de la solución ganadora al anfitrión/patrocinador del concurso.
  7. Los concursantes pueden inscribirse y presentar soluciones como individuos (no como equipos, al menos por ahora).
  8. Máximo 50 soluciones enviadas por día.

Al final del concurso deberás presentar el modelo completo en formato .ipynb (Jupyter Notebook) - no se aceptarán otros formatos. Normalmente, tendrás 1 semana después de la finalización del concurso para enviarlo a través de nuestro botón "Submit Final Model" - Este modelo nos ayudará a obtener las evaluaciones finales reales, por lo que la clasificación privada podría cambiar cuando se muestre la evaluación privada final.


Hay DOS ganadores para esta competición. Se otorgan en base a la clasificación de la tabla de posiciones privada. 

  • 1er puesto: USD $1.500
  • 2do puesto: USD $500

¡Para este concurso queremos dar otro regalo muy especial para el 3º y 4º puesto!

Haremos llegar a cualquier país y ciudad del mundo este premio! (hecho por https://www.devwear.co/)

* Esta sudadera sirve para hombre o mujer (Unisex)

Escalafón de puntajes

Estas serán las premiaciones una vez finalice la competición:

  • 1st Place: 30.000 pts + USD $1.500
  • 2nd Place: 29.000 pts + USD $500
  • 3rd Place: 28.000 pts + Python Hoodie (Delivery to any city around the world)
  • 4th Place: 27.000 pts + Python Hoodie (Delivery to any city around the world)
  • 5th Place: 26.000 pts 
  • 6th Place: 25.000 pts 
  • 7th Place: 24.000 pts 
  • 8th Place: 23.000 pts
  • 9th Place: 22.000 pts 
  • 10th Place: 21.000 pts

Total Prize: $2,000


Los datos son una colección de 32.184 abstracts de papers recientes, junto con el idioma y el año de publicación. Los abstracts llevan asociadas palabras clave del autor, y se les ha dado una puntuación basada en el número medio de años en que esas palabras clave aparecen en nuestra base de datos. El objetivo de este concurso es construir un modelo que sea capaz de tomar el resumen, el idioma y el año de publicación, y predecir la puntuación de recencia.

Columnas
  • Language: idioma en el que están escritos los artículos
  • Year: año de publicación del artículo
  • Abstract: resumen del artículo
  • Title: título del artículo
Variable objetivo
  • total_rel_score: métrica que calcula la recencia

El total_rel_score fue calculado usando el año del publicacion del paper y el año en que la palabra clave del paper aparecio por primera vez en otro documento. Esencialmente un valor cercano a 1 significa que se trata de un paper reciente (dadas sus palabras clave), y un valor cercano a 0 significa que se trata de un paper no reciente. La tarea es predecir dicho valor para las caracteristicas dadas (Language, Year, Abstract, Title)

Archivo de envio (Submission file)
Para cada "id" del conjunto de pruebas, debe predecir una etiqueta para la variable "total_rel_score". El archivo debe contener una cabecera y tener el siguiente formato

id,total_rel_score
1,0.545714
2,0.635714
3,0.532713
4,0.335710
5,0.135714
6,0.535710
....
10725,0.187
10726,0.225
10727,0.014
10728,0.590

For this competition stage, you need to send your submission file with this details:

# of columns: 2
Column names: id,total_rel_score
# of rows: 10729

This competition is finished


13 Comentarios
  1. Daniel Morales
    Daniel Morales
    cerca de 1 mes ago
    Hola SDG. Una vez tengamos los resultados finales, se mostrara una tabla privada. Saludos
  2. SDG
    SDG
    cerca de 1 mes ago
    Hola. Se mostrará una tabla privada o los scores públicos son los resultados finales?
  3. Daniel Morales
    Daniel Morales
    cerca de 2 meses ago
    Hola Hydroinfmtk, si puedes enviar un modelo diferente, sin embargo debes tener en cuenta que para el modelo final solo tienes una oportunidad final de envio, y debes enviar el Notebook que soporte ese modelo. Porfavor revisa las reglas de la competición. Saludos
  4. Daniel Morales
    Daniel Morales
    cerca de 2 meses ago
    Hi jayantsogikar, thanks for letting us know! we have already fixed and uploaded the proper dataset. Please check and let us know if everything is ok now
  5. jayantsogikar-es
    jayantsogikar-es
    cerca de 2 meses ago
    Could you inform us about what we should do about the 'FinalTest.csv' file as it is similar to the 'SampleSubmission.csv' file present before
  6. Hydroinfmtk
    Hydroinfmtk
    cerca de 2 meses ago
    Una pregunta, el modelo final enviado puede ser diferente a los evaluados en la etapa inicial de la competencia? es decir, se puede enviar un modelo nuevo o es solo una formalidad de envío de uno de los modelos ya rankeados en el ranking público.
  7. Bharathi-es
    Bharathi-es
    2 meses ago
    I'm just curious. Is it impossible to get best results without using advanced models like BERT? I haven't built many NLP models, so just want to know if any of you have got an error less than 0.15 without using BERT or similar transformer based methods? 
  8. Daniel Morales
    Daniel Morales
    2 meses ago
    Hi Bharathi

    Thanks for reaching out to us. We were inspecting the file named: "submission_df (5).csv" and we found a number with scientific notation in line 6.579 (we sent you an email with the evidence) inside your submitted file. Please be aware of this kind of notation, because it contains letters or dashes (1e-04), and that means that these are not numeric values, so the evaluation metric cannot compute a result. 

    If you have any other questions, please let us know 

    Regards!
  9. Bharathi-es
    Bharathi-es
    2 meses ago
    Hi, I am unable to make a submission since I keep getting this error: 
    Error: You have the following error in your submission file:
    
    * Scientific notation: The system does not allow scientific notation values similar or equal to this syntax: '5.54538E+11'
    
    Please make sure your file is correct and run the submission again.
    But there are no scientific notations in my CSV file at all. I have checked it. And have also rounded my decimal values to 7 in pandas. why does this happen? Please help me
  10. ottobanol-es
    ottobanol-es
    4 meses ago
    Personally, I'm trying to use Keras for Bag-of-words. I'll see if I can use other NLP advanced methods like BERT
  11. 5hr3ya5h-es
    5hr3ya5h-es
    4 meses ago
    Which algos are you guys using?
  12. Daniel Morales
    Daniel Morales
    4 meses ago
    Hola Santiago. Gracias por avisarnos. El problema ya fue solucionado. Deberia validar valores negativos y valores nulos automaticamente. El archivo que usted habia enviado, tenia un solo valor negativo, lo cambiamos a positivo y corrimos manualmente la metrica, dando como resultado: 0.13573531711075593 para dicho archivo. Sigue adelante, esperamos verte en los primeros lugares al finalizar la competición! 
  13. Santiago Serna
    Santiago Serna
    4 meses ago
    Hola, hay un problema con la evaluación de la métrica, si hay algún valor negativo da como resultado 0.

¿Tienes algún comentario o pregunta de la competición?
Ingresar para Comentar


Compartir esta competición:

Otras Competiciones

Listo para empezar?

Registra tus datos aquí para iniciar con las competencias, te divertirás, aprenderás y ganarás premios en dinero!

Recibirás una notificación en breve acerca de tu registro exitoso.
deco-ring-1 decoration
deco-dots-3 decoration
Icon

Únete a nuestra comunidad privada en Slack

Manténgase al día participando de ésta gran comunidad de data scientists en latinoamérica. Hablamos sobre competiciones en data science, cómo estamos resolviendo los retos, modelos de machine learning aplicados a las competiciones, técnicas novedosas y mucho más!

 
Te enviaremos el link de invitación a tu email de forma inmediata.
arrow-up icon