Detección De Fraudes Con Tarjetas de Crédito
Compartir:
plus interface icon 10,000pts

Detección De Fraudes Con Tarjetas de Crédito

Image
Descripción

Imagínese que usted se encuentra comprando el último gadget tecnológico de moda en su almacén favorito, dentro de un centro comercial. Cuando va a ...

Premios
Para esta competición queremos entregar, adicional a los 10.000 puntos, un detalle muy especial para el primer puesto!Haremos llegar a cualquier país y ciudad del mundo este premio! (hecho por https://www.devwear.co/)* Este buzo sirve para hombre ...
Competidores
  • alejandrodebus
  • German Lomonos-es
  • KrlosSilva-es
  • subhasree23-es
  • bmaxv-es
  • har1wh0-es
  • Tamás Badics-es
85 Competidores Publicada el: 03/20/2021
Puntos
10,000pts
graphical divider

Tabla de Posiciones Pública


Ranking
Data Scientist
País
# Envíos
Último envío
Mejor Puntaje
1
Adam Michaels Adam Michaels Destacado
United States
15
Hace 3 meses
0.989751155431097
2
Santiago Serna Santiago Serna Destacado
Colombia
9
Hace 3 meses
0.989691603357881
3
Sidereus Sidereus Destacado
Colombia
10
Hace 3 meses
0.98952448478235
4
akashpb13-es akashpb13-es
India
48
Hace 5 meses
0.987657376454394
5
Edwin Espinoza Edwin Espinoza Destacado
Peru
6
Hace 3 meses
0.985292956037899
6
Federico Gutierrez-es Federico Gutierrez-es Destacado
Colombia
2
Hace 4 meses
0.979072511293106
7
Víctor Manuel Cárdenas Víctor Manuel Cárdenas Destacado
Colombia
21
Hace 4 meses
0.976743874303788
8
José Rodríguez Gómez José Rodríguez Gómez
Chile
12
Hace 5 meses
0.975959519305602
9
rc95401-es rc95401-es
United States
3
Hace 4 meses
0.968106441847776
10
atuq atuq
Bolivia, Plurinational State of
1
Hace 5 meses
0.958386200669693
11
Willians Carlos Enciso Melgarejo Willians Carlos Enciso Melgarejo
Peru
8
Hace 6 meses
0.953306671171907
12
Purity Nyagweth Purity Nyagweth Destacado
Kenya
7
Hace 5 meses
0.946400968257441
13
Pablo Lucero Pablo Lucero Destacado
Ecuador
2
Hace 3 meses
0.945967301924052
14
Nikoloide Nikoloide
Argentina
28
Hace 4 meses
0.945470322189325
15
Diego Alexander Rueda Plata Diego Alexander Rueda Plata
Colombia
2
Hace 5 meses
0.941901174593767
16
Alan F Dopfel Alan F Dopfel
United States
22
Hace 5 meses
0.938271649388884
17
ANGEL JORGE SALAZAR ANGEL JORGE SALAZAR
Peru
11
Hace 5 meses
0.935874381337226
18
Julian Armando Abril Luna Julian Armando Abril Luna
Colombia
14
Hace 6 meses
0.935136168126715
19
jguerror jguerror
España
9
Hace 3 meses
0.933588950343571
20
diego_corona diego_corona
Mexico
4
Hace 5 meses
0.926476301788341
21
Cristian Camilo Hidalgo Garcia Cristian Camilo Hidalgo Garcia Destacado
Colombia
8
Hace 5 meses
0.924732552117232
22
Nachos-es Nachos-es
España
3
Hace 4 meses
0.910372430143383
23
Gustavo Dextre Zubieta Gustavo Dextre Zubieta
Peru
5
Hace 6 meses
0.88579159754169
24
Denis Tsitko-es Denis Tsitko-es
Russian Federation
2
Hace 6 meses
0.866085453704499
25
Joaquin Moreno Antuña Joaquin Moreno Antuña Destacado
Uruguay
1
Hace 6 meses
0.8344627639097
26
convergenza-es convergenza-es
United States
4
Hace 3 meses
0.777509562096156
27
johan159097 johan159097
Peru
1
Hace 5 meses
0.767660256854105
28
Christian Farnast Contardo Christian Farnast Contardo
Chile
1
Hace 5 meses
0.5
29
Felipe Perez Felipe Perez
Colombia
7
Hace 3 meses
0.5



Línea de Tiempo

Inicio
2021/03/31
Final
2021/06/20
Completo
2021/06/30

Competition empezó el: 2021/03/31 00:01:00
Competición termina el: 2021/06/20 23:59:00
Límite del Envío Final: 2021/06/30 23:59:00

Esta competición tiene una duración total de 3 meses, dentro de los cuales usted podrá hacer sus envios y obtener resultados de forma automática. Una vez finalice la primera parte de la competición, tendrá una semana para elegir su mejor modelo y enviarlo para que sea calificado y tenido en cuenta en los premios en dinero o en puntos. 

Una vez culminado todo el proceso, se podrán seguir enviando modelos como "Envio tardio" a modo de aprendizaje, ya que, debido a que la competicion oficialmente termino, esos modelos no seran elegibles para ganar premios.


Descripción

Imagínese que usted se encuentra comprando el último gadget tecnológico de moda en su almacén favorito, dentro de un centro comercial. Cuando va a pagar usted entrega su tarjeta de crédito al cajero, y luego este le dice que su tarjeta ha sido declinada, o incluso ha sido cancelada. Se trata de una sospecha de fraude, debido a que, por ejemplo, usted nunca ha hecho una compra de más de $1.500 USD, por tanto la transacción levanta sospechas en el banco y este rechaza la transacción e incluso bloquea su tarjeta de crédito. 

Es una situación que en teoría, permite ahorrar millones de dólares, y de dolores de cabeza, para sus clientes. Sin embargo, cuando este sistema no es acertado genera una mala experiencia con el consumidor, haciéndolo sentirse avergonzado y frustrado, ya que probablemente no finaliza la compra con éxito. 

Los bancos y los proveedores de tarjetas de crédito, deben asegurarse de que sus sistemas son acertados, y de que la detección del fraude es correcta. Ese es el propósito de esta competición, poder mejorar esos sistemas de detección de fraudes con tarjeta de crédito. 


Evaluación

Teniendo en cuenta la proporción de desequilibrio de las clases, el submission se evaluará utilizando el área bajo la curva ROC entre la probabilidad predicha y el objetivo observado.

Esta es la referencia de la metrica que usaremos para la competición: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score

Nota
: estas evaluaciones las realizamos automáticamente contra un dataset de validación privado, pero deberías tomar estas métricas como referencia para tus pruebas de modelado.


Reglas

Reglas de la Competición

  • El código no debe ser compartido en privado. Cualquier código que se comparta, debe estar disponible para todos los participantes de la competición a través de la plataforma
  • La solución debe usar sólo librerías de código abierto disponibles públicamente
  • Si dos soluciones obtienen puntuaciones idénticas en la tabla de clasificación, el desempate será la fecha y la hora en que se hizo la presentación (ganará la primera solución enviada).
  • Nos reservamos el derecho de solicitar el código de cualquier usuario en cualquier momento durante un desafío. Tendrás 48 horas para enviar tu código siguiendo las reglas de revisión de códigos.
  • Nos reservamos el derecho de actualizar estas reglas en cualquier momento.
  • Tu solución no debe infringir los derechos de terceros y debes estar legalmente autorizado para asignar la propiedad de todos los derechos de autor en y para el código de la solución ganadora a DataSource.ai.
  • Los competidores pueden registrarse y presentar soluciones como individuos (no como equipos, al menos por ahora).
  • Como esta es una competencia de aprendizaje, aparte de las reglas de los Términos de Uso de DataSource.ai, no se aplican otras reglas particulares.
  • Máximo 50 soluciones enviadas por día.


Al finalizar la competición, debes enviar el modelo completo en formato .ipynb (Jupyter Notebook) - No se aceptarán otros formatos. Normalmente tendrás 1 semana después de finalizada la competición de enviarlo a travéz de nuestra plataforma en el boton "Enviar Modelo Final" - Este modelo nos servirá para calcular las evaluaciones reales finales, por tanto el Leaderboard Privado podría variar cuando se muestre la evaluación privada final


Para esta competición queremos entregar, adicional a los 10.000 puntos, un detalle muy especial para el primer puesto!

Haremos llegar a cualquier país y ciudad del mundo este premio! (hecho por https://www.devwear.co/)



* Este buzo sirve para hombre y mujer (Unisex)


Escalafón de puntajes

Estas serán las premiaciones una vez finalice la competición:

  • 1er Puesto: 10.000 pts + Buzo Canguro Python (Envío a cualquier ciudad del mundo)
  • 2do Puesto: 9.000 pts 
  • 3er Puesto: 8.000 pts 
  • 4to Puesto: 7.000 pts 
  • 5to Puesto: 6.000 pts 
  • 6to Puesto: 5.000 pts 
  • 7mo Puesto: 4.000 pts 
  • 8vo Puesto: 3.000 pts 
  • 9no Puesto: 2.000 pts 
  • 10mo Puesto: 1.000 pts

Points: 10000pts


El conjunto de datos contiene las transacciones realizadas con tarjetas de crédito en septiembre de 2013 por titulares de tarjetas europeas.

Este conjunto de datos presenta transacciones ocurridas en dos días. El conjunto de datos está muy desequilibrado, la clase positiva (fraudes) representa aproximadamente el 0,172% de todas las transacciones.

Sólo contiene variables numéricas de entrada que son el resultado de una transformación PCA. Lamentablemente, por cuestiones de confidencialidad, no podemos proporcionar las características originales ni más información sobre los datos. Las características V1, V2, ... V28 son los componentes principales obtenidos con PCA, las únicas características que no han sido transformadas con PCA son 'Tiempo' y 'Amount'.

La característica "Tiempo" contiene los segundos transcurridos entre cada transacción y la primera transacción del conjunto de datos. La característica "Amount" es el importe de la transacción; esta característica puede utilizarse para el aprendizaje sensible a los costes en función del ejemplo. La característica "Class" es la variable de respuesta y toma el valor 1 en caso de fraude y 0 en caso contrario.

El conjunto de datos ha sido recopilado y analizado durante una colaboración de investigación de Worldline y el Grupo de Aprendizaje Automático (http://mlg.ulb.ac.be) de la ULB (Universidad Libre de Bruselas) sobre minería de datos y detección de fraudes.

En https://www.researchgate.net/project/Fraud-detection-5 y en la página del proyecto DefeatFraud se pueden encontrar más detalles sobre proyectos actuales y pasados sobre temas relacionados.

Archivo Submission

Para cada "id" del conjunto de pruebas, debe predecir una etiqueta para la variable "clase". El archivo debe contener una cabecera y tener el siguiente formato:

id,class
1,0
2,0
3,0
4,0
5,1
6,0
....
71200,0
71201,0
71202,0

El número total de filas debe ser 71203 (incluida la cabecera)

For this competition stage, you need to send your submission file with this details:

# of columns: 2
Column names: id,class
# of rows: 71203


14 Comentarios
  1. Daniel Morales
    Daniel Morales
    3 meses ago
    Hola Victor, nos agrada mucho escuchar que la plataforma sirva tambien como herramienta de aprendizaje! Acabamos de hacer una modificacion al error de los certificados, porfavor revisa, ya deberia funcionar. Cualquier cosa me avisas, saludos!
  2. Víctor Manuel Cárdenas
    Víctor Manuel Cárdenas
    3 meses ago
    Hola! Muchas gracias por las competencias! es genial lo que uno aprende cuando existen estos retos. Quería consultar si la URL del certificado está bien, porque cuando en LinkedIn se intenta ver genera error 500. 
  3. Daniel Morales
    Daniel Morales
    3 meses ago
    Hi akashpb13, as the competition description said: "Once the first part of the competition is over, you will have one week to choose your best model and submit it to be scored and considered for cash or points prizes." 

    In this case, the regular competition will finish June 20th (public leaderboard). From that date until June 30th you choose your best model, and you'll have just one chance of submission (predictions and Notebook) and that will be the final score (private leaderboard). You can know your own final score. But the score of all other competitors will be realeased after June 30. 

    The purpose of these final processes are:
    • Avoid overfitting. Because during that final week we'll evaluate your final model against another set of real-private data
    • Avoid copy-cat models: you'll need to send your final predictions and Notebook. With that we can replicate your final results and avoid similar models
    • Choose the winner with this scores and Notebooks, and the system will tell us who is the winners
    For more about this, please check out this blog post under "Time of Completion": https://www.datasource.ai/en/data-science-articles/what-s-new-in-datasource-ai

    Cheers!
  4. akashpb13-es
    akashpb13-es
    3 meses ago
    How is the public LB vs private LB split like ?
  5. Sidereus
    Sidereus
    5 meses ago
    Funciona perfectamente con probabilidades. Muchas gracias!
  6. Daniel Morales
    Daniel Morales
    5 meses ago
    Me ha costado 3 horas de mi precioso domingo pero lo he solucionado :) Después de hacer un montón de pruebas nuestro servidor del endpoint de la API no permite archivos grandes, así que cambié el límite. Ahora debería funcionar. Esto sucede porque cuando envías probabilidades, éstas tienen más decimales, multiplicados por más de 71.000 filas, esto sobrecarga el servidor. Esto no cambia nada de la puntuación, es la misma que antes, pero dado el cambio de tamaño del archivo, ahora todos pueden enviar probabilidades y no sólo la etiqueta de predicción. Gracias por comentar este problema. Si tienen más problemas, ¡contacta con nosotros de nuevo! Aquí hay otras consideraciones al respecto: Como se menciona en la descripción del concurso, la métrica que utilizamos para este problema es: roc_auc_score, https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html . Si ves el ejemplo del caso binario, hacen algo así: roc_auc_score(y, clf.predict_proba(X)[:, 1]) En nuestro caso, 'y' es igual a nuestras "etiquetas verdaderas", y el segundo parámetro es lo que envías en tus envíos. Puede ser un predict_proba o números binarios (0 o 1). Esa es nuestra implementación para puntuar los envíos. El sistema de puntuación no cambiará para mantener los envíos anteriores tal y como está
  7. Daniel Morales
    Daniel Morales
    5 meses ago
    It takes me 3 hours of my precious Sunday but I figured it out :) Fater making a lot of testings our API endpoint server doesn't allow large files, so I changed the limit. Now it should be working. This happens because when you send probabilities, they have more decimals, multiplied by more than 71.000 rows, this overloads the server. This doesn't change anything of the score, it's the same as before, but given the change of file size, all of you can now send probabilities and not just the predicted label. Thanks you'll for this enhancement! If you have more issues, please contact us again! Here are some other considerations in this regard: As mentioned in the competition description, the metric we're using for this problem is: roc_auc_score, https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html . If you see the Binary case example, they do something like this: roc_auc_score(y, clf.predict_proba(X)[:, 1]) In our case, 'y' is equal to our "true labels", and the second parameter is what you send in your submissions. It can be a predict_proba or binary numbers (0 or 1). That's our implementation to score submissions. The score system won't change to keep the previous submissions as it is
  8. akashpb13-es
    akashpb13-es
    5 meses ago
    I submitted probabilities only yesterday and the score was attained (however, I had 35 submissions that ended up showing internal error). Also, the scores change drastically if you submit probabilities compared to binary predictions.
  9. Sidereus
    Sidereus
    5 meses ago
    Hola. El problema persiste, cuando intento subir mi archivo con probabilidades predichas el sistema arroja error y cuando someto el archivo con las clases predichas (0 y 1) no hay ningún problema. Ojalá sea factible subir nuestros archivos con probabilidades, porque supongo que todos los que han sometido sus archivos lo han hecho con las clases predichos y me surgen las siguientes inquietudes... ¿Cambiará la puntuación cuando el sistema esté correcto? ¿Cómo está calculando la métrica ROC en este momento? Saludos.
  10. Sidereus
    Sidereus
    5 meses ago
    Muchas gracias akashpb13-es.
  11. akashpb13-es
    akashpb13-es
    5 meses ago
    hola Siderus, Les dije también por correo y lo rectificaron. Ahora podemos enviar probabilidades como resultados (disculpas por mi pobre español, no hablo español ... solo algo de inglés)
  12. Sidereus
    Sidereus
    5 meses ago
    Hola! Creo que la pregunta de akashpb13-es es totalmente válida. Es correcta la métrica ROC para esta competencia? Porque realmente nuestro envío debe tener la clase predicha mas no la probabilidad (de lo contrario el sistema arroja error) y entonces queda la duda de cómo está calculada. En la descripción de la competencia se hace referencia a la probabilidad predicha, pero no es claro por qué el sistema devuelve error al someter probabilidades. Saludos.
  13. akashpb13-es
    akashpb13-es
    5 meses ago
    i am getting internal server error 500 when i submit the results. Since, the metric is roc_auc_score, whenever I am submitting probability of true class, I am always getting an internal error, but when I submit only 0s and 1s subject to some threshold on the probabilities, my result is submitted. Is the leaderboard metric right?? or is there some issue because of which I am not being able to submit my results ?
  14. Felipe Perez
    Felipe Perez
    6 meses ago
    Esta muy interesante el problema a resolver!

¿Tienes algún comentario o pregunta de la competición?
Ingresar para Comentar


Compartir esta competición:

Otras Competiciones

Listo para empezar?

Registra tus datos aquí para iniciar con las competencias, te divertirás, aprenderás y ganarás premios en dinero!

Recibirás una notificación en breve acerca de tu registro exitoso.
deco-ring-1 decoration
deco-dots-3 decoration
Icon

Únete a nuestra comunidad privada en Slack

Manténgase al día participando de ésta gran comunidad de data scientists en latinoamérica. Hablamos sobre competiciones en data science, cómo estamos resolviendo los retos, modelos de machine learning aplicados a las competiciones, técnicas novedosas y mucho más!

 
Te enviaremos el link de invitación a tu email de forma inmediata.
arrow-up icon