Como ya es costumbre, nos hemos dado a la tarea de entrevistar a los ganadores de la competencia Prediciendo El Rating De Las Aplicaciones En Google Play Store que finalizó hace apenas unos dias, teniendo como ganador a Edimer "Siderus" de Colombia y con un puntaje de 0.698709403908066 y quien se ha convertido en el #1 de nuestra tabla de posiciones general, contando las 5 competiciones que hemos desarrollado hasta el momento.

El objetivo de esta competencia era analizar y clasificar el rating de las aplicaciones móviles en el mercado Android de Google Play Store. La evaluación del modelo se dió usando el F1 score, esto es debido a que la cantidad de datos en ambas clases no era simétrica. Como trabajamos con un dataset imbalanceado, el objetivo era optimizar el modelo para que clasificara adecuadamente ambas clases y maximizara la precisión de la clasificación, especialmente de la clase con minoría de datos.

Para esta competición contamos con un record de participantes, con 135 personas que se unieron y donde evaluamos un total de 1.497 modelos. Muchas gracias a los participantes, y los invitamos a que participen de la nueva competición llamada "Predicción De La Intención De Compra En Una Página Web"

Demos paso a los primeros puestos de la competición y a las respuestas que nos dieron para la entrevista, aprendamos de ellos!

Puesto #1 - Siderus - Colombia

P: En terminos generales como abordaste el problema planteado en la competición?
R: En principio traté de concebir de manera correcta el problema, familiarizándome con la base de datos. Después invertí gran parte del tiempo en construir gráficos, tratando de encontrar patrones subyacentes en los datos o atipicidades que permitieran tomar decisiones objetivas. Finalmente ajusté tres modelos que me sirvieron como línea base para comparar si las nuevas ideas (o algoritmos) brindaban mejor rendimiento respecto a estos resultados iniciales.

P: Para esta competencia en particular, tenías alguna experiencia previa en este campo
R: No, ninguna. Mi campo de acción son las ciencias agropecuarias.

P: Que resultados/conclusiones importantes encontraste en la exploración de los datos? Con que retos tuviste que lidiar?
R: Varios resultados me llamaron la atención, por ejemplo, una aplicación que tiene muchos reviews no necesariamente es exitosa, no obstante, la tasa (rate) entre el número de instalaciones y los reviews resultó ser para mis modelos la variable más importante. Encontré interesante que las aplicaciones gratis (free) tuviesen mayor predisposición a no ser exitosas, también parece que a las personas les gusta que las apps se actualicen constantemente y que sean de tamaños bajos. En lo personal, creo que el problema más grande es que las clases eran imbalanceadas, afortunadamente existen herramientas que haciendo uso del muestreo con reemplazo nos permiten trabajar con este tipo de información.

P: En términos generales, ¿Que procesamiento de los datos y feature engineering hiciste para esta competición?
R: Como preprocesamiento utilicé imputación de valores ausentes a través del algoritmo k vecinos más cercanos, para el perceptrón multicapa estandaricé las variables numéricas y las transformé con la transformación Yeo-Johnson; en algoritmos basados en árboles (XGBoost, LightGBM o Catboost) sólo imputé los datos. En todos los algoritmos utilicé muestreo ascendente para balancear las clases.

P: Que algoritmos de Machine Learning usaste para la competición?
R: Probé muchos, Naive Bayes, KNN, modelos lineales generalizados con regularización, percentrón multicapa con keras, Support Vector Machine con kernel radial, Random Forest, XGBoost, LightGBM, Catboost, entre otros.

P: Cual fue el algortimo de Machine Learning que te dio el mejor puntaje y porqué crees que funcionó mejor que los demás?
R: Los tres algoritmos de mayor puntaje fueron LightGBM, Catboost y Perceptrón Multicapa, el ensamble de los tres proporcionó mejores resultados.

P: Que librerias usaste para esta competición en particular?
R: Todo mi trabajo fue con R, haciendo uso del tidyverse y tidymodels como bibliotecas principales. También usé lightgbm, catboost y treesnip. La biblioteca themis fue de mucha utilidad para el muestreo ascendente.

P: Cuantos años de experiencia tienes en Data Science y dónde trabajas actualmente?
R: Trabajo con datos hace 5 años aproximadamente, principalmente en el diseño y análisis estadístico de experimentos agropecuarios.

P: Que consejos le darías a quienes no tuvieron tan buenos puntajes en la competición?
R: Que exploren mucho los datos, que inviertan mucho tiempo en la visualización, entender el problema creo que es la parte fundamental de cualquier proyecto basado en datos.

Puesto #2 - Pablo Lucero - Ecuador

P: En terminos generales como abordaste el problema planteado en la competición?
R: Primero realice un análisis exploratorio básico, luego elabore una línea base para tener algo en que basarme. Posteriormente, realice una extracción de atributos y luego generé nuevos. Para el modelado he probando diferentes algoritmos, los mejores resultados los encontre en los métodos basados en árboles, siendo estos los que optimice para mejorar el puntaje final.

P: Para esta competencia en particular, tenías alguna experiencia previa en este campo?
R: Si, en mi trabajo anterior tuve la oportunidad de abordar temas similares.

P: Que resultados/conclusiones importantes encontraste en la exploración de los datos? Con que retos tuviste que lidiar?
R: Pues algo muy rápido, las aplicaciones gratuitas son las mas demandas, la mayoria de aplicaciones exitosas tienen soportan como mínimo la versión 4.1. La cateogoría Eceryone es la que dispone de más aplicaciones en el mercado.
Uno de los retos, fue la generación de nuevos atributos. Creo que esa fue la clave para llegar a las primeras posiciones.

P: En términos generales, ¿Que procesamiento de los datos y feature engineering hiciste para esta competición?
R: De forma general para el procesamiento de datos realice una limpieza de los atributos tipo texto para convertir a valores númericos (Price, Installs, last update, etc), retiré simbolos o demás caracteres que no sean necesarios (Current Ver).

En cuanto a la parte de ingeniería de atributos, esta se baso en la obtención de nuevos atributos a partir de la relación que puede existir entre el atributo App con el resto. Por ejemplo, la cantidad de palabras en el título de la App o si aparece una palabra de Category en el título de la App. Esto permitio obtener unos 20 atributos bases. También se implemento una transformación logarítmica para mejorar la distribución de ciertos atributos.
Luego se aplicó programación genética para obtener al rededor de 40 nuevos atributos, dando un conjunto de 60 total.

P: Que algoritmos de Machine Learning usaste para la competición?
R: Probe diferenes, desde SVM, RF, MLP, LightGBM, XGBoost y Catboost.

P: Cual fue el algortimo de Machine Learning que te dio el mejor puntaje y porqué crees que funcionó mejor que los demás?
R: De todos el que mejor resultados me dio fue LightGBM así que en este decidí optimizar los parámetros para la ronda final.

P: Que librerias usaste para esta competición en particular?
R: Una para programación genética que se llama gplearn.

P: Cuantos años de experiencia tienes en Data Science y dónde trabajas actualmente?
R: Tengo 5 años de experiencia. Actualmente laboro en una empresa de manufactura en el área de proyectos, liderando temas de Industria 4.0.

P: Que consejos le darías a quienes no tuvieron tan buenos puntajes en la competición?
R: Revisar documentación en línea sobre problemas similares, eso ayuda a mejor el panorama del problema. (No debemos inventar la rueda).

Puesto #3 - Fernando Chica - Ecuador

P: En terminos generales como abordaste el problema planteado en la competición?
R: En principio, realice un análisis exploratorio de los datos para identificar las características de los datos, a partir de ahí postular posibles técnicas de extracción de características y modelos de clasificación.

P: Para esta competencia en particular, tenías alguna experiencia previa en este campo?
R: En el análisis de datos si, pero para este problema particular de predecir el puntaje (ratings) de aplicaciones no.

P: Que resultados/conclusiones importantes encontraste en la exploración de los datos? Con que retos tuviste que lidiar?
R: Lo primero que se puede notar es el hecho de que la mayoría de variables son categóricas, por lo que al inicio ya se debía pensar que tipos de transformación se podría aplicar para transformarlas a variables numéricas. Esto debido a que no todos los modelos permiten trabajar con variables categóricas. Por otra parte, el principal problema de esta base de datos (incluso se lo menciona en la descripción del reto) es el hecho de que la cantidad de datos de cada clase no es la misma, es decir, es un set de datos desbalanceado. En ese sentido, el reto era seleccionar el modelo o el proceso a seguir para abordar este problema y evitar que exista un sobre entrenamiento.

P: En términos generales, ¿Que procesamiento de los datos y feature engineering hiciste para esta competición?
R: Transformación de variables categóricas a numéricas utilizando, luego realice pruebas de balanceo de datos; duplicando los datos de la clase con menos observaciones, eliminando datos de la clase con más observaciones y creando datos sintéticos (hasta balancear los datos) de la clase con menos observaciones. Pero no existió una mejora significativa del rendimiento de los modelos que se probaron. Por lo que, el balanceo de datos no se utilizó en el modelo final.

P: Que algoritmos de Machine Learning usaste para la competición?
R: Perceptron multicapa, regresión lineal, árboles de decisión, XGboost, Light GBM, random forest y Bagging.

P: Cual fue el algortimo de Machine Learning que te dio el mejor puntaje y porqué crees que funcionó mejor que los demás?
R: El que mejor puntaje me dio fue el de Bagging, utilizando árboles de decisión como modelos base. Pienso que, funciono mejor debido al procesamiento de datos que realice, además con Bagging también se puede elegir que importancia se le da a cada clase durante el entrenamiento y al ser datos desbalanceados permite realizar una regularización al modelo y prevenir el sobre entrenamiento (overffiting).

P: Que librerias usaste para esta competición en particular?
R: Una gran variedad de librerías, pero de una forma general: Sklearn, numpy, pandas, matplotlib, seaborn, imblearn,datetime y keras.

P: Cuantos años de experiencia tienes en Data Science y dónde trabajas actualmente?
R: Tengo alrededor de 4 años de experiencia en Data Science y actualmente trabajo como investigador en una universidad en el campo de la inteligencia artificial aplicada.

P: Que consejos le darías a quienes no tuvieron tan buenos puntajes en la competición?
R: Tener mucha curiosidad de lo que esconden los datos, tomar en cuenta estrategias que pueden parecer absurdas y ver más allá de lo que los datos muestran a primera impresión.

Puesto #4 - Nicolás Dominutti - Argentina

P: En terminos generales como abordaste el problema planteado en la competición?
R: Luego del EDA, apliqué un pipeline de preprocesamiento para poder obtener datos valiosos de las variables. Luego me concentré en generar nuevas variables que brindaran otra perspectiva a los datos originales previo a ingresar a la etapa de model selection.

P: Para esta competencia en particular, tenías alguna experiencia previa en este campo?
R: Esta es la 1ra compentencia oficial en la que participo, previamente realizé bootcamps y me concentré en proyectos personales de ML

P: Que resultados/conclusiones importantes encontraste en la exploración de los datos? Con que retos tuviste que lidiar?
R: Del EDA surgió que el dataset estaba áltamente desbalanceado y constaba de variables muy dispares y desordenadas que demandaron un pipeline de procesamiento de datos interesante. Por otro lado, de este análisis también asomaron insights que permitieron generar nuevas variables que aporten valor (ejemplo: las APPS con 0 reviews tendían a tener un rating alto casi por unanimidad)

P: En términos generales, ¿Que procesamiento de los datos y feature engineering hiciste para esta competición?
R: Se aplicaron técnicas como: extracción de datos reelevantes vía regex, creación de nuevas variables, encoding de features tratadas como categóricas y estandarización de variables numéricas (para algoritmos que lo necesiten, en el algoritmo ganador, al ser un xgboost, no se utilizó). Como punto interesante, al tener un dataset desbalanceado, opté por realizar un oversampling random sobre la clase menos representada

P: Que algoritmos de Machine Learning usaste para la competición?
R: Hice pruebas con Logistic Regression, SVM, Random Forest, Catboost y Xgboost

P: Cual fue el algortimo de Machine Learning que te dio el mejor puntaje y porqué crees que funcionó mejor que los demás?
R: No es sorprendente que el mejor puntaje lo haya obtenido con el XGBOOST, un algoritmo ya consolidado en las competencias a nivel mundial. Esta es una librería súmamente potente que se basa en la utilización de boosting, lo que permite obtener scores interesantes

P: Que librerias usaste para esta competición en particular?
R: re, numpy, pandas, sklearn, catboost y xgboost

P: Cuantos años de experiencia tienes en Data Science y dónde trabajas actualmente?
R: Tengo 2 años de haber arrancado con los primeros cursos de Data Science. Actualmente trabajo en Johnson & Johnson.

P: Que consejos le darías a quienes no tuvieron tan buenos puntajes en la competición?
R: Dedicar tiempo en entender el dominio del problema en detalle, hacerse preguntas sobre los por qué de la industria y lograr plasmar las respuestas e insights en el dataset

Puesto #5 - Fernando Cifuentes - Colombia

P: En terminos generales como abordaste el problema planteado en la competición?
R: Primero fue entender el problema, entender las variables y sobre todo un buen trabajo de limpieza sobre estas ya que era difícil trabajarlas tal como venían, después creé nuevas variables, luego de esto optimicé hiperparametros en mis modelos para finalmente hacer la predicción.

P: Para esta competencia en particular, tenías alguna experiencia previa en este campo?
R: Tengo experiencia en modelos de clasificación en los cuales he trabajado en los últimos años.

P: Que resultados/conclusiones importantes encontraste en la exploración de los datos? Con que retos tuviste que lidiar?
R: Para este caso resultó un reto trabajar con la variable de la versión ya que no correspondía propiamente a un numero decimal, ejemplo 8.1.1.

También para la versión de Android en la que indicaba que variaba dependiendo la versión se concluye que no es posible trabajar estas variables directamente si no que debía hacerse un buen trabajo de limpieza antes de ingresarlo al Modelo.

Adicional a esto me di cuenta que los datos estaban desbalanceados por que lo tuve que utilizar un algoritmo de SMOTE para tener una base balanceada por oversampling.

P: En términos generales, ¿Que procesamiento de los datos y feature engineering hiciste para esta competición?
R: Por ejemplo para la versión tomé solo hasta su segundo nivel, ejemplo 8.1

En la fecha de actualización tomé la máxima fecha de actualización en la base y sobre esa fecha calculé los meses que las demás aplicaciones llevaban sin actualizar.

Para la versión de Android realicé imputación de los datos para poder tener un aproximado sobre la versión Android en la que trabajaba en los casos en los que
no especificaba una versión.

También creé una nueva variable la cual llamo ratio de valoraciones correspondiente al numero de comentarios sobre el número de descargas la cual fue mi variable mas importante en mi modelo de clasificación.

P: Que algoritmos de Machine Learning usaste para la competición?
R: Utilice 3 modelos Random Forest, Xgboost, Lightgbm

P: Cual fue el algortimo de Machine Learning que te dio el mejor puntaje y porqué crees que funcionó mejor que los demás?
R: Un modelo de ensamble por votación de los tres modelos mencionados anterior mente, considero que obtuvo el mejor resultado ya que a nivel macro cada modelo tenia métricas muy parecidas sin embargo a nivel individual las predicciones variaban para algunos registros, por lo cual el ensamble hacía un "consenso" entre los tres modelos.

P: Que librerias usaste para esta competición en particular?
R: Las principales librerias utilizadas fueron: pandas, sklearn, xgboost , lightgbm

P: Cuantos años de experiencia tienes en Data Science y dónde trabajas actualmente?
R: Actualmente trabajo en un Banco y específicamente trabajando en elaboración de modelos cerca de tres años.

P: Que consejos le darías a quienes no tuvieron tan buenos puntajes en la competición?
R: Que no se desanimen, todos comenzamos así y sigan participando en competencias y leyendo foros que es donde más se ayuda para mejorar en los resultados.

Puesto #6 - David Villabón - Colombia

P: En terminos generales como abordaste el problema planteado en la competición?
R: Lo primero que realicé con el set de datos fue transformar las variables que se suponían eran numéricas, posteriormente feature engineering, luego ensayo de modelos en crudo evaluando su puntaje "f1" y por ultimo la mejora del modelo seleccionado!

P: Para esta competencia en particular, tenías alguna experiencia previa en este campo?
R: No, pero con la exploración y entendimiento de los datos llegue a obtener información del campo.

P: Que resultados/conclusiones importantes encontraste en la exploración de los datos? Con que retos tuviste que lidiar?
R: Evidentemente en la exploración de los datos se encontró un desbalanceo considerable en el objetivo "Rating" la cual fue un reto para obtener buenos resultados.

P: En términos generales, ¿Que procesamiento de los datos y feature engineering hiciste para esta competición?
R: Después de transformar los datos que supuse eran numéricos y que no lo estaban, procedí a la codificación de las variables categóricas, luego de esto, remover outliers, escalamiento de los datos, selección de variables y por ultimo técnicas para balancear la variable objetivo..

P: Que algoritmos de Machine Learning usaste para la competición?
R: Realice pruebas con LogisticRegression, Perceptron, RandomForestClassifier, knn,
XGBoost, LightGBM, RUSBoostClassifier, AdaBoostClassifier.

P: Cual fue el algortimo de Machine Learning que te dio el mejor puntaje y porqué crees que funcionó mejor que los demás?
R: Opte por RUSBoostClassifier, ya que este no presentaba sobreajuste.

P: Que librerias usaste para esta competición en particular?
R: Utilicé Pandas, Numpy, matplotlib, Sklearn, Imblearn, xgboost.

P: Cuantos años de experiencia tienes en Data Science y dónde trabajas actualmente?
R: Llevó estudiando ciencia de datos desde hace un par de años, actualmente mi trabajo no está relacionado con Data Science.

P: Que consejos le darías a quienes no tuvieron tan buenos puntajes en la competición?
R: Es fundamental entender el conjunto de datos, escudriñar los datos, saber seleccionar el modelo final. Creo es parte de los aspectos para obtener buenos resultados.

Puesto #9 - James Valencia - Perú

P: En terminos generales como abordaste el problema planteado en la competición?
R: Realicé los pasos descritos en la metodología CRISP-DM. Para afrontar el problema particular del target desbalanceado dividí en tres particiones el train para entrenar un modelo de boosting distinto para cada partición y obtener la predicción final evaluando las tres predicciones obtenidas por cada modelo.

P: Para esta competencia en particular, tenías alguna experiencia previa en este campo?
R: Participé en la anterior competencia de DataSourceAI y también en algunas competencias en Kaggle.

P: Que resultados/conclusiones importantes encontraste en la exploración de los datos? Con que retos tuviste que lidiar?
R: El Preprocesamiento de los datos era necesario para obtener datos numéricos que permitan identificar el impacto sobre el target. Además tuve que investigar sobre un método de evaluación enfocada en target desbalanceado: ensamble de modelos.

P: En términos generales, ¿Que procesamiento de los datos y feature engineering hiciste para esta competición?
R: Utilicé método regex para retirar caracteres como M (millón), $ (dólar), etc. Además para el Encoding de variables categóricas me enfoqué en el promedio del target asociada a cada categoría según la columna analizada.

P: Que algoritmos de Machine Learning usaste para la competición?
R: Tres modelos de Boosting: Catboost, XGboost; LightGBM.

P: Cual fue el algortimo de Machine Learning que te dio el mejor puntaje y porqué crees que funcionó mejor que los demás?
R: El modelo de LightGBM porque es un modelo más optimizado y funciona bien con gran cantidad de datos previamente procesados.

P: Que librerias usaste para esta competición en particular?
R: Las clásicas librerías para preprocesamiento: pandas, scikit-learn, matplotlib, metrics, entre otros. Además de algunas particulares para los modelos de boosting : catboost, XGBoost Classifier, lightgbm.

P: Cuantos años de experiencia tienes en Data Science y dónde trabajas actualmente?
R: Tengo dos años de experiencia codeando en Python modelos predictivos de clustering, clasificación y regresión. Además por épocas electorales en mi país (Perú) estoy entrenando modelos de procesamiento de lenguaje natural, tomando como imput los tweets en redes sociales a través de la librería tweepy y spacy.

P: Que consejos le darías a quienes no tuvieron tan buenos puntajes en la competición?
R: Investigar por cuenta propia a través de tutoriales en internet. Actualmente hay muchos recursos en Kaggle, Analytics Vidhya, TowardDataScience e inclusive canales de Youtube (mi favorito en StatQuest).

Puesto #10 - Frank Diego - Perú

P: En terminos generales como abordaste el problema planteado en la competición?
R: Realizar un análisis exploratorio de los datos, limpieza de datos, identificar variables predictores más significantes y probar diferentes modelos de clasificación.

P: Para esta competencia en particular, tenías alguna experiencia previa en este campo?
R: Primera vez

P: Que resultados/conclusiones importantes encontraste en la exploración de los datos? Con que retos tuviste que lidiar?
R: Encontrar variables categóricas con alta cardinalidad, data imbalanceada, identificar y remover outliers en diferentes variables predictoras y probar varios modelos de clasificación.

P: En términos generales, ¿Que procesamiento de los datos y feature engineering hiciste para esta competición?
R: Remover caracteres especiales y de texto en las variables Size, Installs y Prices; identificar el número de versión de cada app y la cantidad de versiones android disponible para cada app, usar técnicas de Enconding para variables categóricas, y normalización de datos.

P: Que algoritmos de Machine Learning usaste para la competición?
R: Logistic Regression y Random Forest

P: Cual fue el algortimo de Machine Learning que te dio el mejor puntaje y porqué crees que funcionó mejor que los demás?
R: Random Forest porque presenta mejores score en accuracy, precision y recall.

P: Que librerias usaste para esta competición en particular?
R: Pandas, sklearn, matplotlib, seaborn y scikitplot

P: Cuantos años de experiencia tienes en Data Science y dónde trabajas actualmente?
R: Apenas llevo medio año en el mundo de ciencia de datos. He llevado cursos online sobre procesamiento de datos con la librería Pandas, estadística básica y seguimiento de tutoriales en youtube sobre machine learning que me ha servido para aplicarlo en este reto. Por otro lado, tengo en un emprendimiento sobre Inteligencia comercial de exportaciones de Perú que permite dar soporte a empresas exportadoras sobre el panorama comercio exterior en diversos sectores productivos.

P: Que consejos le darías a quienes no tuvieron tan buenos puntajes en la competición?
R: Profundizar el análisis exploratorio de datos en los dataset para obtener un mejor comprensión de las características más importantes que influyan en la variable objetivo.

Conclusión

Como podemos ver cada uno de los participantes pudo hacer pruebas con diferentes modelos, entre los cuales se destacan los modelos de Boosting y donde cada participante experimenta diferentes aproximaciones para resolver el problema.

Esperamos hayas sacado tus propias conclusiones, las puedes compartir con nosotros en los comentarios, y te esperamos en la competición que se encuentra activa, y quizás tu podrías ser el entrevistado del TOP 10 de la próxima competición!

Participar de la competición

Muchas gracias a todos los participantes y a los ganadores que nos ayudaron con la encuesta!

PD: estamos creciendo nuestro foro de discusión para data scientist en Slack en el siguiente link, únete y participa

Most Related Articles

5 Extensiones de Google Chrome que Todo Científico de Datos Debería Conocer

En esta nueva entrada hablaremos de las mejores extensiones de Google Chrome que como data scientists nos facilitan ciertas tareas. Deberías como mínimo probarlas y verificar los resultados por tu propia cuenta, es posible que se conviertan en parte de tu arsenal de herramientas para trabajar en el día a día. Si tienes algunas recomendaciones adicionales no dudes en postearlas en los comentarios, o si tienes algún review sobre las extensiones mencionadas también nos gustaría escucharte!#1- AI/ML Papers with Code Everywhere - CatalyzeXDescripción de la extensión:💻 Obtenga el código de implementación de los trabajos de investigación de aprendizaje automático con código directamente en Google, ArXiv, Scholar, Twitter, Github, etc.La extensión de navegador gratuita de CatalyzeX encuentra y muestra al instante el código de implementación de cualquier artículo de investigación sobre aprendizaje automático, inteligencia artificial, procesamiento del lenguaje natural, visión por ordenador, aprendizaje por refuerzo y aprendizaje profundo con código que encuentres mientras navegas por Google, ArXiv, Twitter, Scholar, Github y otros sitios web.▶ Navega por la web como de costumbre y empezarás a ver botones [CODE] junto a los documentos en todas partes.▶ Los botones [CODE] aparecerán automáticamente directamente en la página de cualquier enlace de implementación encontrado.▶ ¡Haz clic en cualquier botón de código para saltar instantáneamente al código abierto y explorar!Impulsado por el repositorio de CatalyzeX.com utilizado por miles de ingenieros, investigadores, desarrolladores y líderes tecnológicos de todo el mundo - para navegar por los algoritmos de ML, los modelos y los artículos con código para los desarrollos relevantes y de vanguardia en el aprendizaje automático, la ciencia de los datos, la inteligencia artificial, la visión por ordenador, el procesamiento del lenguaje natural, el reconocimiento del habla, el aprendizaje de refuerzo y el aprendizaje profundo.Link de descarga: https://chrome.google.com/webstore/detail/aiml-papers-with-code-eve/aikkeehnlfpamidigaffhfmgbkdeheil#2- Instant Data ScraperDescripción de la extensiónInstant Data Scraper extrae datos de páginas web y los exporta como archivos Excel o CSVInstant Data Scraper es una herramienta de extracción de datos automatizada para cualquier sitio web. Utiliza la IA para predecir qué datos son más relevantes en una página HTML y permite guardarlos en un archivo Excel o CSV (XLS, XLSX, CSV).Esta herramienta no requiere scripts específicos para el sitio web, sino que utiliza el análisis heurístico de la IA de la estructura del HTML para detectar los datos a extraer. Si la predicción no es satisfactoria, permite al usuario personalizar las selecciones para obtener una mayor precisión. Este tipo de tecnología de scrape es mucho más conveniente, porque no requiere grandes bibliotecas de scripts de scrape creadas por el usuario, que a menudo se llenan de versiones obsoletas y redundantes. Esto significa que nuestro método de scrape funciona igual de bien con sitios web pequeños y menos conocidos, que con gigantes mundiales como Amazon. Además, ¡nuestros usuarios no necesitan tener conocimientos de codificación, json o xml!Características de Instant Data Scraper:* Detección de datos para la extracción con AI.* Detección de datos dinámicos cuando se han cargado.* Personalización del retardo y del tiempo máximo de espera para la velocidad de rastreo deseada.* Soporte para la paginación en sitios web.* Navegación automática a la siguiente página mediante botones o enlaces.* Soporte para scroll infinito.* Vista previa de los datos extraídos con soporte para copiar y pegar.* Exportación de datos a hoja de cálculo Excel o archivo CSV.* Renombrar y filtrar las columnas de datos extraídos.Esta extensión es completamente GRATIS. Instant Data Scraper funciona bien al unísono con herramientas de SEO, sistemas de reclutamiento CRM, herramientas de gestión de clientes potenciales de ventas o campañas de marketing por correo electrónico. El raspado de la web y la descarga de datos se hace fácil con nuestra herramienta. Además, tiene seguridad y privacidad de los datos ya que los datos raspados no salen de su navegador.CASOS DE USO de Instant Data Scraper:* Generación de leads para empresas y autónomos.* Hackers de crecimiento que buscan formas fáciles de recolectar datos.* Reclutadores en busca de candidatos a un puesto de trabajo.* Obtención de resultados de motores de búsqueda.* Obtener datos de precios de productos de sitios web de comercio electrónico.* Vendedores de Amazon, distribuidores y analistas de reseñas.* Obtenga el correo electrónico y las direcciones y números de teléfono de los directorios.* Obtenga información de contacto de sitios web de asociaciones profesionales.* Recoger reseñas y valoraciones.* Analizar posts para obtener likes, comentarios, conexión y contactos.* Extraer emails e ID de perfiles de redes sociales.Promesa del desarrollador: Esta extensión no contiene ningún tipo de malware o spyware más allá del estándar de Google Analytics.Link de descarga: https://chrome.google.com/webstore/detail/instant-data-scraper/ofaokhiedipichpaobibbnahnkdoiiah#3- EquatIO - Math made digitalDescripción de la extensiónCrea fácilmente ecuaciones matemáticas, fórmulas y cuestionarios. Escriba intuitivamente o a mano, sin necesidad de aprender un complicado código matemático.Hasta ahora, escribir ecuaciones y expresiones matemáticas en el ordenador era lento y laborioso.EquatIO convierte las matemáticas en algo digital, ayudando a profesores y estudiantes de todos los niveles a crear expresiones matemáticas de forma rápida y sencilla.Escribe o escribe a mano prácticamente cualquier expresión matemática directamente en tu teclado o pantalla táctil. No hay necesidad de ningún código complicado ni de lenguajes de programación.EquatIO convierte instantáneamente tus pensamientos en fórmulas claras y precisas en la pantalla. Cuando escribes "sq", sabe que quieres decir "raíz cuadrada". Y también te escucha. Cuando dictas una fórmula en voz alta, EquatIO es lo suficientemente inteligente como para ignorar "umms", "errs" y otras palabras no matemáticas no deseadas.Más que un sustituto del lápiz y el papel, EquatIO hace que las matemáticas y otras materias STEM sean atractivas y gratificantes para todos los estudiantes.Características:- Crea fácilmente expresiones matemáticas, incluyendo ecuaciones y fórmulas- Compatible con Google Docs, Forms*, Slides*, Sheets* y Drawings*.- Entrada mediante teclado, reconocimiento de escritura* (a través de la pantalla táctil o del panel táctil) y dictado de voz- Adivina lo que estás escribiendo o tecleando, como el texto predictivo de tu smartphone*. - Escucha tus expresiones matemáticas leídas en voz alta- Compatible con la entrada de LaTeX para usuarios avanzados- Cree cuestionarios digitales de matemáticas interactivos*.- Introduce las respuestas de los alumnos directamente en los cuestionarios digitales*.- Predicción de fórmulas de química*Link de descarga: https://chrome.google.com/webstore/detail/equatio-math-made-digital/hjngolefdpdnooamgdldlkjgmdcmcjnc4- Challenge HuntDescripcion de la extensionUna aplicación. Todos los concursos de programación. Te mantiene actualizado con todas las competiciones de programación y hackathons activos y próximos de todo el mundoChallenge Hunt te trae los mejores retos de programación de todo el mundo. Te mantiene actualizado con todas las competiciones de codificación, hackathons, contrataciones y retos de ciencia de datos activos y próximos. Te permite:1. Ver todos los activos y próximos: * Concursos de codificación * Hackathons * Desafíos de ciencia de datos * Retos de contratación2. Establece recordatorios sobre los próximos retos para no perderte ningún reto.3. Establece tus plataformas de retos online preferidas y Challenge Hunt te mostrará los retos sólo de esas plataformas.Link de descarga: https://chrome.google.com/webstore/detail/challenge-hunt/cgbnhngdlmhjbmgkekedepoapmoingjj5- Open in ColabDescripción de la extensiónAbrir un notebook alojado en Github en Google Colab. Sencilla extensión del navegador para abrir rápidamente notebook Jupyter alojados en GitHub en Google Colab.Link descarga: https://chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjoGracias por leer!

Daniel Morales

Feb 02, 2021

Machine Learning

10 Preguntas Altamente Probables en Una Entrevista de Data Science

La popularidad de la ciencia de los datos atrae a muchas personas de una amplia gama de profesiones para hacer un cambio de carrera con el objetivo de convertirse en un científico de datos.A pesar de la gran demanda de científicos de datos, es una tarea muy difícil encontrar tu primer trabajo. A menos que tengas una sólida experiencia laboral previa, las entrevistas son el lugar donde puedes mostrar tus habilidades e impresionar a tu potencial empleador.La ciencia de los datos es un campo interdisciplinar que abarca una amplia gama de temas y conceptos. Por ello, el número de preguntas que te pueden hacer en una entrevista es muy elevado.Sin embargo, hay algunas preguntas sobre los fundamentos de la ciencia de los datos y el aprendizaje automático. Éstas son las que no debes perderte. En este artículo, repasaremos 10 preguntas que probablemente se hagan en una entrevista a un científico de datos.Las preguntas están agrupadas en 3 categorías principales que son aprendizaje automático, Python y SQL. Intentaré dar una breve respuesta a cada pregunta. Sin embargo, sugiero leer o estudiar cada una con más detalle después.Aprendizaje automático1. ¿Qué es el overfitting (sobreajuste)? El sobreajuste en el aprendizaje automático se produce cuando el modelo no está bien generalizado. El modelo se centra demasiado en el conjunto de entrenamiento. Capta muchos detalles o incluso ruido en el conjunto de entrenamiento. Por lo tanto, no logra captar la tendencia general o las relaciones en los datos. Si un modelo es demasiado complejo en comparación con los datos, probablemente estará sobreajustado. Un buen indicador de sobreajuste es la gran diferencia entre la precisión de los conjuntos de entrenamiento y de prueba. Los modelos sobreajustados suelen tener una precisión muy alta en el conjunto de entrenamiento, pero la precisión de la prueba suele ser impredecible y mucho más baja que la de entrenamiento. 2. ¿Cómo se puede reducir el overfitting? Podemos reducir el sobreajuste haciendo que el modelo sea más generalizado, lo que significa que debe centrarse más en la tendencia general que en los detalles específicos. Si es posible, recoger más datos es una forma eficaz de reducir el sobreajuste. Le darás más jugo al modelo para que tenga más material del que aprender. Los datos siempre son valiosos, especialmente para los modelos de aprendizaje automático. Otro método para reducir la sobreadaptación es reducir la complejidad del modelo. Si un modelo es demasiado complejo para una tarea determinada, es probable que se produzca un sobreajuste. En estos casos, debemos buscar modelos más sencillos. 3. ¿Qué es la regularización? Hemos mencionado que la principal razón del sobreajuste es que un modelo sea más complejo de lo necesario. La regularización es un método para reducir la complejidad del modelo. Lo hace penalizando los términos más altos del modelo. Con la adición de un término de regularización, el modelo intenta minimizar tanto la pérdida como la complejidad. Los dos tipos principales de regularización son L1 y L2. La regularización L1 resta una pequeña cantidad de los pesos de las características no informativas en cada iteración. Así, hace que estos pesos se conviertan finalmente en cero. Por otro lado, la regularización L2 elimina un pequeño porcentaje de los pesos en cada iteración. Estos pesos se acercarán a cero, pero nunca llegarán a ser 0.4. ¿Cuál es la diferencia entre clasificación y agrupación? Ambas son tareas de aprendizaje automático. La clasificación es una tarea de aprendizaje supervisado, por lo que tenemos observaciones etiquetadas (es decir, puntos de datos). Entrenamos un modelo con datos etiquetados y esperamos que prediga las etiquetas de los nuevos datos. Por ejemplo, la detección de correos electrónicos no deseados es una tarea de clasificación. Proporcionamos un modelo con varios correos electrónicos marcados como spam o no spam. Una vez entrenado el modelo con esos correos, evaluará los nuevos correos de forma adecuada. La agrupación es una tarea de aprendizaje no supervisada, por lo que las observaciones no tienen etiquetas. Se espera que el modelo evalúe las observaciones y las agrupe en clusters. Las observaciones similares se colocan en el mismo clúster. En el caso óptimo, las observaciones del mismo clúster están lo más cerca posible unas de otras y los diferentes clústeres están lo más separados posible. Un ejemplo de tarea de clustering sería agrupar a los clientes en función de su comportamiento de compra. Python Las estructuras de datos incorporadas son de crucial importancia. Por lo tanto, debes estar familiarizado con lo que son y cómo interactuar con ellas. Lista, diccionario, conjunto y tupla son las 4 principales estructuras de datos incorporadas en Python. 5. ¿Cuál es la diferencia entre listas y tuplas? La principal diferencia entre las listas y las tuplas es la mutabilidad. Las listas son mutables, por lo que podemos manipularlas añadiendo o eliminando elementos.mylist = [1,2,3] mylist.append(4) mylist.remove(1) print(mylist) [2,3,4]En cambio, las tuplas son inmutables. Aunque podemos acceder a cada elemento de una tupla, no podemos modificar su contenido.mytuple = (1,2,3) mytuple.append(4) AttributeError: 'tuple' object has no attribute 'append'Un punto importante a mencionar aquí es que aunque las tuplas son inmutables, pueden contener elementos mutables como listas o conjuntos. mytuple = (1,2,["a","b","c"]) mytuple[2] ['a', 'b', 'c'] mytuple[2][0] = ["A"] print(mytuple) (1, 2, [['A'], 'b', 'c'])6. ¿Cuál es la diferencia entre listas y sets? Hagamos un ejemplo para demostrar la principal diferencia entre listas y conjuntos.text = "Python is awesome!" mylist = list(text) myset = set(text) print(mylist) ['P', 'y', 't', 'h', 'o', 'n', ' ', 'i', 's', ' ', 'a', 'w', 'e', 's', 'o', 'm', 'e', '!'] print(myset) {'t', ' ', 'i', 'e', 'm', 'P', '!', 'y', 'o', 'h', 'n', 'a', 's', 'w'} Como vemos en los objetos resultantes, la lista contiene todos los caracteres de la cadena mientras que el conjunto sólo contiene valores únicos. Otra diferencia es que los caracteres de la lista están ordenados según su ubicación en la cadena. Sin embargo, los caracteres del conjunto no están ordenados. A continuación se muestra una tabla que resume las principales características de las listas, las tuplas y los conjuntos.(image by author)7. ¿Qué es un diccionario y cuáles son las características importantes de los diccionarios? Un diccionario en Python es una colección de pares clave-valor. Es similar a una lista en el sentido de que cada elemento de una lista tiene un índice asociado que empieza por 0.mylist = ["a", "b", "c"] mylist[1] "b"En un diccionario, las claves son el índice. Así, podemos acceder a un valor utilizando su clave.mydict = {"John": 24, "Jane": 26, "Ashley": 22} mydict["Jane"] 26Las claves de un diccionario son únicas, lo que tiene sentido porque actúan como una dirección para los valores. SQL SQL es una habilidad extremadamente importante para los científicos de datos. Hay un gran número de empresas que almacenan sus datos en una base de datos relacional. SQL es lo que se necesita para interactuar con las bases de datos relacionales. Es probable que te hagan una pregunta que implique escribir una consulta para realizar una tarea específica. También es posible que te hagan una pregunta sobre conocimientos generales de bases de datos.8. Ejemplo de Consulta #1 Consider we have a sales table that contains daily sales quantities of products.SELECT TOP 10 * FROM SalesTable(image by author)Encuentre las 5 semanas más importantes en términos de cantidades totales de ventas semanales.SELECT TOP 5 CONCAT(YEAR(SalesDate), DATEPART(WEEK, SalesDate)) AS YearWeek, SUM(SalesQty) AS TotalWeeklySales FROM SalesTable GROUP BY CONCAT(YEAR(SalesDate), DATEPART(WEEK, SalesDate)) ORDER BY TotalWeeklySales DESC (image by author)Primero extraemos la información del año y la semana de la columna de la fecha y luego la utilizamos en la agregación. La función de suma se utiliza para calcular las cantidades totales de ventas. 9. Ejemplo de consulta #2 En la misma tabla de ventas, encuentre el número de artículos únicos que se venden cada mes.SELECT MONTH(SalesDate) AS Month, COUNT(DISTINCT(ItemNumber)) AS ItemCount FROM SalesTable GROUP BY MONTH(SalesDate) Month ItemCount 1 9 1021 2 8 102110. ¿Qué es la normalización y la desnormalización en una base de datos? Estos términos están relacionados con el diseño del esquema de la base de datos. La normalización y la desnormalización tienen como objetivo optimizar diferentes métricas. El objetivo de la normalización es reducir la redundancia e inconsistencia de los datos aumentando el número de tablas. Por otro lado, la desnormalización tiene como objetivo acelerar la ejecución de la consulta. La desnormalización disminuye el número de tablas, pero al mismo tiempo añade cierta redundancia. ConclusiónConvertirse en un científico de datos es una tarea difícil. Requiere tiempo, esfuerzo y dedicación. Sin tener experiencia laboral previa, el proceso se hace más difícil. Las entrevistas son muy importantes para demostrar tus habilidades. En este artículo, hemos cubierto 10 preguntas que es probable que te encuentres en una entrevista de científico de datos. Gracias por leerlo. Por favor, hágame saber si tiene algún comentario.

Daniel Morales

Feb 02, 2021

Data Science

Machine Learning

Métricas De Evaluación De Modelos En El Aprendizaje Automático

CréditosLos modelos predictivos se han convertido en un asesor de confianza para muchas empresas y por una buena razón. Estos modelos pueden "prever el futuro", y hay muchos métodos diferentes disponibles, lo que significa que cualquier industria puede encontrar uno que se ajuste a sus retos particulares.Cuando hablamos de modelos predictivos, nos referimos a un modelo de regresión (salida continua) o a un modelo de clasificación (salida nominal o binaria). En los problemas de clasificación, utilizamos dos tipos de algoritmos (dependiendo del tipo de salida que este crea):Salida de clase: Algoritmos como Support Vector Machine y K Nearest Neighbors crean una salida de clase. Por ejemplo, en un problema de clasificación binaria, las salidas serán 0 o 1. Sin embargo, hoy en día tenemos algoritmos que pueden convertir estas salidas de clase en probabilidad.Salida de probabilidad: Algoritmos como la Regresión Logística, el Bosque Aleatorio, potenciación del Gradiente, el Adaboost, etc. dan salidas de probabilidad. Convertir las salidas de probabilidad en salidas de clase es sólo cuestión de crear un umbral de probabilidadPuedes leer más artículos de Data Science en español aquí Lea también:Tipos Claves De Regresiones: ¿Cuál Usar?IntroducciónSi bien la preparación de los datos y el entrenamiento de un modelo de aprendizaje de máquina es un paso clave en el proceso de aprendizaje automático, es igualmente importante medir el rendimiento de este modelo entrenado. Lo bien que el modelo generaliza sobre los datos no vistos es lo que define los modelos de aprendizaje automático adaptables frente a los no adaptables.Al utilizar diferentes métricas para la evaluación del rendimiento, deberíamos estar en posición de mejorar el poder de predicción general de nuestro modelo antes de que lo pongamos en marcha para la producción sobre datos no vistos antes.Si no se realiza una evaluación adecuada del modelo aprendizaje automático utilizando diferentes métricas, y se usa sólo la precisión, puede darse un problema cuando el modelo respectivo se despliega sobre datos no vistos y puede dar lugar a malas predicciones.Esto sucede porque, en casos como éste, nuestros modelos no aprenden sino que memorizan; por lo tanto, no pueden generalizar bien sobre datos no vistos.Métricas de evaluación del modeloDefinamos ahora las métricas de evaluación para valorar el rendimiento de un modelo de aprendizaje automático, que es un componente integral de cualquier proyecto de ciencia de los datos. Su objetivo es estimar la precisión de la generalización de un modelo sobre los datos futuros (no vistos/fuera de muestra).Matriz de confusiónUna matriz de confusión es una representación matricial de los resultados de las predicciones de cualquier prueba binaria que se utiliza a menudo para describir el rendimiento del modelo de clasificación (o "clasificador") sobre un conjunto de datos de prueba cuyos valores reales se conocen.La matriz de confusión es relativamente sencilla de comprender, pero la terminología relacionada puede ser confusa.Matriz de confusión con 2 etiquetas de clase.Cada predicción puede ser uno de cuatro resultados, basado en cómo coincide con el valor real:Verdadero Positivo (TP): Predicho Verdadero y Verdadero en realidad.Verdadero Negativo (TN): Predicho Falso y Falso en realidad.Falso Positivo (FP): Predicción de verdadero y falso en la realidad.Falso Negativo (FN): Predicción de falso y verdadero en la realidad.Ahora entendamos este concepto usando la prueba de hipótesis.Lea también:Falsos Positivos Vs. Falsos Negativos Una hipótesis es una especulación o teoría basada en pruebas insuficientes que se presta a más pruebas y experimentación. Con más pruebas, una hipótesis puede ser probada como verdadera o falsa.Una Hipótesis Nula es una hipótesis que dice que no hay significancia estadística entre las dos variables de la hipótesis. Es la hipótesis que el investigador está tratando de refutar.Siempre rechazamos la hipótesis nula cuando es falsa, y aceptamos la hipótesis nula cuando es realmente verdadera.Aunque las pruebas de hipótesis se supone que son fiables, hay dos tipos de errores que pueden ocurrir.Estos errores se conocen como errores de Tipo I y Tipo II.Por ejemplo, cuando se examina la eficacia de una droga, la hipótesis nula sería que la droga no afecta a una enfermedad.Error de Tipo I: equivalente a los Falsos Positivos(FP).El primer tipo de error posible implica el rechazo de una hipótesis nula que es verdadera.Volvamos al ejemplo de una droga que se utiliza para tratar una enfermedad. Si rechazamos la hipótesis nula en esta situación, entonces afirmamos que la droga tiene algún efecto sobre una enfermedad. Pero si la hipótesis nula es cierta, entonces, en realidad, la droga no combate la enfermedad en absoluto. Se afirma falsamente que la droga tiene un efecto positivo en una enfermedad.Error de tipo II:- equivalente a Falsos Negativos(FN).El otro tipo de error que ocurre cuando aceptamos una hipótesis falsa nula. Este tipo de error se llama error de tipo II y también se conoce como error de segundo tipo.Si pensamos de nuevo en el escenario en el que estamos probando una droga, ¿cómo sería un error de tipo II? Un error de tipo II ocurriría si aceptáramos que la droga no tiene efecto sobre la enfermedad, pero en realidad, sí lo tiene.Un ejemplo de la implementación Python de la matriz de confusión.Puedes leer más artículos de Data Science en español aquí import warningsimport pandas as pdfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import confusion_matriximport matplotlib.pyplot as plt%matplotlib inline #ignore warningswarnings.filterwarnings('ignore')# Load digits dataseturl = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"df = pd.read_csv(url)# df = df.valuesX = df.iloc[:,0:4]y = df.iloc[:,4]#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#Split data into train and test set. X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#Train Modelmodel = LogisticRegression()model.fit(X_train, y_train)pred = model.predict(X_test)#Construct the Confusion Matrixlabels = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']cm = confusion_matrix(y_test, pred, labels)print(cm)fig = plt.figure()ax = fig.add_subplot(111)cax = ax.matshow(cm)plt.title('Confusion matrix')fig.colorbar(cax)ax.set_xticklabels([''] + labels)ax.set_yticklabels([''] + labels)plt.xlabel('Predicted Values')plt.ylabel('Actual Values')plt.show()Matriz de confusión con 3 etiquetas de clase.Los elementos diagonales representan el número de puntos para los cuales la etiqueta predicha es igual a la etiqueta verdadera, mientras que cualquier cosa fuera de la diagonal fue mal etiquetada por el clasificador. Por lo tanto, cuanto más altos sean los valores diagonales de la matriz de confusión, mejor, indicando muchas predicciones correctas.En nuestro caso, el clasificador predijo perfectamente las 13 plantas de setosa y 18 de virginica en los datos de prueba. Sin embargo, clasificó incorrectamente 4 de las plantas versicolor como virginica.También hay una lista de tasas que a menudo se calculan a partir de una matriz de confusión para un clasificador binario:1. ExactitudEn general, ¿con qué frecuencia es correcto el clasificador?Exactitud = (TP+TN)/totalCuando nuestras clases son aproximadamente iguales en tamaño, podemos usar la precisión, que nos dará valores clasificados correctamente.La precisión es una métrica de evaluación común para los problemas de clasificación. Es el número de predicciones correctas hechas como una proporción de todas las predicciones hechas.Tasa de clasificación errónea (Tasa de error): En general, con qué frecuencia se equivoca. Dado que la exactitud es el porcentaje que clasificamos correctamente (tasa de éxito), se deduce que nuestra tasa de error (el porcentaje en que nos equivocamos) puede calcularse de la siguiente manera:Tasa de clasificación errónea = (FP+FN)/total#import modulesimport warningsimport pandas as pdimport numpy as npfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn import datasetsfrom sklearn.metrics import accuracy_score#ignore warningswarnings.filterwarnings('ignore')# Load digits datasetiris = datasets.load_iris()# # Create feature matrixX = iris.data# Create target vectory = iris.target#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#cross-validation settingskfold = model_selection.KFold(n_splits=10, random_state=seed)#Model instancemodel = LogisticRegression()#Evaluate model performancescoring = 'accuracy'results = model_selection.cross_val_score(model, X, y, cv=kfold, scoring=scoring)print('Accuracy -val set: %.2f%% (%.2f)' % (results.mean()*100, results.std()))#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#fit modelmodel.fit(X_train, y_train)#accuracy on test setresult = model.score(X_test, y_test)print("Accuracy - test set: %.2f%%" % (result*100.0))La precisión de la clasificación es del 88% en el conjunto de validación.2. PrecisiónCuando predice sí, ¿con qué frecuencia es correcto?Precisión=TP/predicciones síCuando tenemos un desequilibrio de clase, la precisión puede convertirse en una métrica poco fiable para medir nuestro desempeño. Por ejemplo, si tuviéramos una división de 99/1 entre dos clases, A y B, donde el evento raro, B, es nuestra clase positiva, podríamos construir un modelo que fuera 99% exacto con sólo decir que todo pertenece a la clase A. Claramente, no deberíamos molestarnos en construir un modelo si no hace nada para identificar la clase B; por lo tanto, necesitamos diferentes métricas que desalienten este comportamiento. Para ello, utilizamos la precisión y la sensibilidad en lugar de la exactitud.Puedes leer más artículos de Data Science en español aquí 3. ExhaustividadCuando en realidad es un sí, ¿con qué frecuencia predice un sí?Tasa positiva verdadera = TP/Si realesLa Exhaustividad nos da la tasa positiva verdadera (TPR), que es la proporción de los verdaderos positivos a todo lo positivo.En el caso de la división 99/1 entre las clases A y B, el modelo que clasifica todo como A tendría una exhaustividad del 0% para la clase positiva, B (la precisión sería indefinida - 0/0). La exhaustividad proporciona una mejor manera de evaluar el rendimiento del modelo ante un desequilibrio de clases. Nos dirá correctamente que el modelo tiene poco valor para nuestro caso de uso.Al igual que la exactitud, tanto la precisión como la exhaustividad son fáciles de calcular y comprender, pero requieren umbrales. Además, la precisión y la exhaustividad sólo consideran la mitad de la matriz de confusión:4. Puntuación F1La puntuación F1 es la media armónica de la precisión y exhaustividad, donde la puntuación de la F1 alcanza su mejor valor en 1 (precisión y exhaustividad perfectas) y el peor en 0.¿Por qué la media armónica? Dado que la media armónica de una lista de números se inclina fuertemente hacia últimos elementos de la lista, tiende (en comparación con la media aritmética) a mitigar el impacto de los grandes valores atípicos y a agravar el impacto de los pequeños.Una puntuación F1 castiga más los valores extremos. Idealmente, un puntaje F1 podría ser una métrica de evaluación efectiva en los siguientes escenarios de clasificación:Cuando los Falsos Positivos y la Falsos Negativos son igualmente costosos - lo que significa que se pasan verdaderos positivos o se encuentran falsos positivos - ambos impactan el modelo casi de la misma manera, como en nuestro ejemplo de clasificación de detección de cáncerAñadir más datos no cambia el resultado de manera efectivaLa TN es alta (como en las predicciones de inundaciones, predicciones de cáncer, etc.)Un ejemplo de implementación en Python de la puntuación F1.import warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_lossfrom sklearn.metrics import precision_recall_fscore_support as score, precision_score, recall_score, f1_scorewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]test_size = 0.33seed = 7model = LogisticRegression()#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)precision = precision_score(y_test, pred)print('Precision: %f' % precision)# recall: tp / (tp + fn)recall = recall_score(y_test, pred)print('Recall: %f' % recall)# f1: tp / (tp + fp + fn)f1 = f1_score(y_test, pred)print('F1 score: %f' % f1)Puedes leer más artículos de Data Science en español aquí 5. EspecificidadCuando es no, ¿con qué frecuencia predice el no?Tasa negativa real = TN/no realEs la verdadera tasa negativa o la proporción de verdaderos negativos a todo lo que debería haber sido clasificado como negativo.Obsérvese que, en conjunto, la especificidad y la sensibilidad consideran la matriz de confusión completa:6. Curva de características operativas del receptor (ROC)Medir el área bajo la curva ROC es también un método muy útil para evaluar un modelo. Al trazar la tasa positiva verdadera (sensibilidad) frente a la tasa de falsos positivos (1 - especificidad), obtenemos la curva de Característica Operativa del Receptor (ROC). Esta curva nos permite visualizar el equilibrio entre la tasa de verdaderos positivos y la tasa falsos positivosLos siguientes son ejemplos de buenas curvas ROC. La línea discontinua sería una suposición aleatoria (sin valor predictivo) y se utiliza como línea de base; cualquier cosa por debajo de eso se considera peor que una suposición. Queremos estar hacia la esquina superior izquierda:Una ejemplo de implementación en Python de las curvas ROC#Classification Area under curveimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import roc_auc_score, roc_curvewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)# predict probabilitiesprobs = model.predict_proba(X_test)# keep probabilities for the positive outcome onlyprobs = probs[:, 1]auc = roc_auc_score(y_test, probs)print('AUC - Test Set: %.2f%%' % (auc*100))# calculate roc curvefpr, tpr, thresholds = roc_curve(y_test, probs)# plot no skillplt.plot([0, 1], [0, 1], linestyle='--')# plot the roc curve for the modelplt.plot(fpr, tpr, marker='.')plt.xlabel('False positive rate')plt.ylabel('Sensitivity/ Recall')# show the plotplt.show()En el ejemplo anterior, la AUC está relativamente cerca de 1 y es mayor de 0,5. Un clasificador perfecto hará que la curva ROC vaya a lo largo del eje Y y luego a lo largo del eje X.7. Pérdida logarítmicaLa pérdida logarítmica es la métrica de clasificación más importante basada en probabilidades.A medida que la probabilidad predicha de la clase verdadera se acerca a cero, la pérdida aumenta exponencialmente:Mide el desempeño de un modelo de clasificación en el que la entrada de la predicción es un valor de probabilidad entre 0 y 1. La pérdida logarítmica aumenta a medida que la probabilidad predicha se aleja de la etiqueta real. El objetivo de cualquier modelo de aprendizaje automático es minimizar este valor. Por lo tanto, una pérdida logarítmica menor es mejor, con un modelo perfecto teniendo una pérdida logarítmica de 0.Una muestra de la implementación en Python de la pérdida logarítmica#Classification LogLossimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_losswarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)#predict and compute loglosspred = model.predict(X_test)accuracy = log_loss(y_test, pred)print("Logloss: %.2f" % (accuracy))Logloss: 8.02Puedes leer más artículos de Data Science en español aquí 8. Índice JaccardEl índice Jaccard es una de las formas más simples de calcular y averiguar la exactitud de un modelo de clasificación de aprendizaje automático. Entendamoslo con un ejemplo. Supongamos que tenemos un conjunto de pruebas etiquetadas, con etiquetas como -y = [0,0,0,0,0,1,1,1,1,1]Y nuestro modelo ha predicho las etiquetas como…y1 = [1,1,0,0,0,1,1,1,1,1]El anterior diagrama de Venn nos muestra las etiquetas del conjunto de pruebas y las etiquetas de las predicciones, y su intersección y unión.El índice Jaccard o coeficiente de similitud Jaccard es una estadística utilizada para comprender las similitudes entre los conjuntos de muestras. La medición enfatiza la similitud entre conjuntos de muestras finitas y se define formalmente como el tamaño de la intersección dividido por el tamaño de la unión de los dos conjuntos etiquetados, con la fórmula como -Índice Jaccard o Intersección sobre Unión(IoU)Así, para nuestro ejemplo, podemos ver que la intersección de los dos conjuntos es igual a 8 (ya que ocho valores se predicen correctamente) y la unión es 10 + 10-8 = 12. Por lo tanto, el índice Jaccard nos da la precisión como -Así que la precisión de nuestro modelo, según el índice Jaccard, se convierte en 0.66, o 66%.Cuanto mayor sea el índice Jaccard, mayor será la precisión del clasificador.Una muestra de implementación en Python del índice Jaccard.import numpy as npdef compute_jaccard_similarity_score(x, y): intersection_cardinality = len(set(x).intersection(set(y))) union_cardinality = len(set(x).union(set(y))) return intersection_cardinality / float(union_cardinality)score = compute_jaccard_similarity_score(np.array([0, 1, 2, 5, 6]), np.array([0, 2, 3, 5, 7, 9]))print "Jaccard Similarity Score : %s" %scorepassPuntaje de similitud Jaccard: 0.3759. Gráfico de Kolmogorov SmirnovEl gráfico K-S o Kolmogorov-Smirnov mide el rendimiento de los modelos de clasificación. Más exactamente, K-S es una medida del grado de separación entre las distribuciones positivas y negativas.La frecuencia acumulativa de las distribuciones observadas y de las hipótesis se traza en relación con las frecuencias ordenadas. La doble flecha vertical indica la máxima diferencia vertical.La K-S es 100 si las puntuaciones dividen la población en dos grupos separados en los que un grupo contiene todos los positivos y el otro todos los negativos. Por otra parte, si el modelo no puede diferenciar entre los positivos y los negativos, entonces es como si el modelo seleccionara casos al azar de la población. El K-S sería 0.En la mayoría de los modelos de clasificación la K-S caerá entre 0 y 100, y cuanto más alto sea el valor mejor será el modelo para separar los casos positivos de los negativos.La K-S también puede utilizarse para comprobar si dos distribuciones de probabilidad unidimensionales subyacentes difieren. Es una forma muy eficiente de determinar si dos muestras son significativamente diferentes entre sí.Un ejemplo de la implementación en Python del Kolmogorov-Smirnov.from scipy.stats import kstest import random # N = int(input("Enter number of random numbers: ")) N = 10 actual =[] print("Enter outcomes: ") for i in range(N): # x = float(input("Outcomes of class "+str(i + 1)+": ")) actual.append(random.random()) print(actual) x = kstest(actual, "norm") print(x)La hipótesis nula utilizada aquí asume que los números siguen la distribución normal. Devuelve estadísticas y valor p. Si el valor p es < alfa, rechazamos la hipótesis Nula.Alfa se define como la probabilidad de rechazar la hipótesis nula dado que la hipótesis nula(H0) es verdadera. Para la mayoría de las aplicaciones prácticas, se elige alfa como 0,05.Puedes leer más artículos de Data Science en español aquí 10. Gráfico de ganancia y elevaciónLa ganancia o el levantamiento es una medida de la eficacia de un modelo de clasificación calculado como la relación entre los resultados obtenidos con y sin el modelo. Los gráficos de ganancia y elevación son ayudas visuales para evaluar el rendimiento de los modelos de clasificación. Sin embargo, en contraste con la matriz de confusión que evalúa los modelos en toda la población, el gráfico de ganancia o elevación evalúa el rendimiento del modelo en una porción de la población.Cuanto mayor sea la elevación (es decir, cuanto más lejos esté de la línea de base), mejor será el modelo.El siguiente gráfico de ganancias, ejecutado en un conjunto de validación, muestra que con el 50% de los datos, el modelo contiene el 90% de los objetivos, la adición de más datos añade un aumento insignificante en el porcentaje de objetivos incluidos en el modelo.Gráfico de ganancia/elevaciónLos gráficos de elevación suelen presentarse como un gráfico de ascenso acumulativo, que también se conoce como gráfico de ganancias. Por lo tanto, los gráficos de ganancias a veces se denominan (quizás de forma confusa) "gráficos de elevación", pero son más exactos como gráficos de ascenso acumulativo.Uno de sus usos más comunes es en el marketing, para decidir si vale la pena llamar a un posible cliente.11. Coeficiente de GiniEl coeficiente de Gini o Índice de Gini es una métrica popular para los valores de clase desequilibrados. El coeficiente oscila entre 0 y 1, donde 0 representa la igualdad perfecta y 1 la desigualdad perfecta. Aquí, si el valor de un índice es mayor, entonces los datos estarán más dispersos.El coeficiente de Gini puede calcularse a partir del área bajo la curva ROC usando la siguiente fórmula:Coeficiente de Gini = (2 * curva_ROC) - 1Puedes leer más artículos de Data Science en español aquí ConclusiónComprender lo bien que un modelo de aprendizaje automático va a funcionar con datos no vistos es el propósito final de trabajar con estas métricas de evaluación. Métricas como la exactitud, la precisión, la exhaustividad son buenas formas de evaluar los modelos de clasificación para conjuntos de datos equilibrados, pero si los datos están desequilibrados y hay una disparidad de clases, entonces otros métodos como el ROC/AUC, el coeficiente de Gini funcionan mejor en la evaluación del rendimiento del modelo.Bueno, esto concluye este artículo. Espero que hayan disfrutado de su lectura, no duden en compartir sus comentarios/pensamientos/opiniones en la sección de comentarios.Gracias por leerlo!!!

Juan Guillermo Gómez Ramírez

Feb 02, 2021

Entrevista A Los Ganadores De La Competencia De Data Science "Prediciendo El Rating De Las Aplicaciones En Google Play Store"

Contents Outline

Daniel Morales

Entrevista A Los Ganadores De La Competencia De Data Science "Prediciendo El Rating De Las Aplicaciones En Google Play Store"

Puesto #1 - Siderus - Colombia

Puesto #2 - Pablo Lucero - Ecuador

Puesto #3 - Fernando Chica - Ecuador

Puesto #4 - Nicolás Dominutti - Argentina

Puesto #5 - Fernando Cifuentes - Colombia

Puesto #6 - David Villabón - Colombia

Puesto #9 - James Valencia - Perú

Puesto #10 - Frank Diego - Perú

Conclusión

Related Posts

Categories

Join Competition

Daniel Morales

Daniel Morales

Juan Guillermo Gómez Ramírez

Entrevista A Los Ganadores De La Competencia De Data Science "Prediciendo El Rating De Las Aplicaciones En Google Play Store"

Contents Outline

Social Sharing

Daniel Morales

Puesto #1 - Siderus - Colombia

Puesto #2 - Pablo Lucero - Ecuador

Puesto #3 - Fernando Chica - Ecuador

Puesto #4 - Nicolás Dominutti - Argentina

Puesto #5 - Fernando Cifuentes - Colombia

Puesto #6 - David Villabón - Colombia

Puesto #9 - James Valencia - Perú

Puesto #10 - Frank Diego - Perú

Conclusión

Related Posts

Categories

Join Competition

Most Related Articles

Daniel Morales

Daniel Morales

Juan Guillermo Gómez Ramírez