Veamos algunos de los principales proyectos de código abierto de machine learning de Uber

La inteligencia artificial (IA) ha sido una tendencia tecnológica atípica. En un ciclo tecnológico tradicional, la innovación suele comenzar con las nuevas empresas que tratan de disrumpir a los titanes de la industria.

En el caso de la IA, la mayor parte de la innovación en el espacio ha venido de los grandes laboratorios corporativos de empresas como Google, Facebook, Uber o Microsoft. Esas empresas no sólo están liderando impresionantes vías de investigación sino que también abren regularmente nuevos frameworks y herramientas que agilizan la adopción de las tecnologías de la IA.

En ese contexto, Uber ha surgido como uno de los contribuyentes más activos a las tecnologías de IA de código abierto en los ecosistemas actuales. En sólo unos pocos años, Uber ha abierto regularmente proyectos de código abierto en diferentes áreas del ciclo de vida de la IA. Hoy, me gustaría revisar algunos de mis favoritos.

Uber es un campo de juego casi perfecto para las tecnologías de IA. Combina todos los requisitos tradicionales de la IA de una empresa de tecnología a gran escala con un asiento en primera fila para los primeros escenarios de transporte de la IA. Como resultado, Uber ha estado construyendo aplicaciones de machine y deep learning a través de escenarios muy diversos que van desde clasificaciones de clientes hasta vehículos de autónomos.

Muchas de las tecnologías utilizadas por los equipos de Uber han sido de fuente abierta y han recibido elogios de la comunidad de machine learning. Veamos algunas de mis favoritas:

Nota: No estoy cubriendo tecnologías como Michelangelo o PyML, ya que están bien documentadas al ser de código abierto.

Ludwig: Una caja de herramientas para modelos de machine learning sin código

Ludwig es una caja de herramientas basada en TensorFlow que permite entrenar y probar modelos de aprendizaje profundo sin necesidad de escribir código. Conceptualmente, Ludwig fue creado bajo cinco principios fundamentales:

No se requiere código: no se necesitan habilidades de programación para entrenar un modelo y usarlo para obtener predicciones.
Generalidad: un nuevo enfoque basado en el tipo de datos para el diseño de modelos de aprendizaje profundo que hace que la herramienta sea utilizable en muchos casos de uso diferentes.
Flexibilidad: los usuarios experimentados tienen un amplio control sobre la construcción de modelos y el entrenamiento, mientras que los recién llegados la encontrarán fácil de usar.
Extensibilidad: es fácil añadir una nueva arquitectura de modelo y nuevos tipos de datos de características.
Comprensibilidad: los internos de los modelos de aprendizaje profundo se consideran a menudo cajas negras, pero proporcionamos visualizaciones estándar para comprender su rendimiento y comparar sus predicciones.

Utilizando Ludwig, un científico de datos puede entrenar un modelo de aprendizaje profundo simplemente proporcionando un archivo CSV que contiene los datos de entrenamiento así como un archivo YAML con las entradas y salidas del modelo.

Utilizando esos dos puntos de datos, Ludwig realiza una rutina de aprendizaje de múltiples tareas para predecir todas las salidas simultáneamente y evaluar los resultados.

Bajo cubierta, Ludwig proporciona una serie de modelos de aprendizaje profundo que se evalúan constantemente y pueden combinarse en una arquitectura final.

El equipo de ingeniería de Uber explica este proceso usando la siguiente analogía: "si las librerías de aprendizaje profundo proporcionan los bloques de construcción para hacer un edificio, Ludwig proporciona los edificios para hacer una ciudad, y usted puede elegir entre los edificios disponibles o añadir su propio edificio al conjunto de los disponibles".

Pyro: Un lenguaje de programación probabilístico nativo

Pyro es un lenguaje de programación probabilístico profundo (PPL) lanzado por Uber AI Labs. Pyro está construido sobre PyTorch y se basa en cuatro principios fundamentales:

Universal: Pyro es un PPL universal - puede representar cualquier distribución de probabilidad computable. ¿Cómo? Comenzando desde un lenguaje universal con iteración y recursión (código Python arbitrario), y luego agregando muestreo aleatorio, observación e inferencia.
Escalable: Pyro escala a grandes conjuntos de datos con poca sobrecarga sobre el código escrito a mano. ¿Cómo? Construyendo modernas técnicas de optimización de cajas negras, que usan mini lotes de datos, para aproximar la inferencia.
Mínimalista: Pyro es ágil y mantenible. ¿Cómo? Pyro se implementa con un pequeño núcleo de poderosas abstracciones componibles. Siempre que es posible, el trabajo pesado se delega a PyTorch y otras bibliotecas.
Es flexible: Pyro apunta a la automatización cuando se quiere y al control cuando se necesita. ¿Cómo? Pyro utiliza abstracciones de alto nivel para expresar modelos generativos y de inferencia, mientras que permite a los expertos personalizar fácilmente la inferencia.

Estos principios a menudo llevan la implementación de Pyro en direcciones opuestas. Ser universal, por ejemplo, requiere permitir una estructura de control arbitraria dentro de los programas Pyro, pero esta generalidad hace difícil la escalada. Sin embargo, en general, Pyro logra un brillante equilibrio entre estas capacidades haciendo uno de los mejores PPL para aplicaciones del mundo real.

Manifold: Un conjunto de herramientas de depuración e interpretación para modelos de aprendizaje automático

Mainfold es una tecnología Uber para depurar e interpretar modelos de machine learning a escala. Con Manifold, el equipo de ingeniería de Uber quería lograr algunos objetivos muy tangibles:

Depurar errores de código en un modelo de aprendizaje automático.
Comprender las fortalezas y debilidades de un modelo tanto en forma aislada como en comparación con otros modelos.
Comparar y ensamblar diferentes modelos.
Incorporar los conocimientos adquiridos a través de la inspección y el análisis de rendimiento en las iteraciones del modelo.

Para lograr esos objetivos, Manifold segmenta el análisis de machine learning en tres fases principales: Inspección, Explicación y Refinamiento.

Inspección: En la primera parte del proceso de análisis, el usuario diseña un modelo e intenta investigar y comparar el resultado del modelo con otros existentes. Durante esta fase, el usuario compara las métricas de rendimiento típicas, como la exactitud, la precisión/recordancia y la curva característica de funcionamiento del receptor (ROC), para tener información sobre si el nuevo modelo supera a los existentes.
Explicación: En esta fase del proceso de análisis se intenta explicar las diferentes hipótesis formuladas en la fase anterior. Esta fase se basa en el análisis comparativo para explicar algunos de los síntomas de los modelos específicos.
Refinamiento: En esta fase, el usuario intenta verificar las explicaciones generadas en la fase anterior codificando en el modelo los conocimientos extraídos de la explicación y probando el rendimiento.

Plato: Un framework para la construcción de agentes de conversación a escala

Uber construyó el Plato Research Dialogue System (PRDS) para abordar los desafíos de la construcción de aplicaciones de conversación a gran escala. Conceptualmente, el PRDS es un framework para crear, entrenar y evaluar agentes de IA conversacionales en diversos entornos. Desde un punto de vista funcional, el PRDS incluye los siguientes bloques de construcción:

Reconocimiento del habla (transcribir el discurso al texto)
Comprensión del lenguaje (extrae el significado de ese texto)
Seguimiento del Estado (información agregada sobre lo que se ha dicho y hecho hasta ahora)
Llamada a la API (búsqueda en una base de datos, consulta a una API, etc.)
Política de diálogo (generar un significado abstracto de la respuesta del agente)
Generación del lenguaje (convertir el significado abstracto en texto)
Síntesis del habla (convertir el texto en discurso)

El PRDS se diseñó teniendo en cuenta la modularidad para incorporar la investigación de vanguardia en sistemas conversacionales, así como la evolución continua de cada componente de la plataforma.

En el PRDS, cada componente puede ser entrenado ya sea en línea (a partir de interacciones) o fuera de línea e incorporarse al núcleo del motor. Desde el punto de vista del entrenamiento, el PRDS soporta interacciones con usuarios humanos y simulados.

Estos últimos son comunes para poner en marcha agentes de IA conversacionales en escenarios de investigación, mientras que los primeros son más representativos de interacciones en vivo.

Horovod: Un framework para el entrenamiento de deep learning a escala

Horovod es una de los stacks de ML de Uber que se ha hecho muy popular en la comunidad y que ha sido adoptada por equipos de investigación de potencias de la IA como DeepMind u OpenAI. Conceptualmente, Horovod es un framework para ejecutar trabajos de entrenamiento de aprendizaje profundo distribuido a escala.

Horovod aprovecha los stacks de interfaz de paso de mensajes como OpenMPI para permitir que un trabajo de entrenamiento se ejecute en una infraestructura altamente paralela y distribuida sin ninguna modificación.

Ejecutar un trabajo de entrenamiento distribuido de TensorFlow en Horovod se logra en cuatro simples pasos:

hvd.init() inicializa Horovod.
config.gpu_options.visible_device_list = str(hvd.local_rank()) asigna una GPU a cada uno de los procesos de TensorFlow.
opt=hvd.DistributedOptimizer(opt) envuelve cualquier optimizador regular de TensorFlow con el optimizador Horovod que se encarga de promediar los gradientes usando el anillo de reducción.
hvd.BroadcastGlobalVariablesHook(0) difunde las variables del primer proceso a todos los demás procesos para asegurar una inicialización consistente.

Uber AI Research: Una fuente regular de investigación de IA

Por último, debemos mencionar la activa contribución de Uber a la investigación de la IA. Muchos de los lanzamientos de código abierto de Uber están inspirados en sus esfuerzos de investigación. El sitio web de Investigación de IA de Uber es un fenomenal catálogo de artículos que destacan el último esfuerzo de Uber en la investigación de la IA.

Estas son algunas de las contribuciones del equipo de ingeniería de Uber que han sido adoptadas regularmente por la comunidad de investigación y desarrollo de la IA. A medida que Uber continúa implementando soluciones de IA a escala, deberíamos ver frameworks nuevos e innovadores que simplifiquen la adopción del aprendizaje automático por parte de los científicos de datos e investigadores.

Most Related Articles

10 Preguntas Altamente Probables en Una Entrevista de Data Science

La popularidad de la ciencia de los datos atrae a muchas personas de una amplia gama de profesiones para hacer un cambio de carrera con el objetivo de convertirse en un científico de datos.A pesar de la gran demanda de científicos de datos, es una tarea muy difícil encontrar tu primer trabajo. A menos que tengas una sólida experiencia laboral previa, las entrevistas son el lugar donde puedes mostrar tus habilidades e impresionar a tu potencial empleador.La ciencia de los datos es un campo interdisciplinar que abarca una amplia gama de temas y conceptos. Por ello, el número de preguntas que te pueden hacer en una entrevista es muy elevado.Sin embargo, hay algunas preguntas sobre los fundamentos de la ciencia de los datos y el aprendizaje automático. Éstas son las que no debes perderte. En este artículo, repasaremos 10 preguntas que probablemente se hagan en una entrevista a un científico de datos.Las preguntas están agrupadas en 3 categorías principales que son aprendizaje automático, Python y SQL. Intentaré dar una breve respuesta a cada pregunta. Sin embargo, sugiero leer o estudiar cada una con más detalle después.Aprendizaje automático1. ¿Qué es el overfitting (sobreajuste)? El sobreajuste en el aprendizaje automático se produce cuando el modelo no está bien generalizado. El modelo se centra demasiado en el conjunto de entrenamiento. Capta muchos detalles o incluso ruido en el conjunto de entrenamiento. Por lo tanto, no logra captar la tendencia general o las relaciones en los datos. Si un modelo es demasiado complejo en comparación con los datos, probablemente estará sobreajustado. Un buen indicador de sobreajuste es la gran diferencia entre la precisión de los conjuntos de entrenamiento y de prueba. Los modelos sobreajustados suelen tener una precisión muy alta en el conjunto de entrenamiento, pero la precisión de la prueba suele ser impredecible y mucho más baja que la de entrenamiento. 2. ¿Cómo se puede reducir el overfitting? Podemos reducir el sobreajuste haciendo que el modelo sea más generalizado, lo que significa que debe centrarse más en la tendencia general que en los detalles específicos. Si es posible, recoger más datos es una forma eficaz de reducir el sobreajuste. Le darás más jugo al modelo para que tenga más material del que aprender. Los datos siempre son valiosos, especialmente para los modelos de aprendizaje automático. Otro método para reducir la sobreadaptación es reducir la complejidad del modelo. Si un modelo es demasiado complejo para una tarea determinada, es probable que se produzca un sobreajuste. En estos casos, debemos buscar modelos más sencillos. 3. ¿Qué es la regularización? Hemos mencionado que la principal razón del sobreajuste es que un modelo sea más complejo de lo necesario. La regularización es un método para reducir la complejidad del modelo. Lo hace penalizando los términos más altos del modelo. Con la adición de un término de regularización, el modelo intenta minimizar tanto la pérdida como la complejidad. Los dos tipos principales de regularización son L1 y L2. La regularización L1 resta una pequeña cantidad de los pesos de las características no informativas en cada iteración. Así, hace que estos pesos se conviertan finalmente en cero. Por otro lado, la regularización L2 elimina un pequeño porcentaje de los pesos en cada iteración. Estos pesos se acercarán a cero, pero nunca llegarán a ser 0.4. ¿Cuál es la diferencia entre clasificación y agrupación? Ambas son tareas de aprendizaje automático. La clasificación es una tarea de aprendizaje supervisado, por lo que tenemos observaciones etiquetadas (es decir, puntos de datos). Entrenamos un modelo con datos etiquetados y esperamos que prediga las etiquetas de los nuevos datos. Por ejemplo, la detección de correos electrónicos no deseados es una tarea de clasificación. Proporcionamos un modelo con varios correos electrónicos marcados como spam o no spam. Una vez entrenado el modelo con esos correos, evaluará los nuevos correos de forma adecuada. La agrupación es una tarea de aprendizaje no supervisada, por lo que las observaciones no tienen etiquetas. Se espera que el modelo evalúe las observaciones y las agrupe en clusters. Las observaciones similares se colocan en el mismo clúster. En el caso óptimo, las observaciones del mismo clúster están lo más cerca posible unas de otras y los diferentes clústeres están lo más separados posible. Un ejemplo de tarea de clustering sería agrupar a los clientes en función de su comportamiento de compra. Python Las estructuras de datos incorporadas son de crucial importancia. Por lo tanto, debes estar familiarizado con lo que son y cómo interactuar con ellas. Lista, diccionario, conjunto y tupla son las 4 principales estructuras de datos incorporadas en Python. 5. ¿Cuál es la diferencia entre listas y tuplas? La principal diferencia entre las listas y las tuplas es la mutabilidad. Las listas son mutables, por lo que podemos manipularlas añadiendo o eliminando elementos.mylist = [1,2,3] mylist.append(4) mylist.remove(1) print(mylist) [2,3,4]En cambio, las tuplas son inmutables. Aunque podemos acceder a cada elemento de una tupla, no podemos modificar su contenido.mytuple = (1,2,3) mytuple.append(4) AttributeError: 'tuple' object has no attribute 'append'Un punto importante a mencionar aquí es que aunque las tuplas son inmutables, pueden contener elementos mutables como listas o conjuntos. mytuple = (1,2,["a","b","c"]) mytuple[2] ['a', 'b', 'c'] mytuple[2][0] = ["A"] print(mytuple) (1, 2, [['A'], 'b', 'c'])6. ¿Cuál es la diferencia entre listas y sets? Hagamos un ejemplo para demostrar la principal diferencia entre listas y conjuntos.text = "Python is awesome!" mylist = list(text) myset = set(text) print(mylist) ['P', 'y', 't', 'h', 'o', 'n', ' ', 'i', 's', ' ', 'a', 'w', 'e', 's', 'o', 'm', 'e', '!'] print(myset) {'t', ' ', 'i', 'e', 'm', 'P', '!', 'y', 'o', 'h', 'n', 'a', 's', 'w'} Como vemos en los objetos resultantes, la lista contiene todos los caracteres de la cadena mientras que el conjunto sólo contiene valores únicos. Otra diferencia es que los caracteres de la lista están ordenados según su ubicación en la cadena. Sin embargo, los caracteres del conjunto no están ordenados. A continuación se muestra una tabla que resume las principales características de las listas, las tuplas y los conjuntos.(image by author)7. ¿Qué es un diccionario y cuáles son las características importantes de los diccionarios? Un diccionario en Python es una colección de pares clave-valor. Es similar a una lista en el sentido de que cada elemento de una lista tiene un índice asociado que empieza por 0.mylist = ["a", "b", "c"] mylist[1] "b"En un diccionario, las claves son el índice. Así, podemos acceder a un valor utilizando su clave.mydict = {"John": 24, "Jane": 26, "Ashley": 22} mydict["Jane"] 26Las claves de un diccionario son únicas, lo que tiene sentido porque actúan como una dirección para los valores. SQL SQL es una habilidad extremadamente importante para los científicos de datos. Hay un gran número de empresas que almacenan sus datos en una base de datos relacional. SQL es lo que se necesita para interactuar con las bases de datos relacionales. Es probable que te hagan una pregunta que implique escribir una consulta para realizar una tarea específica. También es posible que te hagan una pregunta sobre conocimientos generales de bases de datos.8. Ejemplo de Consulta #1 Consider we have a sales table that contains daily sales quantities of products.SELECT TOP 10 * FROM SalesTable(image by author)Encuentre las 5 semanas más importantes en términos de cantidades totales de ventas semanales.SELECT TOP 5 CONCAT(YEAR(SalesDate), DATEPART(WEEK, SalesDate)) AS YearWeek, SUM(SalesQty) AS TotalWeeklySales FROM SalesTable GROUP BY CONCAT(YEAR(SalesDate), DATEPART(WEEK, SalesDate)) ORDER BY TotalWeeklySales DESC (image by author)Primero extraemos la información del año y la semana de la columna de la fecha y luego la utilizamos en la agregación. La función de suma se utiliza para calcular las cantidades totales de ventas. 9. Ejemplo de consulta #2 En la misma tabla de ventas, encuentre el número de artículos únicos que se venden cada mes.SELECT MONTH(SalesDate) AS Month, COUNT(DISTINCT(ItemNumber)) AS ItemCount FROM SalesTable GROUP BY MONTH(SalesDate) Month ItemCount 1 9 1021 2 8 102110. ¿Qué es la normalización y la desnormalización en una base de datos? Estos términos están relacionados con el diseño del esquema de la base de datos. La normalización y la desnormalización tienen como objetivo optimizar diferentes métricas. El objetivo de la normalización es reducir la redundancia e inconsistencia de los datos aumentando el número de tablas. Por otro lado, la desnormalización tiene como objetivo acelerar la ejecución de la consulta. La desnormalización disminuye el número de tablas, pero al mismo tiempo añade cierta redundancia. ConclusiónConvertirse en un científico de datos es una tarea difícil. Requiere tiempo, esfuerzo y dedicación. Sin tener experiencia laboral previa, el proceso se hace más difícil. Las entrevistas son muy importantes para demostrar tus habilidades. En este artículo, hemos cubierto 10 preguntas que es probable que te encuentres en una entrevista de científico de datos. Gracias por leerlo. Por favor, hágame saber si tiene algún comentario.

Daniel Morales

Apr 16, 2020

Deep learning

¿Cuándo Es Mejor Evitar el Uso de Deep Learning?

IntroducciónEste artículo está dirigido a los científicos de datos que pueden considerar el uso de algoritmos de aprendizaje profundo, y quieren saber más sobre los contras de la implementación de este tipo de modelos en su trabajo. Los algoritmos de aprendizaje profundo tienen muchos beneficios, son potentes y puede ser divertido mostrarlos. Sin embargo, hay algunos momentos en los que deberías evitarlos. A continuación hablaré de esos momentos en los que deberías dejar de usar el aprendizaje profundo, así que sigue leyendo si quieres profundizar en el aprendizaje profundo.Cuando quieres explicar fácilmentePhoto by Malte Helmhold on Unsplash [2].Dado que los otros algoritmos llevan más tiempo en el mercado, cuentan con innumerables cantidades de documentación, incluyendo ejemplos y funciones que facilitan su interpretación. También es la forma en que los otros algoritmos funcionan por sí mismos. El aprendizaje profundo puede ser intimidante para los científicos de datos por esta razón también, puede ser un rechazo a usar un algoritmo de aprendizaje profundo cuando no estás seguro de cómo explicarlo a una parte interesada.He aquí 3 ejemplos de cuándo tendrías problemas para explicar el aprendizaje profundo:Cuando quiera describir las características principales de su modelo: las características se convierten en entradas ocultas, por lo que no sabrá qué causó una determinada predicción, y si necesita demostrar a las partes interesadas o a los clientes por qué se logró un determinado resultado, puede ser más bien una caja negraCuando se desea ajustar los hiperparámetros, como la tasa de aprendizaje y el tamaño del lote.Cuando se quiere explicar el funcionamiento del algoritmo, por ejemplo, si se presenta el algoritmo a los interesados, éstos podrían perderse, ya que incluso un enfoque simplificado es difícil de entender.Aquí hay 3 ejemplos de cómo podrías explicar esas mismas situaciones de arriba desde algoritmos de aprendizaje no profundos:Cuando quiera explicar sus características principales, puede acceder fácilmente a las bibliotecas SHAP, por ejemplo, para el algoritmo CatBoost, una vez que su modelo está ajustado, puede simplemente hacer un gráfico de resumen de feat = model.get_feature_importance() y luego utilizar el summary_plot() para clasificar las características por nombre de característica, de modo que pueda presentar un bonito gráfico a las partes interesadas (y a usted mismo)Ejemplo de salida SHAP clasificada de un modelo de aprendizaje no profundo [3]. Como solución, algunos otros algoritmos han facilitado mucho el ajuste de sus hiperparámetros mediante la búsqueda aleatoria en cuadrículas o un método más estructurado de búsqueda en cuadrículas. Incluso hay algunos algoritmos que se ajustan a sí mismos, por lo que no hay que preocuparse de un ajuste complicado Explicar cómo funcionan otros algoritmos puede ser mucho más fácil, como los árboles de decisión, por ejemplo, puedes mostrar fácilmente un gráfico de sí o no, 0/1 que muestra una respuesta simple para las características que conducen a una predicción, como sí está lloviendo, sí es invierno, proporcionaría para sí va a hacer frío En general, los algoritmos de aprendizaje profundo son útiles y poderosos, por lo que definitivamente hay un momento y un lugar para ellos, pero hay otros algoritmos que puedes usar en su lugar, como discutiremos a continuación. Cuando se pueden utilizar otros algoritmosPhoto by Luca Bravo on Unsplash [4].Para ser sinceros, hay unos cuantos algoritmos que pueden proporcionarle un gran modelo con grandes resultados con bastante rapidez. Algunos de estos algoritmos son la regresión lineal, los árboles de decisión, el bosque aleatorio, XGBoost y CatBoost. Estas son alternativas que son más simples. Aquí hay ejemplos de por qué querrías usar un algoritmo de aprendizaje no profundo, porque tienes muchas otras opciones más simples de aprendizaje no profundo: Pueden ser más fáciles y rápidas de configurar, por ejemplo, el aprendizaje profundo puede requerir que tu modelo añada capas secuenciales y densas, y compilarlo, lo que puede ser más complejo, y tomar más tiempo que simplemente tener un regresor o clasificador y ajustarlo con algoritmos de aprendizaje no profundo Personalmente encuentro más errores que pueden resultar de este código de aprendizaje profundo más complejo y la documentación de cómo solucionarlo puede ser confusa o antigua y no ser aplicable, utilizando un algoritmo como Random Forest en su lugar, puede tener mucha más documentación sobre los errores que son fáciles de entender El entrenamiento en un algoritmo de aprendizaje profundo puede no ser complicado a veces, pero cuando se predice a partir de un punto final, puede ser confuso sobre cómo alimentar los valores para predecir, mientras que algunos modelos, usted puede simplemente tener los valores en una lista codificada de valores ordenados Yo diría que, por supuesto, puedes probar algoritmos de aprendizaje profundo, pero antes de hacerlo, podría ser mejor empezar con una solución más simple. Puede depender de cosas como la frecuencia con la que vas a entrenar y hacer predicciones, o si se trata de una tarea puntual. Hay otras razones por las que no querrías utilizar un algoritmo de aprendizaje profundo, como cuando tienes un conjunto de datos pequeño y un presupuesto reducido, como veremos a continuación. Cuando se tiene un conjunto de datos y un presupuesto pequeñosPhoto by Hello I’m Nik on Unsplash [5].A menudo, puedes trabajar como científico de datos en una empresa más pequeña, o quizás en una startup. En estos casos, no tendrás muchos datos y puede que no tengas un gran presupuesto. Por lo tanto, intentarás evitar el uso de algoritmos de aprendizaje profundo. A veces, incluso puede tener un pequeño conjunto de datos que es sólo unos pocos miles de filas y pocas características, podría simplemente ejecutar un modelo alternativo en lugar local, en lugar de gastar mucho dinero sirviéndolo con frecuencia. Aquí es cuando deberías dudar de usar un algoritmo de aprendizaje profundo basándote en los costes y la disponibilidad de datos:La disponibilidad de datos pequeños suele ser el caso de muchas empresas (pero no siempre es así), y el aprendizaje profundo se desempeña mejor en información con muchos datos Es posible que realices una tarea puntual, es decir, que el modelo sólo prediga una vez, y que puedas ejecutarlo localmente de forma gratuita (no todos los modelos se ejecutarán en producción con frecuencia), como un simple clasificador de árbol de decisiones. Puede que no merezca la pena invertir tiempo en un modelo de aprendizaje profundo. Su empresa está interesada en aplicaciones de ciencia de datos pero quiere mantener el presupuesto pequeño, en lugar de realizar costosas ejecuciones de un modelo de aprendizaje profundo, y más bien, utilizar un modelo basado en árboles con rondas de parada temprana para evitar el sobreajuste, acortar el tiempo de entrenamiento y, en última instancia, reducir los costes Ha habido ocasiones en las que he sacado a relucir el aprendizaje profundo y ha sido rechazado por una serie de razones, y estas razones solían ser el caso. Sin embargo, no quiero disuadir a nadie de utilizar el aprendizaje profundo por completo, ya que es algo que debes utilizar a veces en tu carrera, y puede ser algo que hagas con frecuencia o principalmente dependiendo de las circunstancias y de dónde estés trabajando.Resumen En general, antes de que te sumerjas en el aprendizaje profundo, date cuenta de que hay algunos momentos en los que deberías evitar su uso por una serie de razones. Hay, por supuesto, más razones para evitarlo, pero también hay razones para usarlo. En última instancia, es usted quien debe analizar los pros y los contras del aprendizaje profundo. Aquí hay tres momentos/razones en los que no deberías usar el aprendizaje profundo: * Cuando quieres explicar fácilmente * Cuando puedes usar otros algoritmos * Cuando tienes un conjunto de datos y un presupuesto pequeños Espero que hayas encontrado mi artículo interesante y útil. Por favor, siéntase libre de comentar abajo si está de acuerdo o no con las razones para evitar el aprendizaje profundo. ¿Por qué o por qué no? ¿Qué otras razones crees que deberías evitar el uso del aprendizaje profundo como científico de datos? Seguramente se pueden aclarar aún más, pero espero haber podido arrojar algo de luz sobre el aprendizaje profundo. ¡Gracias por leer! No estoy afiliado a ninguna de estas empresas. Por favor, siéntase libre de revisar mi perfil, Matt Przybyla, y otros artículos, así como suscribirse para recibir notificaciones por correo electrónico para mis blogs siguiendo el enlace de abajo, o haciendo clic en el icono de suscripción en la parte superior de la pantalla por el icono de seguir, y llegar a mí ourself.Subscribe link: https://datascience2.medium.com/subscribeReferencias[1] Photo by Nadine Shaabana on Unsplash, (2018)[2] Photo by Malte Helmhold on Unsplash, (2021)[3] M.Przybyla, Example of ranked SHAP output from a non-deep learning model, (2021)[4] Photo by Luca Bravo on Unsplash, (2016)[5] Photo by Hello I’m Nik on Unsplash, (2021)

Daniel Morales

Apr 16, 2020

Data Science

Machine Learning

Métricas De Evaluación De Modelos En El Aprendizaje Automático

CréditosLos modelos predictivos se han convertido en un asesor de confianza para muchas empresas y por una buena razón. Estos modelos pueden "prever el futuro", y hay muchos métodos diferentes disponibles, lo que significa que cualquier industria puede encontrar uno que se ajuste a sus retos particulares.Cuando hablamos de modelos predictivos, nos referimos a un modelo de regresión (salida continua) o a un modelo de clasificación (salida nominal o binaria). En los problemas de clasificación, utilizamos dos tipos de algoritmos (dependiendo del tipo de salida que este crea):Salida de clase: Algoritmos como Support Vector Machine y K Nearest Neighbors crean una salida de clase. Por ejemplo, en un problema de clasificación binaria, las salidas serán 0 o 1. Sin embargo, hoy en día tenemos algoritmos que pueden convertir estas salidas de clase en probabilidad.Salida de probabilidad: Algoritmos como la Regresión Logística, el Bosque Aleatorio, potenciación del Gradiente, el Adaboost, etc. dan salidas de probabilidad. Convertir las salidas de probabilidad en salidas de clase es sólo cuestión de crear un umbral de probabilidadPuedes leer más artículos de Data Science en español aquí Lea también:Tipos Claves De Regresiones: ¿Cuál Usar?IntroducciónSi bien la preparación de los datos y el entrenamiento de un modelo de aprendizaje de máquina es un paso clave en el proceso de aprendizaje automático, es igualmente importante medir el rendimiento de este modelo entrenado. Lo bien que el modelo generaliza sobre los datos no vistos es lo que define los modelos de aprendizaje automático adaptables frente a los no adaptables.Al utilizar diferentes métricas para la evaluación del rendimiento, deberíamos estar en posición de mejorar el poder de predicción general de nuestro modelo antes de que lo pongamos en marcha para la producción sobre datos no vistos antes.Si no se realiza una evaluación adecuada del modelo aprendizaje automático utilizando diferentes métricas, y se usa sólo la precisión, puede darse un problema cuando el modelo respectivo se despliega sobre datos no vistos y puede dar lugar a malas predicciones.Esto sucede porque, en casos como éste, nuestros modelos no aprenden sino que memorizan; por lo tanto, no pueden generalizar bien sobre datos no vistos.Métricas de evaluación del modeloDefinamos ahora las métricas de evaluación para valorar el rendimiento de un modelo de aprendizaje automático, que es un componente integral de cualquier proyecto de ciencia de los datos. Su objetivo es estimar la precisión de la generalización de un modelo sobre los datos futuros (no vistos/fuera de muestra).Matriz de confusiónUna matriz de confusión es una representación matricial de los resultados de las predicciones de cualquier prueba binaria que se utiliza a menudo para describir el rendimiento del modelo de clasificación (o "clasificador") sobre un conjunto de datos de prueba cuyos valores reales se conocen.La matriz de confusión es relativamente sencilla de comprender, pero la terminología relacionada puede ser confusa.Matriz de confusión con 2 etiquetas de clase.Cada predicción puede ser uno de cuatro resultados, basado en cómo coincide con el valor real:Verdadero Positivo (TP): Predicho Verdadero y Verdadero en realidad.Verdadero Negativo (TN): Predicho Falso y Falso en realidad.Falso Positivo (FP): Predicción de verdadero y falso en la realidad.Falso Negativo (FN): Predicción de falso y verdadero en la realidad.Ahora entendamos este concepto usando la prueba de hipótesis.Lea también:Falsos Positivos Vs. Falsos Negativos Una hipótesis es una especulación o teoría basada en pruebas insuficientes que se presta a más pruebas y experimentación. Con más pruebas, una hipótesis puede ser probada como verdadera o falsa.Una Hipótesis Nula es una hipótesis que dice que no hay significancia estadística entre las dos variables de la hipótesis. Es la hipótesis que el investigador está tratando de refutar.Siempre rechazamos la hipótesis nula cuando es falsa, y aceptamos la hipótesis nula cuando es realmente verdadera.Aunque las pruebas de hipótesis se supone que son fiables, hay dos tipos de errores que pueden ocurrir.Estos errores se conocen como errores de Tipo I y Tipo II.Por ejemplo, cuando se examina la eficacia de una droga, la hipótesis nula sería que la droga no afecta a una enfermedad.Error de Tipo I: equivalente a los Falsos Positivos(FP).El primer tipo de error posible implica el rechazo de una hipótesis nula que es verdadera.Volvamos al ejemplo de una droga que se utiliza para tratar una enfermedad. Si rechazamos la hipótesis nula en esta situación, entonces afirmamos que la droga tiene algún efecto sobre una enfermedad. Pero si la hipótesis nula es cierta, entonces, en realidad, la droga no combate la enfermedad en absoluto. Se afirma falsamente que la droga tiene un efecto positivo en una enfermedad.Error de tipo II:- equivalente a Falsos Negativos(FN).El otro tipo de error que ocurre cuando aceptamos una hipótesis falsa nula. Este tipo de error se llama error de tipo II y también se conoce como error de segundo tipo.Si pensamos de nuevo en el escenario en el que estamos probando una droga, ¿cómo sería un error de tipo II? Un error de tipo II ocurriría si aceptáramos que la droga no tiene efecto sobre la enfermedad, pero en realidad, sí lo tiene.Un ejemplo de la implementación Python de la matriz de confusión.Puedes leer más artículos de Data Science en español aquí import warningsimport pandas as pdfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import confusion_matriximport matplotlib.pyplot as plt%matplotlib inline #ignore warningswarnings.filterwarnings('ignore')# Load digits dataseturl = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"df = pd.read_csv(url)# df = df.valuesX = df.iloc[:,0:4]y = df.iloc[:,4]#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#Split data into train and test set. X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#Train Modelmodel = LogisticRegression()model.fit(X_train, y_train)pred = model.predict(X_test)#Construct the Confusion Matrixlabels = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']cm = confusion_matrix(y_test, pred, labels)print(cm)fig = plt.figure()ax = fig.add_subplot(111)cax = ax.matshow(cm)plt.title('Confusion matrix')fig.colorbar(cax)ax.set_xticklabels([''] + labels)ax.set_yticklabels([''] + labels)plt.xlabel('Predicted Values')plt.ylabel('Actual Values')plt.show()Matriz de confusión con 3 etiquetas de clase.Los elementos diagonales representan el número de puntos para los cuales la etiqueta predicha es igual a la etiqueta verdadera, mientras que cualquier cosa fuera de la diagonal fue mal etiquetada por el clasificador. Por lo tanto, cuanto más altos sean los valores diagonales de la matriz de confusión, mejor, indicando muchas predicciones correctas.En nuestro caso, el clasificador predijo perfectamente las 13 plantas de setosa y 18 de virginica en los datos de prueba. Sin embargo, clasificó incorrectamente 4 de las plantas versicolor como virginica.También hay una lista de tasas que a menudo se calculan a partir de una matriz de confusión para un clasificador binario:1. ExactitudEn general, ¿con qué frecuencia es correcto el clasificador?Exactitud = (TP+TN)/totalCuando nuestras clases son aproximadamente iguales en tamaño, podemos usar la precisión, que nos dará valores clasificados correctamente.La precisión es una métrica de evaluación común para los problemas de clasificación. Es el número de predicciones correctas hechas como una proporción de todas las predicciones hechas.Tasa de clasificación errónea (Tasa de error): En general, con qué frecuencia se equivoca. Dado que la exactitud es el porcentaje que clasificamos correctamente (tasa de éxito), se deduce que nuestra tasa de error (el porcentaje en que nos equivocamos) puede calcularse de la siguiente manera:Tasa de clasificación errónea = (FP+FN)/total#import modulesimport warningsimport pandas as pdimport numpy as npfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn import datasetsfrom sklearn.metrics import accuracy_score#ignore warningswarnings.filterwarnings('ignore')# Load digits datasetiris = datasets.load_iris()# # Create feature matrixX = iris.data# Create target vectory = iris.target#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#cross-validation settingskfold = model_selection.KFold(n_splits=10, random_state=seed)#Model instancemodel = LogisticRegression()#Evaluate model performancescoring = 'accuracy'results = model_selection.cross_val_score(model, X, y, cv=kfold, scoring=scoring)print('Accuracy -val set: %.2f%% (%.2f)' % (results.mean()*100, results.std()))#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#fit modelmodel.fit(X_train, y_train)#accuracy on test setresult = model.score(X_test, y_test)print("Accuracy - test set: %.2f%%" % (result*100.0))La precisión de la clasificación es del 88% en el conjunto de validación.2. PrecisiónCuando predice sí, ¿con qué frecuencia es correcto?Precisión=TP/predicciones síCuando tenemos un desequilibrio de clase, la precisión puede convertirse en una métrica poco fiable para medir nuestro desempeño. Por ejemplo, si tuviéramos una división de 99/1 entre dos clases, A y B, donde el evento raro, B, es nuestra clase positiva, podríamos construir un modelo que fuera 99% exacto con sólo decir que todo pertenece a la clase A. Claramente, no deberíamos molestarnos en construir un modelo si no hace nada para identificar la clase B; por lo tanto, necesitamos diferentes métricas que desalienten este comportamiento. Para ello, utilizamos la precisión y la sensibilidad en lugar de la exactitud.Puedes leer más artículos de Data Science en español aquí 3. ExhaustividadCuando en realidad es un sí, ¿con qué frecuencia predice un sí?Tasa positiva verdadera = TP/Si realesLa Exhaustividad nos da la tasa positiva verdadera (TPR), que es la proporción de los verdaderos positivos a todo lo positivo.En el caso de la división 99/1 entre las clases A y B, el modelo que clasifica todo como A tendría una exhaustividad del 0% para la clase positiva, B (la precisión sería indefinida - 0/0). La exhaustividad proporciona una mejor manera de evaluar el rendimiento del modelo ante un desequilibrio de clases. Nos dirá correctamente que el modelo tiene poco valor para nuestro caso de uso.Al igual que la exactitud, tanto la precisión como la exhaustividad son fáciles de calcular y comprender, pero requieren umbrales. Además, la precisión y la exhaustividad sólo consideran la mitad de la matriz de confusión:4. Puntuación F1La puntuación F1 es la media armónica de la precisión y exhaustividad, donde la puntuación de la F1 alcanza su mejor valor en 1 (precisión y exhaustividad perfectas) y el peor en 0.¿Por qué la media armónica? Dado que la media armónica de una lista de números se inclina fuertemente hacia últimos elementos de la lista, tiende (en comparación con la media aritmética) a mitigar el impacto de los grandes valores atípicos y a agravar el impacto de los pequeños.Una puntuación F1 castiga más los valores extremos. Idealmente, un puntaje F1 podría ser una métrica de evaluación efectiva en los siguientes escenarios de clasificación:Cuando los Falsos Positivos y la Falsos Negativos son igualmente costosos - lo que significa que se pasan verdaderos positivos o se encuentran falsos positivos - ambos impactan el modelo casi de la misma manera, como en nuestro ejemplo de clasificación de detección de cáncerAñadir más datos no cambia el resultado de manera efectivaLa TN es alta (como en las predicciones de inundaciones, predicciones de cáncer, etc.)Un ejemplo de implementación en Python de la puntuación F1.import warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_lossfrom sklearn.metrics import precision_recall_fscore_support as score, precision_score, recall_score, f1_scorewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]test_size = 0.33seed = 7model = LogisticRegression()#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)precision = precision_score(y_test, pred)print('Precision: %f' % precision)# recall: tp / (tp + fn)recall = recall_score(y_test, pred)print('Recall: %f' % recall)# f1: tp / (tp + fp + fn)f1 = f1_score(y_test, pred)print('F1 score: %f' % f1)Puedes leer más artículos de Data Science en español aquí 5. EspecificidadCuando es no, ¿con qué frecuencia predice el no?Tasa negativa real = TN/no realEs la verdadera tasa negativa o la proporción de verdaderos negativos a todo lo que debería haber sido clasificado como negativo.Obsérvese que, en conjunto, la especificidad y la sensibilidad consideran la matriz de confusión completa:6. Curva de características operativas del receptor (ROC)Medir el área bajo la curva ROC es también un método muy útil para evaluar un modelo. Al trazar la tasa positiva verdadera (sensibilidad) frente a la tasa de falsos positivos (1 - especificidad), obtenemos la curva de Característica Operativa del Receptor (ROC). Esta curva nos permite visualizar el equilibrio entre la tasa de verdaderos positivos y la tasa falsos positivosLos siguientes son ejemplos de buenas curvas ROC. La línea discontinua sería una suposición aleatoria (sin valor predictivo) y se utiliza como línea de base; cualquier cosa por debajo de eso se considera peor que una suposición. Queremos estar hacia la esquina superior izquierda:Una ejemplo de implementación en Python de las curvas ROC#Classification Area under curveimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import roc_auc_score, roc_curvewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)# predict probabilitiesprobs = model.predict_proba(X_test)# keep probabilities for the positive outcome onlyprobs = probs[:, 1]auc = roc_auc_score(y_test, probs)print('AUC - Test Set: %.2f%%' % (auc*100))# calculate roc curvefpr, tpr, thresholds = roc_curve(y_test, probs)# plot no skillplt.plot([0, 1], [0, 1], linestyle='--')# plot the roc curve for the modelplt.plot(fpr, tpr, marker='.')plt.xlabel('False positive rate')plt.ylabel('Sensitivity/ Recall')# show the plotplt.show()En el ejemplo anterior, la AUC está relativamente cerca de 1 y es mayor de 0,5. Un clasificador perfecto hará que la curva ROC vaya a lo largo del eje Y y luego a lo largo del eje X.7. Pérdida logarítmicaLa pérdida logarítmica es la métrica de clasificación más importante basada en probabilidades.A medida que la probabilidad predicha de la clase verdadera se acerca a cero, la pérdida aumenta exponencialmente:Mide el desempeño de un modelo de clasificación en el que la entrada de la predicción es un valor de probabilidad entre 0 y 1. La pérdida logarítmica aumenta a medida que la probabilidad predicha se aleja de la etiqueta real. El objetivo de cualquier modelo de aprendizaje automático es minimizar este valor. Por lo tanto, una pérdida logarítmica menor es mejor, con un modelo perfecto teniendo una pérdida logarítmica de 0.Una muestra de la implementación en Python de la pérdida logarítmica#Classification LogLossimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_losswarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)#predict and compute loglosspred = model.predict(X_test)accuracy = log_loss(y_test, pred)print("Logloss: %.2f" % (accuracy))Logloss: 8.02Puedes leer más artículos de Data Science en español aquí 8. Índice JaccardEl índice Jaccard es una de las formas más simples de calcular y averiguar la exactitud de un modelo de clasificación de aprendizaje automático. Entendamoslo con un ejemplo. Supongamos que tenemos un conjunto de pruebas etiquetadas, con etiquetas como -y = [0,0,0,0,0,1,1,1,1,1]Y nuestro modelo ha predicho las etiquetas como…y1 = [1,1,0,0,0,1,1,1,1,1]El anterior diagrama de Venn nos muestra las etiquetas del conjunto de pruebas y las etiquetas de las predicciones, y su intersección y unión.El índice Jaccard o coeficiente de similitud Jaccard es una estadística utilizada para comprender las similitudes entre los conjuntos de muestras. La medición enfatiza la similitud entre conjuntos de muestras finitas y se define formalmente como el tamaño de la intersección dividido por el tamaño de la unión de los dos conjuntos etiquetados, con la fórmula como -Índice Jaccard o Intersección sobre Unión(IoU)Así, para nuestro ejemplo, podemos ver que la intersección de los dos conjuntos es igual a 8 (ya que ocho valores se predicen correctamente) y la unión es 10 + 10-8 = 12. Por lo tanto, el índice Jaccard nos da la precisión como -Así que la precisión de nuestro modelo, según el índice Jaccard, se convierte en 0.66, o 66%.Cuanto mayor sea el índice Jaccard, mayor será la precisión del clasificador.Una muestra de implementación en Python del índice Jaccard.import numpy as npdef compute_jaccard_similarity_score(x, y): intersection_cardinality = len(set(x).intersection(set(y))) union_cardinality = len(set(x).union(set(y))) return intersection_cardinality / float(union_cardinality)score = compute_jaccard_similarity_score(np.array([0, 1, 2, 5, 6]), np.array([0, 2, 3, 5, 7, 9]))print "Jaccard Similarity Score : %s" %scorepassPuntaje de similitud Jaccard: 0.3759. Gráfico de Kolmogorov SmirnovEl gráfico K-S o Kolmogorov-Smirnov mide el rendimiento de los modelos de clasificación. Más exactamente, K-S es una medida del grado de separación entre las distribuciones positivas y negativas.La frecuencia acumulativa de las distribuciones observadas y de las hipótesis se traza en relación con las frecuencias ordenadas. La doble flecha vertical indica la máxima diferencia vertical.La K-S es 100 si las puntuaciones dividen la población en dos grupos separados en los que un grupo contiene todos los positivos y el otro todos los negativos. Por otra parte, si el modelo no puede diferenciar entre los positivos y los negativos, entonces es como si el modelo seleccionara casos al azar de la población. El K-S sería 0.En la mayoría de los modelos de clasificación la K-S caerá entre 0 y 100, y cuanto más alto sea el valor mejor será el modelo para separar los casos positivos de los negativos.La K-S también puede utilizarse para comprobar si dos distribuciones de probabilidad unidimensionales subyacentes difieren. Es una forma muy eficiente de determinar si dos muestras son significativamente diferentes entre sí.Un ejemplo de la implementación en Python del Kolmogorov-Smirnov.from scipy.stats import kstest import random # N = int(input("Enter number of random numbers: ")) N = 10 actual =[] print("Enter outcomes: ") for i in range(N): # x = float(input("Outcomes of class "+str(i + 1)+": ")) actual.append(random.random()) print(actual) x = kstest(actual, "norm") print(x)La hipótesis nula utilizada aquí asume que los números siguen la distribución normal. Devuelve estadísticas y valor p. Si el valor p es < alfa, rechazamos la hipótesis Nula.Alfa se define como la probabilidad de rechazar la hipótesis nula dado que la hipótesis nula(H0) es verdadera. Para la mayoría de las aplicaciones prácticas, se elige alfa como 0,05.Puedes leer más artículos de Data Science en español aquí 10. Gráfico de ganancia y elevaciónLa ganancia o el levantamiento es una medida de la eficacia de un modelo de clasificación calculado como la relación entre los resultados obtenidos con y sin el modelo. Los gráficos de ganancia y elevación son ayudas visuales para evaluar el rendimiento de los modelos de clasificación. Sin embargo, en contraste con la matriz de confusión que evalúa los modelos en toda la población, el gráfico de ganancia o elevación evalúa el rendimiento del modelo en una porción de la población.Cuanto mayor sea la elevación (es decir, cuanto más lejos esté de la línea de base), mejor será el modelo.El siguiente gráfico de ganancias, ejecutado en un conjunto de validación, muestra que con el 50% de los datos, el modelo contiene el 90% de los objetivos, la adición de más datos añade un aumento insignificante en el porcentaje de objetivos incluidos en el modelo.Gráfico de ganancia/elevaciónLos gráficos de elevación suelen presentarse como un gráfico de ascenso acumulativo, que también se conoce como gráfico de ganancias. Por lo tanto, los gráficos de ganancias a veces se denominan (quizás de forma confusa) "gráficos de elevación", pero son más exactos como gráficos de ascenso acumulativo.Uno de sus usos más comunes es en el marketing, para decidir si vale la pena llamar a un posible cliente.11. Coeficiente de GiniEl coeficiente de Gini o Índice de Gini es una métrica popular para los valores de clase desequilibrados. El coeficiente oscila entre 0 y 1, donde 0 representa la igualdad perfecta y 1 la desigualdad perfecta. Aquí, si el valor de un índice es mayor, entonces los datos estarán más dispersos.El coeficiente de Gini puede calcularse a partir del área bajo la curva ROC usando la siguiente fórmula:Coeficiente de Gini = (2 * curva_ROC) - 1Puedes leer más artículos de Data Science en español aquí ConclusiónComprender lo bien que un modelo de aprendizaje automático va a funcionar con datos no vistos es el propósito final de trabajar con estas métricas de evaluación. Métricas como la exactitud, la precisión, la exhaustividad son buenas formas de evaluar los modelos de clasificación para conjuntos de datos equilibrados, pero si los datos están desequilibrados y hay una disparidad de clases, entonces otros métodos como el ROC/AUC, el coeficiente de Gini funcionan mejor en la evaluación del rendimiento del modelo.Bueno, esto concluye este artículo. Espero que hayan disfrutado de su lectura, no duden en compartir sus comentarios/pensamientos/opiniones en la sección de comentarios.Gracias por leerlo!!!

Juan Guillermo Gómez Ramírez

Apr 16, 2020

Uber Ha Estado Creando Silenciosamente Uno De Los Stacks Open Source De Deep Learning Más Impresionantes Del Mercado

Contents Outline

Jesus Rodriguez

Uber Ha Estado Creando Silenciosamente Uno De Los Stacks Open Source De Deep Learning Más Impresionantes Del Mercado

Related Posts

Categories

Join Competition

Daniel Morales

Daniel Morales

Juan Guillermo Gómez Ramírez

Uber Ha Estado Creando Silenciosamente Uno De Los Stacks Open Source De Deep Learning Más Impresionantes Del Mercado

Contents Outline

Social Sharing

Jesus Rodriguez

Related Posts

Categories

Join Competition

Most Related Articles

Daniel Morales

Daniel Morales

Juan Guillermo Gómez Ramírez