Creando Todo El Pipeline De Machine Learning Con PyCaret y Python

Este tutorial cubre todo el proceso de Machine Learning, desde la ingestión de datos, el preprocesamiento, el entrenamiento del modelo, el ajuste de hiperparámetros, la predicción y el almacenamiento del modelo para su uso posterior.

Completaremos todos estos pasos en menos de 10 comandos de construcción natural y muy intuitivos de recordar, como por ejemplo:

create_model(), 
tune_model(), 
compare_models()
plot_model()
evaluate_model()
predict_model()

Veamos el cuadro completo

Nota Todos este proceso también lo puedes seguir en video en los siguientes enlaces

Screenshot%20from%202021-01-29%2006-13-54.png

Recrear el experimento completo sin PyCaret requiere más de 100 líneas de código en la mayoría de las librerias. PyCaret también permite hacer cosas más avanzadas, como el preprocesamiento avanzado, ensamblaje, apilamiento generalizado y otras técnicas que permiten personalizar completamente el pipeline de Machine Learning y que son imprescindibles para cualquier científico de datos.

PyCaret es una librería de código abierto de bajo nivel para Machine Learning con Python que permite pasar de la preparación de los datos al despliegue del modelo en minutos. Permite a los científicos y analistas de datos realizar experimentos iterativos de ciencia de datos de principio a fin de forma eficiente y les permite llegar a conclusiones más rápidamente porque se dedica mucho menos tiempo a la programación. Esta biblioteca es muy similar a Caret de R, pero implementada en python

Cuando se trabaja en un proyecto de ciencia de datos, normalmente se tarda mucho tiempo en entender los datos (EDA e ingeniería de características). Entonces, ¿qué pasaría si pudiéramos reducir a la mitad el tiempo que dedicamos a la parte de modelado del proyecto?

Veamos cómo

Primero necesitamos estos requisitos previos

Aquí puedes encontrar la documentación de la librería y otros.

Antes de nada, estas son las versiones para que el codigo ejecute correctamente:

Para los usuarios de Google Colab: Si está ejecutando este notebook en Google Colab, ejecute el siguiente código en la parte superior de su notebook para mostrar imágenes interactivas

from pycaret.utils import enable_colab
enable_colab()

Módulos de Pycaret

Pycaret está dividido según la tarea que queramos realizar, y tiene diferentes módulos, que representan cada tipo de aprendizaje (supervisado o no supervisado). Para este tutorial, trabajaremos en el módulo de aprendizaje supervisado con un algoritmo de clasificación binaria.

Módulo de clasificación

El módulo de clasificación de PyCaret (pycaret.classification) es un módulo de aprendizaje automático supervisado que se utiliza para clasificar elementos en un grupo binario basándose en varias técnicas y algoritmos. Algunos usos comunes de los problemas de clasificación incluyen la predicción de la falta de pago del cliente (sí o no), el abandono del cliente (el cliente se irá o se quedará), una enfermedad encontrada (positiva o negativa), etc.

El módulo de clasificación de PyCaret puede utilizarse para problemas de clasificación binarios o multiclase. Tiene más de 18 algoritmos y 14 gráficos para analizar el rendimiento del modelo. Ya sea el ajuste de hiperparámetros, ensamblaje o técnicas avanzadas como el apilamiento, el módulo de clasificación de PyCaret lo tiene todo.

Modelos de clasificación

Screenshot%20from%202021-01-29%2006-20-07.png

Para este tutorial utilizaremos un conjunto de datos de UCI Machine Learning llamado Default of Credit Card Clients. Este conjunto de datos contiene información sobre impagos, datos demográficos, datos de crédito, historial de pagos y extractos de facturación de clientes de tarjetas de crédito desde abril de 2005 hasta septiembre de 2005. Hay 24.000 muestras y 25 características.

1- Obtener los datos

Esta será la forma por defecto con la que trabajaremos en este tutorial. Es directamente desde los conjuntos de datos de PyCaret, y es el primer método de nuestro Pipeline

Screenshot%20from%202021-01-29%2006-29-11.png

Para demostrar la función predict_model() en datos no vistos, se ha conservado una muestra de 1200 registros del conjunto de datos original para utilizarla en las predicciones. Esto no debe confundirse con una división de entrenamiento/prueba, ya que esta división particular se hace para simular un escenario de la vida real. Otra forma de pensar en esto es que estos 1200 registros no están disponibles en el momento de realizar el experimento de Machine Learning.

Dividir los datos

La forma en que dividimos nuestro conjunto de datos es importante porque hay datos que no utilizaremos durante el proceso de modelado y que utilizaremos al final para validar nuestros resultados mediante la simulación de datos reales. Los datos que utilizamos para el modelado los subdividimos para evaluar dos escenarios, el de entrenamiento y el de prueba. Por lo tanto, se ha hecho lo siguiente

Screenshot%20from%202021-01-29%2006-33-53.png

Conjunto de datos no vistos (también conocido como conjunto de datos de validación) - unseen data

Conjunto de datos de entrenamiento

Conjunto de datos de prueba

Confusión de términos

2- Configurar el entorno de PyCaret

Screenshot%20from%202021-01-29%2006-39-18.png

Ahora vamos a configurar el entorno de Pycaret. La función setup() inicializa el entorno en pycaret y crea el pipeline de transformación para preparar los datos para su modelado y despliegue. La función setup() debe ser llamada antes de ejecutar cualquier otra función en pycaret. Toma dos parámetros obligatorios: un dataframe de pandas y el nombre de la columna de destino. La mayor parte de la configuración se hace de forma automática, pero algunos parámetros se pueden establecer manualmente. Por ejemplo:

Nota: Después de ejecutar el siguiente comando deben presionar enter para terminar el proceso. Explicaremos cómo lo hacen. El proceso de configuración puede tardar algún tiempo en completarse.

Cuando se ejecuta setup(), el algoritmo de inferencia de PyCaret deducirá automáticamente los tipos de datos de todas las características basándose en ciertas propiedades. El tipo de datos debería inferirse correctamente, pero no siempre es así. Para tener en cuenta esto, PyCaret muestra una tabla que contiene las características y sus tipos de datos inferidos después de ejecutar setup(). Si todos los tipos de datos se identifican correctamente, se puede pulsar enter para continuar o exit para terminar el experimento. Pulsamos enter, y debería salir la misma salida que obtuvimos anteriormente.

Asegurarse de que los tipos de datos son correctos es fundamental en PyCaret, ya que realiza automáticamente algunas tareas de preprocesamiento que son esenciales para cualquier experimento de Machine Learning. Estas tareas se realizan de forma diferente para cada tipo de datos, por lo que es muy importante que estén correctamente configuradas.

Podemos sobreescribir el tipo de datos inferidos desde PyCaret utilizando los parámetros numeric_features y categorical_features en setup(). Una vez que la configuración se ha ejecutado con éxito, se imprime la grilla de información que contiene varios datos importantes. La mayor parte de la información está relacionada con la tubería de preprocesamiento que se construye cuando se ejecuta setup().

La mayoría de estas características están fuera del alcance de este tutorial, sin embargo, algunas cosas importantes a tener en cuenta en esta etapa incluyen

Obsérvese cómo algunas tareas que son imprescindibles para realizar el modelado se manejan automáticamente, como la imputación de valores perdidos (en este caso no hay valores perdidos en los datos de entrenamiento, pero aún así necesitamos imputaciones para los datos no vistos), la codificación categórica, etc.

La mayoría de los parámetros de setup() son opcionales y se utilizan para personalizar el preprocesamiento.

3- Comparar modelos

Screenshot%20from%202021-01-29%2006-58-10.png

Para entender cómo PyCaret compara los modelos y los siguientes pasos en el proceso, es necesario entender el concepto de N-Fold Coss-Validation.

N-Fold Coss-Validation

Calcular la cantidad de datos que debe dividirse en el conjunto de datos es una cuestión delicada. Si su conjunto de entrenamiento es demasiado pequeño, su algoritmo puede no tener suficientes datos para aprender eficazmente. Por otro lado, si su conjunto de pruebas es demasiado pequeño, su exactitud, precisión, recall y puntuación F1 podrían tener una gran variación.

Puede tener mucha suerte o muy mala suerte. En general, poner el 70% de los datos en el conjunto de entrenamiento y el 30% de los datos en el conjunto de prueba es un buen punto de partida. A veces, su conjunto de datos es tan pequeño que dividirlo 70/30 dará lugar a una gran cantidad de varianza.

Una solución para esto es realizar una validación cruzada N-Fold. La idea central aquí es que vamos a hacer todo este proceso N veces y luego promediar la precisión. Por ejemplo, en una validación cruzada de 10 veces, haremos que el conjunto de prueba sea el primer 10% de los datos y calcularemos la exactitud, la precisión, el recall y la puntuación F1.

A continuación, haremos que la validación cruzada establezca el segundo 10% de los datos y calcularemos de nuevo estas estadísticas. Podemos hacer este proceso 10 veces, y cada vez el conjunto de prueba será un dato diferente. Luego hacemos una media de todas las precisiones, y tendremos una mejor idea de cómo funciona nuestro modelo en promedio.

Nota: El conjunto de validación (amarillo aquí) es el conjunto de prueba en nuestro caso

Screenshot%20from%202021-01-29%2007-00-49.png

Comprender la precisión de su modelo es muy valioso porque puede empezar a ajustar los parámetros de su modelo para aumentar su rendimiento. Por ejemplo, en el algoritmo K-Nearest Neighbors, puede ver lo que ocurre con la precisión a medida que aumenta o disminuye K. Una vez que esté satisfecho con el rendimiento de su modelo, es el momento de introducir el conjunto de validación. Esta es la parte de tus datos que dividiste al principio de su experimento (unseen_data en nuestro caso).

Se supone que es un sustituto de los datos del mundo real que usted está realmente interesado en clasificar. Funciona de forma muy similar al conjunto de pruebas, salvo que usted nunca tocó estos datos mientras construía o refinaba su modelo. Al encontrar las métricas de precisión, se obtiene una buena comprensión de lo bien que funcionará su algoritmo en el mundo real.

Comparación de todos los modelos

Comparar todos los modelos para evaluar el rendimiento es el punto de partida recomendado para el modelado una vez que PyCaret setup() se ha completado (a menos que usted sepa exactamente qué tipo de modelo se necesita, que a menudo no es el caso), esta función entrena todos los modelos en la biblioteca de modelos y los califica utilizando una validación cruzada estratificada para la evaluación de las métricas.

La salida imprime una cuadrícula de puntuación que muestra el promedio de la Exactitud, AUC, Recall, Precisión, F1, Kappa, y MCC a través de los pliegues (10 por defecto) junto con los tiempos de entrenamiento. ¡Vamos a hacerlo!

La función compare_models() permite comparar muchos modelos a la vez. Esta es una de las grandes ventajas de usar PyCaret. En una línea, tienes una tabla de comparación entre muchos modelos. Con dos simples palabras de código (ni siquiera una línea) se han entrenado y evaluado más de 15 modelos utilizando la validación cruzada N-Fold.

La tabla impresa arriba destaca las métricas de mayor rendimiento sólo para fines de comparación. La tabla por defecto se ordena utilizando "Accuracy" (de mayor a menor), lo que puede cambiarse pasando un parámetro. Por ejemplo, compare_models(sort = 'Recall') ordenará la tabla por Recall en lugar de Accuracy.

Si quiere cambiar el parámetro Fold del valor por defecto de 10 a un valor diferente, puede utilizar el parámetro fold. Por ejemplo, compare_models(fold = 5) comparará todos los modelos en una validación cruzada de 5 pliegues. Reducir el número de pliegues mejorará el tiempo de entrenamiento.

Por defecto, compare_models devuelve el modelo de mejor rendimiento basado en el orden de clasificación por defecto, pero puede utilizarse para devolver una lista de los N mejores modelos utilizando el parámetro n_select. Además, devuelve algunas métricas como la precisión, AUC y F1. Otra cosa interesante es cómo la biblioteca destaca automáticamente los mejores resultados. Una vez que elijas tu modelo, puedes crearlo y luego refinarlo. Vamos con otros métodos.

4- Crear el modelo

Screenshot%20from%202021-01-29%2007-19-52.png

create_model es la función más granular de PyCaret y suele ser la base de la mayor parte de la funcionalidad de PyCaret. Como su nombre indica, esta función entrena y evalúa un modelo utilizando una validación cruzada que se puede establecer con el parámetro fold. La salida imprime una tabla de puntuación que muestra por pliegue la Precisión, AUC, Recall, F1, Kappa y MCC.

Para el resto de este tutorial, trabajaremos con los siguientes modelos como nuestros modelos candidatos. Las selecciones son sólo para fines ilustrativos y no significan necesariamente que sean los de mejor rendimiento o ideales para este tipo de datos

Hay 18 clasificadores disponibles en la biblioteca de modelos PyCaret. Para ver una lista de todos los clasificadores, consulte la documentación o utilice la función models() para ver la biblioteca.

Observe que la puntuación media de todos los modelos coincide con la puntuación impresa en compare_models(). Esto se debe a que las métricas impresas en la tabla de puntuación de compare_models() son las puntuaciones medias de todos los pliegues.

También puede ver en cada print() de cada modelo los hiperparámetros con los que fueron construidos. Esto es muy importante porque es la base para mejorarlos. Puedes ver los parámetros del RandomForestClassifier.

max_depth=None
max_features='auto'
min_samples_leaf=1
min_samples_split=2
min_weight_fraction_leaf=0.0
n_estimadores=100
n_jobs=-1

5- Afinando del modelo

Screenshot%20from%202021-01-29%2007-23-33.png

Cuando se crea un modelo utilizando la función create_model() se utilizan los hiperparámetros por defecto para entrenar el modelo. Para ajustar los hiperparámetros se utiliza la función tune_model(). Esta función ajusta automáticamente los hiperparámetros de un modelo utilizando la Random Grid Search en un espacio de búsqueda predefinido.

La salida imprime una tabla de puntuación que muestra la exactitud, AUC, Recall, Precisión, F1, Kappa y MCC por pliegue para el mejor modelo. Para utilizar un search grid personalizado, puede pasar el parámetro custom_grid en la función tune_model.

Si comparamos las métricas de exactitud de este modelo refinado de RandomForestClassifier con el anterior RandomForestClassifier, vemos una diferencia, ya que pasó de una exactitud de 0,8199 a una exactitud de 0,8203.

Comparemos ahora los hiperparámetros. Antes teníamos estos.

max_depth=None
max_features='auto'
min_samples_leaf=1
min_samples_split=2
min_weight_fraction_leaf=0.0
n_estimadores=100
n_jobs=-1

Ahora estos:

max_depth=5
max_features=1.0
min_samples_leaf=5
min_samples_split=10
min_weight_fraction_leaf=0.0
n_estimadores=150
n_jobs=-1

Puede hacer esta misma comparación con knn y dt por sí mismo y explorar las diferencias en los hiperparámetros.

Por defecto, tune_model optimiza la Precisión, pero esto puede cambiarse usando el parámetro optimize. Por ejemplo: tune_model(dt, optimize = 'AUC') buscará los hiperparámetros de un Clasificador de Árbol de Decisión que dé como resultado el mayor AUC en lugar de la Precisión. Para los propósitos de este ejemplo, hemos utilizado la métrica por defecto de Accuracy sólo por simplicidad.

Por lo general, cuando el conjunto de datos está desequilibrado (como el conjunto de datos de crédito con el que estamos trabajando), Exactitud no es una buena métrica a tener en cuenta. La metodología subyacente a la selección de la métrica correcta para evaluar una calificación está fuera del alcance de este tutorial.

Las métricas por sí solas no son el único criterio que debe considerar al seleccionar el mejor modelo para producción. Otros factores a considerar son el tiempo de entrenamiento, la desviación estándar de los k-folds, etc. Por ahora, vamos a seguir adelante y considerar el clasificador Random Forest tuned_rf, como nuestro mejor modelo para el resto de este tutorial

6- Graficando del modelo

Screenshot%20from%202021-01-29%2007-28-29.png

Antes de finalizar el modelo (Paso # 8), la función plot_model() se puede utilizar para analizar el rendimiento a través de diferentes aspectos como AUC, matriz de confusión, límite de decisión, etc. Esta función toma un objeto modelo entrenado y devuelve un gráfico basado en el conjunto de entrenamiento/prueba.

Hay 15 gráficos diferentes disponibles, por favor consulte la documentación de plot_model() para ver una lista de los gráficos disponibles.

7- Evaluación del modelo

Screenshot%20from%202021-01-29%2007-30-59.png

Otra forma de analizar el rendimiento del modelo es utilizar la función evaluate_model() que muestra una interfaz de usuario para todos los gráficos disponibles para un modelo determinado. Internamente utiliza la función plot_model().

Un widget de Jupyter no se ha podido mostrar porque no se ha podido encontrar el estado del widget. Esto podría ocurrir si el núcleo que almacena el widget ya no está disponible, o si el estado del widget no se guardó en el notebook. Es posible que puedas crear el widget ejecutando las celdas correspondientes.

8- Finalizar el modelo

Screenshot%20from%202021-01-29%2007-32-51.png

La finalización del modelo es el último paso del experimento. Un flujo de trabajo normal de aprendizaje automático en PyCaret comienza con setup(), seguido de la comparación de todos los modelos usando compare_models() y la preselección de algunos modelos candidatos (basados en la métrica de interés) para realizar varias técnicas de modelado, como el ajuste de hiperparámetros, el ensamblaje, el apilamiento, etc.

Este flujo de trabajo le conducirá finalmente al mejor modelo a utilizar para hacer predicciones sobre datos nuevos y no vistos. La función finalizar_modelo() ajusta el modelo al conjunto completo de datos, incluyendo la muestra de test (30% en este caso). El propósito de esta función es entrenar el modelo en el conjunto completo de datos antes de que se despliegue en producción. Podemos ejecutar este método después o antes de predict_model(). Vamos a ejecutarlo después de él.

Una última advertencia. Una vez que el modelo se finaliza utilizando finalize_model(), todo el conjunto de datos, incluyendo el conjunto de prueba, se utiliza para el entrenamiento. Por lo tanto, si el modelo se utiliza para hacer predicciones sobre el conjunto de pruebas después de utilizar finalize_model(), la tabla de información impresa será engañosa, ya que está tratando de hacer predicciones sobre los mismos datos que se utilizaron para el modelado.

Para demostrar este punto, utilizaremos final_rf en predict_model() para comparar la tabla de información con la anterior.

9- Predicción con el modelo

Screenshot%20from%202021-01-29%2007-36-29.png

Antes de finalizar el modelo, es aconsejable realizar una última comprobación prediciendo el conjunto de validación/retención (data_unseen en nuestro caso) y revisando las métricas de evaluación. Si observamos la tabla de información, veremos que el 30% (6.841 muestras) de los datos han sido separados como muestras de training/set.

Todas las métricas de evaluación que hemos visto anteriormente son resultados de validación cruzada basados únicamente en el conjunto de entrenamiento (70%). Ahora, utilizando nuestro modelo de entrenamiento final almacenado en la variable tuned_rf predecimos contra la muestra de prueba y evaluamos las métricas para ver si son materialmente diferentes de los resultados de CV

La precisión del conjunto de pruebas es de 0,8199 en comparación con el 0,8203 obtenido en los resultados del tuned_rf.

No es una diferencia significativa. Si hay una gran variación entre los resultados del conjunto de prueba y el conjunto de entrenamiento, esto indicaría normalmente un sobreajuste, pero también podría deberse a otros factores y requeriría una investigación más profunda.

En este caso, procederemos a completar el modelo y la predicción sobre datos no vistos (el 5% que habíamos separado al principio y que nunca fue expuesto a PyCaret).

(TIP: Siempre es bueno mirar la desviación estándar de los resultados del conjunto de entrenamiento cuando se utiliza create_model().

La función predict_model() también se utiliza para predecir sobre el conjunto de datos no vistos. La única diferencia es que esta vez pasaremos el parámetro data_unseen. data_unseen es la variable creada al principio del tutorial y contiene el 5% (1200 muestras) del conjunto de datos original que nunca fue expuesto a PyCaret.

Por favor, vaya a la última columna de este resultado anterior, y verá una nueva característica llamada Score

Screenshot%20from%202021-01-29%2007-40-55.png

Label es la predicción y Score es la probabilidad de la predicción. Obsérvese que los resultados predichos se concatenan con el conjunto de datos original, mientras que todas las transformaciones se realizan automáticamente en segundo plano.

Hemos terminado el experimento finalizando el modelo tuned_rf que ahora se almacena en la variable final_rf. También hemos utilizado el modelo almacenado en final_rf para predecir data_unseen. Esto nos lleva al final de nuestro experimento, pero queda una pregunta: ¿Qué ocurre cuando se tienen más datos nuevos que predecir? ¿Hay que volver a hacer todo el experimento? La respuesta es no, la función incorporada de PyCaret save_model() permite guardar el modelo junto con toda la tubería de transformación para su uso posterior y se almacena en un Pickle en el entorno local

(TIP: Siempre es bueno utilizar la fecha en el nombre del archivo al guardar los modelos, es bueno para el control de versiones)

Veámoslo en el siguiente paso

10- Guardar/Cargar modelo para producción

Screenshot%20from%202021-01-29%2007-42-55.png

Save Model

Cargar modelo

Para cargar un modelo guardado en una fecha futura en el mismo entorno o en uno alternativo, utilizaríamos la función load_model() de PyCaret y luego aplicaríamos fácilmente el modelo guardado a nuevos datos no vistos para la predicción

Una vez cargado el modelo en el entorno, simplemente se puede utilizar para predecir cualquier dato nuevo utilizando la misma función predict_model(). A continuación hemos aplicado el modelo cargado para predecir los mismos data_unseen que utilizamos antes.

Pros y contras

Como ocurre con cualquier librería nueva, todavía hay margen de mejora. Vamos a enumerar algunos de los pros y contras que hemos encontrado al utilizar la biblioteca.

Pros:

Contras:

Conclusiones

Este tutorial ha cubierto todo el proceso de ML, desde la ingestión de datos, el preprocesamiento, el entrenamiento del modelo, el ajuste de hiperparámetros, la predicción y el almacenamiento del modelo para su uso posterior. Hemos completado todos estos pasos en menos de 10 comandos que están construidos de forma natural y son muy intuitivos de recordar, como create_model(), tune_model(), compare_model(). Recrear todo el experimento sin PyCaret habría requerido más de 100 líneas de código en la mayoría de las bibliotecas.

La biblioteca también permite hacer cosas más avanzadas, como el preprocesamiento avanzado, el ensamblaje, el apilamiento generalizado y otras técnicas que permiten personalizar completamente el pipeline de Machine Learning y son imprescindibles para cualquier científico de datos