Una tubería escalable

Siguiendo el hilo anterior sobre data pipeline, en esta ocasión construiremos una tubería de datos que reciba los eventos usando el PuSub de Google como endpoint, y guardaremos los eventos en un lago de datos y una base de datos.

El enfoque presentado aquí guardará los eventos como datos en bruto (raw data), pero también discutiré las formas de transformar los eventos en datos procesados.

La tubería de datos que realiza toda esta funcionalidad es relativamente simple. El pipeline lee los mensajes de PubSub y luego transforma los eventos para su persistencia: la porción de BigQuery del pipeline convierte los mensajes en objetos de TableRow y los transmite directamente a BigQuery, mientras que la porción de AVRO del pipeline agrupa los eventos en ventanas discretas y luego guarda los eventos en Google Storage.

El gráfico de operaciones se muestra en la siguiente figura.

El canal de transmisión desplegado en Google Cloud

Establecer el Environment...

El primer paso para construir una tubería de datos es establecer las dependencias necesarias para compilar y desplegar el proyecto.

Utilicé las siguientes dependencias para configurar los entornos de la API de rastreo que envía los eventos a la tubería, y la tubería de datos que procesa los eventos.

<!-- Dependencies for the Tracking API ->
<dependency>
  <groupId>com.google.cloud</groupId>
  <artifactId>google-cloud-pubsub</artifactId>
  <version>0.32.0-beta</version>
  </dependency>
</dependencies>
<!-- Dependencies for the data pipeline ->
<dependency>
  <groupId>com.google.cloud.dataflow</groupId>
  <artifactId>google-cloud-dataflow-java-sdk-all</artifactId>
  <version>2.2.0</version>
</dependency>

Usé Eclipse para crear y compilar el código de este tutorial, ya que es de código abierto. Sin embargo, otros IDEs como IntelliJ proporcionan características adicionales para desplegar y monitorear las tareas de DataFlow.

Antes de poder implementar las tareas en Google Cloud, deberá configurar una cuenta de servicio tanto para PubSub como para DataFlow. La configuración de estas credenciales está fuera del alcance de este artículo, y hay más detalles disponibles en la documentación de Google.

Un requisito previo adicional para ejecutar este flujo de datos es la creación de un topic de PubSub en GCP. Definí un topic de eventos en bruto que se utiliza para publicar y consumir los mensajes para la tubería de datos. Puede encontrar más detalles sobre la creación de un topic PubSub aquí.

Para implementar este canal de datos, necesitarás configurar un entorno java con las dependencias maven mencionadas anteriormente, configurar un proyecto de Google Cloud y habilitar la facturación, habilitar la facturación en los servicios de almacenamiento y BigQuery, y crear un tema PubSub para el envío y la recepción de mensajes.

Todos estos servicios gestionados cuestan dinero, pero hay un nivel gratuito que puede utilizarse para crear un prototipo de una tubería de datos.

Sending events from a server to a PubSub topic

Eventos de publicación
Para construir una tubería de datos utilizable, es útil construir APIs que encapsulen los detalles del envío de datos de eventos.

La clase de API de rastreo proporciona esta funcionalidad, y puede utilizarse para enviar datos de eventos generados al conducto de datos. El código que se muestra a continuación muestra la firma del método para el envío de eventos, y muestra cómo generar datos de muestra.

/** Event Signature for the Tracking API 
public void sendEvent(String eventType, String eventVersion, HashMap<String, String> attributes);
*/
// send a batch of events    
for (int i=0; i<10000; i++) {
// generate event names      
  String eventType = Math.random() < 0.5 ? 
      "Session" : (Math.random() < 0.5 ? "Login" : "MatchStart");
// create attributes to send      
  HashMap<String, String> attributes = new HashMap<String,String>();
  attributes.put("userID", "" + (int)(Math.random()*10000));
  attributes.put("deviceType", Math.random() < 0.5 ? 
      "Android" : (Math.random() < 0.5 ? "iOS" : "Web"));
// send the event      
  tracking.sendEvent(eventType, "V1", attributes);      
}

La API de rastreo establece una conexión con un topic PubSub, pasa los eventos como un formato JSON, e implementa una llamada de retorno para la notificación de fallas en la entrega.

El código utilizado para enviar eventos se proporciona a continuación, y se basa en el ejemplo de PubSub de Google que se proporciona aquí.

// Setup a PubSub connection 
TopicName topicName = TopicName.of(projectID, topicID);
Publisher publisher = Publisher.newBuilder(topicName).build();
// Specify an event to send
String event = {\"eventType\":\"session\",\"eventVersion\":\"1\"}";
// Convert the event to bytes    
ByteString data = ByteString.copyFromUtf8(event.toString());
//schedule a message to be published    
PubsubMessage pubsubMessage = 
  PubsubMessage.newBuilder().setData(data).build();
// publish the message, and add this class as a callback listener
ApiFuture<String> future = publisher.publish(pubsubMessage);    ApiFutures.addCallback(future, this);

El código de arriba permite a las aplicaciones enviar eventos a un tema de PubSub. El siguiente paso es procesar estos eventos en un entorno totalmente gestionado que puede escalar según sea necesario para satisfacer la demanda.

Almacenamiento de eventos

Una de las funciones clave de una tubería de datos es poner los eventos instrumentados a disposición de los equipos de ciencia y análisis de datos para su análisis.

Las fuentes de datos utilizadas como endpoints deben tener una baja latencia y ser capaces de escalar hasta un volumen masivo de eventos.

El conducto de datos definido en este tutorial muestra cómo producir eventos tanto para BigQuery como para un lago de datos que puede utilizarse para dar soporte a un gran número de usuarios de empresas de análisis.

Streaming event data from PubSub to DataFlow

El primer paso en esta tubería de datos es leer los eventos de un topic PubSub y pasar los mensajes ingeridos al proceso de DataFlow.

DataFlow proporciona un conector PubSub que permite la transmisión de mensajes PubSub a otros componentes del DataFlow.

El código que se muestra a continuación muestra cómo instanciar el conducto de datos, especificar el modo de transmisión y consumir los mensajes de un topic PubSub específico.

El resultado de este proceso es una colección de mensajes PubSub que se pueden almacenar para su posterior análisis.

// set up pipeline options    
Options options = PipelineOptionsFactory.fromArgs(args)
  .withValidation().as(Options.class);    
options.setStreaming(true);    
Pipeline pipeline = Pipeline.create(options);
// read game events from PubSub    
PCollection<PubsubMessage> events = pipeline
  .apply(PubsubIO.readMessages().fromTopic(topic));

La primera forma en que queremos almacenar los eventos es en un formato de columnas que puede ser usado para construir un lago de datos.

Aunque este post no muestra cómo utilizar estos archivos en ETLs río abajo, tener un lago de datos es una gran manera de mantener una copia de su conjunto de datos en caso de que necesite hacer cambios en su base de datos.

El lago de datos proporciona una manera de volver a cargar sus datos si es necesario debido a cambios en los esquemas o problemas de ingestión de datos. A continuación se muestra la parte del lago de datos asignada a este proceso.

Batching events to AVRO format and saving to Google Storage

Para la AVRO, no podemos usar un enfoque de transmisión directa. Necesitamos agrupar los eventos en lotes antes de poder guardarlos en archivos planos.

La forma en que esto se puede lograr en DataFlow es aplicando una función de ventanas que agrupa los eventos en lotes fijos.

El código que se muestra a continuación aplica transformaciones que convierten los mensajes PubSub en objetos String, agrupa los mensajes en intervalos de 5 minutos y envía los lotes resultantes a archivos AVRO en Google Storage.

// AVRO output portion of the pipeline    
events
.apply("To String", ParDo.of(new DoFn<PubsubMessage, String>() {
  @ProcessElement        
  public void processElement(ProcessContext c) throws Exception {
    String message = new String(c.element().getPayload());
    c.output(message);        
  }      
}))
// Batch events into 5 minute windows      
.apply("Batch Events", Window.<String>into(    
    FixedWindows.of(Duration.standardMinutes(5)))       
  .triggering(AfterWatermark.pastEndOfWindow())     
  .discardingFiredPanes()              
  .withAllowedLateness(Duration.standardMinutes(5)))
// Save the events in ARVO format      
.apply("To AVRO", AvroIO.write(String.class)
  .to("gs://your_gs_bucket/avro/raw-events.avro")
  .withWindowedWrites() 
  .withNumShards(8)
  .withSuffix(".avro"));

Para resumir, el código anterior agrupa los eventos en ventanas de 5 minutos y luego exporta los eventos a archivos AVRO en Google Storage.

El resultado de esta porción de la tubería de datos es una colección de archivos AVRO en el almacenamiento de Google que puede ser usada para construir un lago de datos.

Cada 5 minutos se genera una nueva salida de AVRO, y los ETL pueden analizar los eventos en bruto en esquemas de tablas específicas de eventos procesados. La imagen de abajo muestra una salida de los archivos de AVRO.

AVRO files saved to Google Storage

Además de crear un lago de datos, queremos que los eventos sean accesibles inmediatamente en un entorno de consulta.

DataFlow proporciona un conector BigQuery que sirve esta funcionalidad, y los datos enviados a este endpoint están disponibles para su análisis después de una corta duración.

Esta porción de la tubería de datos se muestra en la siguiente figura.

Streaming events from DataFlow to BigQuery

La tubería de datos convierte los mensajes PubSub en objetos TableRow, que pueden ser insertados directamente en BigQuery.

El código de abajo consiste en dos métodos de aplicación: una transformación de datos y un escritor IO.

El paso de transformación lee las cargas útiles de los mensajes de PubSub, analiza el mensaje como un objeto JSON, extrae los atributos eventType y eventVersion, y crea un objeto TableRow con estos atributos además de una marca de tiempo y la carga útil del mensaje.

El segundo método de aplicación le dice al pipeline que escriba los registros en BigQuery y que añada los eventos a una tabla existente.

// parse the PubSub events and create rows to insert into BigQuery    events.apply("To Table Rows", new 
  PTransform<PCollection<PubsubMessage>, PCollection<TableRow>>() { 
    public PCollection<TableRow> expand(
        PCollection<PubsubMessage> input) {       
 
      return input.apply("To Predictions", ParDo.of(new  
          DoFn<PubsubMessage, TableRow>() {    
     
    @ProcessElement          
    public void processElement(ProcessContext c) throws Exception {
      String message = new String(c.element().getPayload()); 
 
      // parse the json message for attributes
      JsonObject jsonObject = 
          new JsonParser().parse(message).getAsJsonObject();
      String eventType = jsonObject.get("eventType").getAsString();
      String eventVersion = jsonObject.
              get("eventVersion").getAsString();          
      String serverTime = dateFormat.format(new Date()); 
 
     // create and output the table row            
     TableRow record = new TableRow();            
     record.set("eventType", eventType);               
     record.set("eventVersion", eventVersion);          
     record.set("serverTime", serverTime);
     record.set("message", message);            
     c.output(record);          
  }}));      
}})
 
//stream the events to Big Query    
.apply("To BigQuery",BigQueryIO.writeTableRows()   
  .to(table)           
  .withSchema(schema)
  .withCreateDisposition(CreateDisposition.CREATE_IF_NEEDED)
  .withWriteDisposition(WriteDisposition.WRITE_APPEND));

Para resumir el código anterior, cada mensaje que se consume de PubSub se convierte en un objeto de TableRow con una marca de tiempo y luego se transmite a BigQuery para su almacenamiento.

El resultado de esta porción de la tubería de datos es que los eventos serán transmitidos a BigQuery y estarán disponibles para su análisis en la tabla de salida especificada por la tarea de DataFlow.

Para utilizar eficazmente estos eventos para las consultas, necesitará construir ETLs adicionales para crear tablas de eventos procesados con registros esquematizados, pero ahora tiene un mecanismo de recolección de datos para almacenar eventos de seguimiento.

Game event records queried from the raw-events table in BigQuery

Despliegue y escalado automático

Con DataFlow puede probar la tubería de datos localmente o desplegarla en la nube. Si ejecuta los ejemplos de código sin especificar atributos adicionales, entonces la tubería de datos se ejecutará en su máquina local.

Para poder realizar el despliegue en la nube y aprovechar las capacidades de escalado automático de este conducto de datos, debe especificar una nueva clase de Runner como parte de sus argumentos de tiempo de ejecución. Para ejecutar el conducto de datos, utilicé los siguientes argumentos de tiempo de ejecución:

--runner=org.apache.beam.runners.dataflow.DataflowRunner 
--jobName=game-analytics
--project=your_project_id 
--tempLocation=gs://temp-bucket

Una vez que el trabajo se despliega, deberías ver un mensaje de que el trabajo ha sido enviado. Entonces puede hacer clic en la consola de DataFlow para ver la tarea:

The steaming data pipeline running on Google Cloud

La configuración de tiempo de ejecución especificada anteriormente no se predeterminará en una configuración de escalado automático.

Para implementar un trabajo que se escalará según la demanda, deberá especificar atributos adicionales, como por ejemplo:

--autoscalingAlgorithm=THROUGHPUT_BASED
--maxNumWorkers=30

Detalles adicionales sobre la configuración de una tarea de DataFlow para escalar a condiciones de gran carga de trabajo están disponibles en este artículo de Google y en esta entrada de Spotify.

La imagen de abajo muestra cómo DataFlow puede escalar para satisfacer la demanda según sea necesario.

An example of Dataflow auto scaling. The pipeline will scale up and down as necessary to match demand.

De los datos en bruto a eventos procesados.

El conducto presentado hasta ahora guarda los eventos de rastreo como datos en bruto. Para traducir estos eventos a datos procesados, necesitaremos aplicar esquemas específicos de eventos. Hay algunos enfoques diferentes que podemos tomar con esta tubería:

Aplicar los esquemas en el conducto actual de DataFlow y guardar en BigQuery
Aplicar los esquemas en la tubería actual y enviar a un nuevo PubSub
Aplicar atributos adicionales a los eventos en bruto y enviar a un nuevo PubSub
Usar los ETLs posteriores para aplicar los esquemas

El primer enfoque es el más sencillo, pero no ofrece una buena solución para actualizar las definiciones de los eventos si es necesario.

Este enfoque puede ser implementado como se muestra en el siguiente código, que muestra cómo filtrar y analizar los eventos MatchStart para su entrada en BigQuery.

events.apply("To MatchStart Events", ParDo.of(
    new DoFn<PubsubMessage, TableRow>() {
@ProcessElement 
public void processElement(ProcessContext c) throws Exception {
  String message = new String(c.element().getPayload());
JsonObject jsonObject = new 
      JsonParser().parse(message).getAsJsonObject();
  String eventType = jsonObject.get("eventType").getAsString();
  String version = jsonObject.get("eventVersion").getAsString();
  String serverTime = dateFormat.format(new Date());

  // Filter for MatchStart events
  if (eventType.equals("MatchStart")) {

    TableRow record = new TableRow();
    record.set("eventType", eventType);
    record.set("eventVersion", version);
    record.set("server_time", serverTime);

    // event specifc attributes
    record.set("userID", jsonObject.get("userID").getAsString());
    record.set("type", jsonObject.get("deviceType").getAsString());
    c.output(record);
  }
}}))
.apply("To BigQuery",BigQueryIO.writeTableRows()

Para implementar este enfoque, necesitaría crear una nueva implementación de DoFn para cada tipo de evento.

El segundo enfoque es similar al primero, pero en lugar de pasar los eventos analizados a BigQuery, se pasan a un nuevo topic de PubSub.

Es posible enviar varios tipos de eventos a un solo tema o crear un tema por evento. El inconveniente de utilizar los dos primeros enfoques es que la lógica de análisis de mensajes forma parte de la cadena de eventos en bruto. Esto significa que cambiar las definiciones de los eventos implica reiniciar la tubería.

The streaming pipeline with an additional output:

Un tercer enfoque que puede utilizarse es el envío de eventos sin procesar con atributos adicionales a otro topic del PubSub.

Un segundo trabajo de flujo de datos puede ser configurado para analizar los eventos según sea necesario.

El código que se muestra a continuación muestra cómo analizar los eventos sin procesar, agregar atributos adicionales al mensaje PubSub para filtrarlos y publicar los eventos en un segundo topic.

Este enfoque permite cambiar las definiciones de los eventos sin necesidad de reiniciar el flujo de eventos sin procesar.

# topic for raw events with additional attributes 
private static String processed = 
  "projects/your_project_id/topics/processed-events";
events.apply("PubSub Processed", 
  ParDo.of(new DoFn<PubsubMessage, PubsubMessage>() {             
  @ProcessElement            
  public void processElement(ProcessContext c) throws Exception { 
    String message = new String(c.element().getPayload());   
   
    // parse the JSON message for attributes 
    JsonObject jsonObject = new 
        JsonParser().parse(message).getAsJsonObject(); 
    String eventType = jsonObject.get("eventType").getAsString(); 
    // Add additional attributes for filtering 
    HashMap<String, String> atts = new HashMap();               
    atts.put("EventType", eventType);               
    PubsubMessage out = new PubsubMessage(message.getBytes(), atts);
    c.output(out);                                                 
  }  
}))     
.apply(PubsubIO.writeMessages().to(processed));

Un cuarto enfoque que puede utilizarse es hacer que los procesos de ETL posteriores apliquen esquemas a los sucesos sin procesar y separen la tabla de sucesos sin procesar en tablas de sucesos específicos. Cubriremos este enfoque en el próximo artículo.

Conclusión

Este post ha proporcionado una introducción a la construcción de una tubería de datos para una startup.

Hemos cubierto los tipos de datos en una tubería, las propiedades deseadas de una tubería de datos de alto funcionamiento, la evolución de las tuberías de datos, y una tubería de muestra construida sobre GCP (Google Cloud Platform).

Ahora hay una variedad de herramientas disponibles que hacen posible establecer una tubería de análisis para una aplicación con un esfuerzo mínimo.

El uso de recursos gestionados permite a los equipos pequeños aprovechar la infraestructura sin servidores y de escalado automático para escalar a volúmenes de eventos masivos con una gestión de infraestructura mínima.

En lugar de utilizar la solución estándar de un proveedor de datos para recopilar datos, puede registrar todos los datos relevantes para su aplicación.

Si bien el enfoque que se presenta aquí no es directamente portable a otras nubes, la biblioteca Apache Beam que se utiliza para implementar la funcionalidad principal de este conducto de datos es portable y herramientas similares pueden aprovecharse para construir conductos de datos escalables en otros proveedores de nubes.

El código fuente completo de este pipeline de muestra está disponible en Github.

Most Related Articles

Machine Learning

Métricas De Evaluación De Modelos En El Aprendizaje Automático

CréditosLos modelos predictivos se han convertido en un asesor de confianza para muchas empresas y por una buena razón. Estos modelos pueden "prever el futuro", y hay muchos métodos diferentes disponibles, lo que significa que cualquier industria puede encontrar uno que se ajuste a sus retos particulares.Cuando hablamos de modelos predictivos, nos referimos a un modelo de regresión (salida continua) o a un modelo de clasificación (salida nominal o binaria). En los problemas de clasificación, utilizamos dos tipos de algoritmos (dependiendo del tipo de salida que este crea):Salida de clase: Algoritmos como Support Vector Machine y K Nearest Neighbors crean una salida de clase. Por ejemplo, en un problema de clasificación binaria, las salidas serán 0 o 1. Sin embargo, hoy en día tenemos algoritmos que pueden convertir estas salidas de clase en probabilidad.Salida de probabilidad: Algoritmos como la Regresión Logística, el Bosque Aleatorio, potenciación del Gradiente, el Adaboost, etc. dan salidas de probabilidad. Convertir las salidas de probabilidad en salidas de clase es sólo cuestión de crear un umbral de probabilidadPuedes leer más artículos de Data Science en español aquí Lea también:Tipos Claves De Regresiones: ¿Cuál Usar?IntroducciónSi bien la preparación de los datos y el entrenamiento de un modelo de aprendizaje de máquina es un paso clave en el proceso de aprendizaje automático, es igualmente importante medir el rendimiento de este modelo entrenado. Lo bien que el modelo generaliza sobre los datos no vistos es lo que define los modelos de aprendizaje automático adaptables frente a los no adaptables.Al utilizar diferentes métricas para la evaluación del rendimiento, deberíamos estar en posición de mejorar el poder de predicción general de nuestro modelo antes de que lo pongamos en marcha para la producción sobre datos no vistos antes.Si no se realiza una evaluación adecuada del modelo aprendizaje automático utilizando diferentes métricas, y se usa sólo la precisión, puede darse un problema cuando el modelo respectivo se despliega sobre datos no vistos y puede dar lugar a malas predicciones.Esto sucede porque, en casos como éste, nuestros modelos no aprenden sino que memorizan; por lo tanto, no pueden generalizar bien sobre datos no vistos.Métricas de evaluación del modeloDefinamos ahora las métricas de evaluación para valorar el rendimiento de un modelo de aprendizaje automático, que es un componente integral de cualquier proyecto de ciencia de los datos. Su objetivo es estimar la precisión de la generalización de un modelo sobre los datos futuros (no vistos/fuera de muestra).Matriz de confusiónUna matriz de confusión es una representación matricial de los resultados de las predicciones de cualquier prueba binaria que se utiliza a menudo para describir el rendimiento del modelo de clasificación (o "clasificador") sobre un conjunto de datos de prueba cuyos valores reales se conocen.La matriz de confusión es relativamente sencilla de comprender, pero la terminología relacionada puede ser confusa.Matriz de confusión con 2 etiquetas de clase.Cada predicción puede ser uno de cuatro resultados, basado en cómo coincide con el valor real:Verdadero Positivo (TP): Predicho Verdadero y Verdadero en realidad.Verdadero Negativo (TN): Predicho Falso y Falso en realidad.Falso Positivo (FP): Predicción de verdadero y falso en la realidad.Falso Negativo (FN): Predicción de falso y verdadero en la realidad.Ahora entendamos este concepto usando la prueba de hipótesis.Lea también:Falsos Positivos Vs. Falsos Negativos Una hipótesis es una especulación o teoría basada en pruebas insuficientes que se presta a más pruebas y experimentación. Con más pruebas, una hipótesis puede ser probada como verdadera o falsa.Una Hipótesis Nula es una hipótesis que dice que no hay significancia estadística entre las dos variables de la hipótesis. Es la hipótesis que el investigador está tratando de refutar.Siempre rechazamos la hipótesis nula cuando es falsa, y aceptamos la hipótesis nula cuando es realmente verdadera.Aunque las pruebas de hipótesis se supone que son fiables, hay dos tipos de errores que pueden ocurrir.Estos errores se conocen como errores de Tipo I y Tipo II.Por ejemplo, cuando se examina la eficacia de una droga, la hipótesis nula sería que la droga no afecta a una enfermedad.Error de Tipo I: equivalente a los Falsos Positivos(FP).El primer tipo de error posible implica el rechazo de una hipótesis nula que es verdadera.Volvamos al ejemplo de una droga que se utiliza para tratar una enfermedad. Si rechazamos la hipótesis nula en esta situación, entonces afirmamos que la droga tiene algún efecto sobre una enfermedad. Pero si la hipótesis nula es cierta, entonces, en realidad, la droga no combate la enfermedad en absoluto. Se afirma falsamente que la droga tiene un efecto positivo en una enfermedad.Error de tipo II:- equivalente a Falsos Negativos(FN).El otro tipo de error que ocurre cuando aceptamos una hipótesis falsa nula. Este tipo de error se llama error de tipo II y también se conoce como error de segundo tipo.Si pensamos de nuevo en el escenario en el que estamos probando una droga, ¿cómo sería un error de tipo II? Un error de tipo II ocurriría si aceptáramos que la droga no tiene efecto sobre la enfermedad, pero en realidad, sí lo tiene.Un ejemplo de la implementación Python de la matriz de confusión.Puedes leer más artículos de Data Science en español aquí import warningsimport pandas as pdfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import confusion_matriximport matplotlib.pyplot as plt%matplotlib inline #ignore warningswarnings.filterwarnings('ignore')# Load digits dataseturl = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"df = pd.read_csv(url)# df = df.valuesX = df.iloc[:,0:4]y = df.iloc[:,4]#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#Split data into train and test set. X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#Train Modelmodel = LogisticRegression()model.fit(X_train, y_train)pred = model.predict(X_test)#Construct the Confusion Matrixlabels = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']cm = confusion_matrix(y_test, pred, labels)print(cm)fig = plt.figure()ax = fig.add_subplot(111)cax = ax.matshow(cm)plt.title('Confusion matrix')fig.colorbar(cax)ax.set_xticklabels([''] + labels)ax.set_yticklabels([''] + labels)plt.xlabel('Predicted Values')plt.ylabel('Actual Values')plt.show()Matriz de confusión con 3 etiquetas de clase.Los elementos diagonales representan el número de puntos para los cuales la etiqueta predicha es igual a la etiqueta verdadera, mientras que cualquier cosa fuera de la diagonal fue mal etiquetada por el clasificador. Por lo tanto, cuanto más altos sean los valores diagonales de la matriz de confusión, mejor, indicando muchas predicciones correctas.En nuestro caso, el clasificador predijo perfectamente las 13 plantas de setosa y 18 de virginica en los datos de prueba. Sin embargo, clasificó incorrectamente 4 de las plantas versicolor como virginica.También hay una lista de tasas que a menudo se calculan a partir de una matriz de confusión para un clasificador binario:1. ExactitudEn general, ¿con qué frecuencia es correcto el clasificador?Exactitud = (TP+TN)/totalCuando nuestras clases son aproximadamente iguales en tamaño, podemos usar la precisión, que nos dará valores clasificados correctamente.La precisión es una métrica de evaluación común para los problemas de clasificación. Es el número de predicciones correctas hechas como una proporción de todas las predicciones hechas.Tasa de clasificación errónea (Tasa de error): En general, con qué frecuencia se equivoca. Dado que la exactitud es el porcentaje que clasificamos correctamente (tasa de éxito), se deduce que nuestra tasa de error (el porcentaje en que nos equivocamos) puede calcularse de la siguiente manera:Tasa de clasificación errónea = (FP+FN)/total#import modulesimport warningsimport pandas as pdimport numpy as npfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn import datasetsfrom sklearn.metrics import accuracy_score#ignore warningswarnings.filterwarnings('ignore')# Load digits datasetiris = datasets.load_iris()# # Create feature matrixX = iris.data# Create target vectory = iris.target#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#cross-validation settingskfold = model_selection.KFold(n_splits=10, random_state=seed)#Model instancemodel = LogisticRegression()#Evaluate model performancescoring = 'accuracy'results = model_selection.cross_val_score(model, X, y, cv=kfold, scoring=scoring)print('Accuracy -val set: %.2f%% (%.2f)' % (results.mean()*100, results.std()))#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#fit modelmodel.fit(X_train, y_train)#accuracy on test setresult = model.score(X_test, y_test)print("Accuracy - test set: %.2f%%" % (result*100.0))La precisión de la clasificación es del 88% en el conjunto de validación.2. PrecisiónCuando predice sí, ¿con qué frecuencia es correcto?Precisión=TP/predicciones síCuando tenemos un desequilibrio de clase, la precisión puede convertirse en una métrica poco fiable para medir nuestro desempeño. Por ejemplo, si tuviéramos una división de 99/1 entre dos clases, A y B, donde el evento raro, B, es nuestra clase positiva, podríamos construir un modelo que fuera 99% exacto con sólo decir que todo pertenece a la clase A. Claramente, no deberíamos molestarnos en construir un modelo si no hace nada para identificar la clase B; por lo tanto, necesitamos diferentes métricas que desalienten este comportamiento. Para ello, utilizamos la precisión y la sensibilidad en lugar de la exactitud.Puedes leer más artículos de Data Science en español aquí 3. ExhaustividadCuando en realidad es un sí, ¿con qué frecuencia predice un sí?Tasa positiva verdadera = TP/Si realesLa Exhaustividad nos da la tasa positiva verdadera (TPR), que es la proporción de los verdaderos positivos a todo lo positivo.En el caso de la división 99/1 entre las clases A y B, el modelo que clasifica todo como A tendría una exhaustividad del 0% para la clase positiva, B (la precisión sería indefinida - 0/0). La exhaustividad proporciona una mejor manera de evaluar el rendimiento del modelo ante un desequilibrio de clases. Nos dirá correctamente que el modelo tiene poco valor para nuestro caso de uso.Al igual que la exactitud, tanto la precisión como la exhaustividad son fáciles de calcular y comprender, pero requieren umbrales. Además, la precisión y la exhaustividad sólo consideran la mitad de la matriz de confusión:4. Puntuación F1La puntuación F1 es la media armónica de la precisión y exhaustividad, donde la puntuación de la F1 alcanza su mejor valor en 1 (precisión y exhaustividad perfectas) y el peor en 0.¿Por qué la media armónica? Dado que la media armónica de una lista de números se inclina fuertemente hacia últimos elementos de la lista, tiende (en comparación con la media aritmética) a mitigar el impacto de los grandes valores atípicos y a agravar el impacto de los pequeños.Una puntuación F1 castiga más los valores extremos. Idealmente, un puntaje F1 podría ser una métrica de evaluación efectiva en los siguientes escenarios de clasificación:Cuando los Falsos Positivos y la Falsos Negativos son igualmente costosos - lo que significa que se pasan verdaderos positivos o se encuentran falsos positivos - ambos impactan el modelo casi de la misma manera, como en nuestro ejemplo de clasificación de detección de cáncerAñadir más datos no cambia el resultado de manera efectivaLa TN es alta (como en las predicciones de inundaciones, predicciones de cáncer, etc.)Un ejemplo de implementación en Python de la puntuación F1.import warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_lossfrom sklearn.metrics import precision_recall_fscore_support as score, precision_score, recall_score, f1_scorewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]test_size = 0.33seed = 7model = LogisticRegression()#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)precision = precision_score(y_test, pred)print('Precision: %f' % precision)# recall: tp / (tp + fn)recall = recall_score(y_test, pred)print('Recall: %f' % recall)# f1: tp / (tp + fp + fn)f1 = f1_score(y_test, pred)print('F1 score: %f' % f1)Puedes leer más artículos de Data Science en español aquí 5. EspecificidadCuando es no, ¿con qué frecuencia predice el no?Tasa negativa real = TN/no realEs la verdadera tasa negativa o la proporción de verdaderos negativos a todo lo que debería haber sido clasificado como negativo.Obsérvese que, en conjunto, la especificidad y la sensibilidad consideran la matriz de confusión completa:6. Curva de características operativas del receptor (ROC)Medir el área bajo la curva ROC es también un método muy útil para evaluar un modelo. Al trazar la tasa positiva verdadera (sensibilidad) frente a la tasa de falsos positivos (1 - especificidad), obtenemos la curva de Característica Operativa del Receptor (ROC). Esta curva nos permite visualizar el equilibrio entre la tasa de verdaderos positivos y la tasa falsos positivosLos siguientes son ejemplos de buenas curvas ROC. La línea discontinua sería una suposición aleatoria (sin valor predictivo) y se utiliza como línea de base; cualquier cosa por debajo de eso se considera peor que una suposición. Queremos estar hacia la esquina superior izquierda:Una ejemplo de implementación en Python de las curvas ROC#Classification Area under curveimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import roc_auc_score, roc_curvewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)# predict probabilitiesprobs = model.predict_proba(X_test)# keep probabilities for the positive outcome onlyprobs = probs[:, 1]auc = roc_auc_score(y_test, probs)print('AUC - Test Set: %.2f%%' % (auc*100))# calculate roc curvefpr, tpr, thresholds = roc_curve(y_test, probs)# plot no skillplt.plot([0, 1], [0, 1], linestyle='--')# plot the roc curve for the modelplt.plot(fpr, tpr, marker='.')plt.xlabel('False positive rate')plt.ylabel('Sensitivity/ Recall')# show the plotplt.show()En el ejemplo anterior, la AUC está relativamente cerca de 1 y es mayor de 0,5. Un clasificador perfecto hará que la curva ROC vaya a lo largo del eje Y y luego a lo largo del eje X.7. Pérdida logarítmicaLa pérdida logarítmica es la métrica de clasificación más importante basada en probabilidades.A medida que la probabilidad predicha de la clase verdadera se acerca a cero, la pérdida aumenta exponencialmente:Mide el desempeño de un modelo de clasificación en el que la entrada de la predicción es un valor de probabilidad entre 0 y 1. La pérdida logarítmica aumenta a medida que la probabilidad predicha se aleja de la etiqueta real. El objetivo de cualquier modelo de aprendizaje automático es minimizar este valor. Por lo tanto, una pérdida logarítmica menor es mejor, con un modelo perfecto teniendo una pérdida logarítmica de 0.Una muestra de la implementación en Python de la pérdida logarítmica#Classification LogLossimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_losswarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)#predict and compute loglosspred = model.predict(X_test)accuracy = log_loss(y_test, pred)print("Logloss: %.2f" % (accuracy))Logloss: 8.02Puedes leer más artículos de Data Science en español aquí 8. Índice JaccardEl índice Jaccard es una de las formas más simples de calcular y averiguar la exactitud de un modelo de clasificación de aprendizaje automático. Entendamoslo con un ejemplo. Supongamos que tenemos un conjunto de pruebas etiquetadas, con etiquetas como -y = [0,0,0,0,0,1,1,1,1,1]Y nuestro modelo ha predicho las etiquetas como…y1 = [1,1,0,0,0,1,1,1,1,1]El anterior diagrama de Venn nos muestra las etiquetas del conjunto de pruebas y las etiquetas de las predicciones, y su intersección y unión.El índice Jaccard o coeficiente de similitud Jaccard es una estadística utilizada para comprender las similitudes entre los conjuntos de muestras. La medición enfatiza la similitud entre conjuntos de muestras finitas y se define formalmente como el tamaño de la intersección dividido por el tamaño de la unión de los dos conjuntos etiquetados, con la fórmula como -Índice Jaccard o Intersección sobre Unión(IoU)Así, para nuestro ejemplo, podemos ver que la intersección de los dos conjuntos es igual a 8 (ya que ocho valores se predicen correctamente) y la unión es 10 + 10-8 = 12. Por lo tanto, el índice Jaccard nos da la precisión como -Así que la precisión de nuestro modelo, según el índice Jaccard, se convierte en 0.66, o 66%.Cuanto mayor sea el índice Jaccard, mayor será la precisión del clasificador.Una muestra de implementación en Python del índice Jaccard.import numpy as npdef compute_jaccard_similarity_score(x, y): intersection_cardinality = len(set(x).intersection(set(y))) union_cardinality = len(set(x).union(set(y))) return intersection_cardinality / float(union_cardinality)score = compute_jaccard_similarity_score(np.array([0, 1, 2, 5, 6]), np.array([0, 2, 3, 5, 7, 9]))print "Jaccard Similarity Score : %s" %scorepassPuntaje de similitud Jaccard: 0.3759. Gráfico de Kolmogorov SmirnovEl gráfico K-S o Kolmogorov-Smirnov mide el rendimiento de los modelos de clasificación. Más exactamente, K-S es una medida del grado de separación entre las distribuciones positivas y negativas.La frecuencia acumulativa de las distribuciones observadas y de las hipótesis se traza en relación con las frecuencias ordenadas. La doble flecha vertical indica la máxima diferencia vertical.La K-S es 100 si las puntuaciones dividen la población en dos grupos separados en los que un grupo contiene todos los positivos y el otro todos los negativos. Por otra parte, si el modelo no puede diferenciar entre los positivos y los negativos, entonces es como si el modelo seleccionara casos al azar de la población. El K-S sería 0.En la mayoría de los modelos de clasificación la K-S caerá entre 0 y 100, y cuanto más alto sea el valor mejor será el modelo para separar los casos positivos de los negativos.La K-S también puede utilizarse para comprobar si dos distribuciones de probabilidad unidimensionales subyacentes difieren. Es una forma muy eficiente de determinar si dos muestras son significativamente diferentes entre sí.Un ejemplo de la implementación en Python del Kolmogorov-Smirnov.from scipy.stats import kstest import random # N = int(input("Enter number of random numbers: ")) N = 10 actual =[] print("Enter outcomes: ") for i in range(N): # x = float(input("Outcomes of class "+str(i + 1)+": ")) actual.append(random.random()) print(actual) x = kstest(actual, "norm") print(x)La hipótesis nula utilizada aquí asume que los números siguen la distribución normal. Devuelve estadísticas y valor p. Si el valor p es < alfa, rechazamos la hipótesis Nula.Alfa se define como la probabilidad de rechazar la hipótesis nula dado que la hipótesis nula(H0) es verdadera. Para la mayoría de las aplicaciones prácticas, se elige alfa como 0,05.Puedes leer más artículos de Data Science en español aquí 10. Gráfico de ganancia y elevaciónLa ganancia o el levantamiento es una medida de la eficacia de un modelo de clasificación calculado como la relación entre los resultados obtenidos con y sin el modelo. Los gráficos de ganancia y elevación son ayudas visuales para evaluar el rendimiento de los modelos de clasificación. Sin embargo, en contraste con la matriz de confusión que evalúa los modelos en toda la población, el gráfico de ganancia o elevación evalúa el rendimiento del modelo en una porción de la población.Cuanto mayor sea la elevación (es decir, cuanto más lejos esté de la línea de base), mejor será el modelo.El siguiente gráfico de ganancias, ejecutado en un conjunto de validación, muestra que con el 50% de los datos, el modelo contiene el 90% de los objetivos, la adición de más datos añade un aumento insignificante en el porcentaje de objetivos incluidos en el modelo.Gráfico de ganancia/elevaciónLos gráficos de elevación suelen presentarse como un gráfico de ascenso acumulativo, que también se conoce como gráfico de ganancias. Por lo tanto, los gráficos de ganancias a veces se denominan (quizás de forma confusa) "gráficos de elevación", pero son más exactos como gráficos de ascenso acumulativo.Uno de sus usos más comunes es en el marketing, para decidir si vale la pena llamar a un posible cliente.11. Coeficiente de GiniEl coeficiente de Gini o Índice de Gini es una métrica popular para los valores de clase desequilibrados. El coeficiente oscila entre 0 y 1, donde 0 representa la igualdad perfecta y 1 la desigualdad perfecta. Aquí, si el valor de un índice es mayor, entonces los datos estarán más dispersos.El coeficiente de Gini puede calcularse a partir del área bajo la curva ROC usando la siguiente fórmula:Coeficiente de Gini = (2 * curva_ROC) - 1Puedes leer más artículos de Data Science en español aquí ConclusiónComprender lo bien que un modelo de aprendizaje automático va a funcionar con datos no vistos es el propósito final de trabajar con estas métricas de evaluación. Métricas como la exactitud, la precisión, la exhaustividad son buenas formas de evaluar los modelos de clasificación para conjuntos de datos equilibrados, pero si los datos están desequilibrados y hay una disparidad de clases, entonces otros métodos como el ROC/AUC, el coeficiente de Gini funcionan mejor en la evaluación del rendimiento del modelo.Bueno, esto concluye este artículo. Espero que hayan disfrutado de su lectura, no duden en compartir sus comentarios/pensamientos/opiniones en la sección de comentarios.Gracias por leerlo!!!

Juan Guillermo Gómez Ramírez

Apr 14, 2020

Ciencia De Datos Para Startups: Data Pipelines - Parte 2

Contents Outline

Ben Weber

Ciencia De Datos Para Startups: Data Pipelines - Parte 2

Related Posts

Categories

Join Competition

Juan Guillermo Gómez Ramírez

Ciencia De Datos Para Startups: Data Pipelines - Parte 2

Contents Outline

Social Sharing

Ben Weber

Related Posts

Categories

Join Competition

Most Related Articles

Juan Guillermo Gómez Ramírez