Los fundadores de startups o empresas, los directivos o los tomadores de decisiones suelen afirmar que son "ricos en datos pero pobres en información". Esta afirmación es en muchos casos sólo parcialmente correcta porque oculta una idea errónea sobre el ciclo de vida de los datos y de la ciencia de datos. El hecho de estar repleto de datos pero con poca información sugiere que las fuentes de datos no explotadas anteriormente están esperando ser explotadas y utilizadas.

Es muy improbable que alguna organización reúna datos sin un propósito particular. En la mayoría de los casos, los datos se reúnen para gestionar los procesos operacionales. La reunión de datos sin un propósito determinado es un desperdicio de recursos. En muchas empresas, una vez que los datos se utilizan, se almacenan y se convierten en "datos oscuros".

Debido a que casi todos los procesos operacionales se registran electrónicamente, los datos ahora están en todas partes. Los gerentes se preguntan con razón qué hacer con esta información después de ser archivada. Un enfoque estratégico de la ciencia de datos ayudaría a una organización a desentrañar el valor no explotado de estos almacenes de datos para comprender mejor su contexto estratégico y operacional.

La evolución para convertirse en una organización basada en datos comienza con la recolección de datos generados durante los procesos operacionales. El siguiente paso consiste en describir estos datos mediante técnicas exploratorias como las visualizaciones y la estadística, que es el dominio del reporte tradicional en los negocios (o lo que se llama hoy en día Business Intelligence) el cual brinda insights para la toma de decisiones.

Una vez explorados y comprendidos los datos, las organizaciones pueden diagnosticar los procesos comerciales para comprender las relaciones causales y lógicas entre las variables. La penúltima fase consiste en utilizar el conocimiento del pasado y sus conexiones causales y lógicas para predecir posibles futuros y construir el futuro deseado. La etapa final del viaje de la ciencia de datos es una situación en la que los datos se utilizan para prescribir las operaciones cotidianas

Este proceso no es un viaje de izquierda a derecha, eventualmente aterrizando en un lugar donde los algoritmos controlan nuestro destino, y el resto se vuelve menos crítico. Este proceso guía la estrategia de la ciencia de datos hacia este punto, pero forma una estricta jerarquía.

Antes de que los algoritmos puedan decidir algo de forma independiente, necesitas ser capaz de predecir el futuro inmediato. Para predecir el futuro, necesitas tener una buena comprensión de las estadísticas descriptivas para diagnosticar un proceso de negocios. Por último, el principio Garbage-In-Garbage-Out (GIGO) exige que el análisis sólo sea posible si comprendemos los datos recogidos.

Hacia una organización basada en datos

El proceso que acabamos de ver proporciona un mapa estratégico para las organizaciones que tratan de basarse más en los datos. Cada uno de los pasos del proceso es igualmente importante para el siguiente nivel porque estos niveles más altos de complejidad no pueden lograrse sin abarcar los niveles más bajos. El aspecto más importante del proceso de la ciencia de datos es que resume un enfoque evolutivo para convertirse en una organización impulsada por los datos.

A medida que una organización evoluciona hacia formas más complejas de la ciencia de datos, las primeras etapas no se convierten en apéndices vestigiales, sino que siguen siendo una parte integral de la estrategia de la ciencia de los datos. Todas las partes de este modelo tienen el mismo valor relativo.

Sin embargo, ser impulsado por los datos es más que un proceso de creciente complejidad. La gestión basada en la evidencia requiere que las personas dentro de la organización sean conocedoras de los datos y trabajen juntas hacia un objetivo común.

El aspecto sistemático de la ciencia de datos requiere un proceso formalizado para garantizar resultados sólidos. La creciente complejidad de los métodos analíticos también requiere de una inversión en mejores instrumentos e infraestructura de datos.

Existen muchos aspectos técnicos que hay que tener en cuenta al aplicar la ciencia de datos en una organización. Sin embargo, el mero hecho de centrarse en los tecnicismos del análisis de datos no es suficiente para crear valor para una organización. Un administrador de ciencia de datos necesita administrar personas, sistemas y procesos para desarrollar una organización basada en datos.

Los responsables de la toma de decisiones a veces ignoran incluso las visualizaciones más útiles y estéticas, incluso cuando el análisis es sólido. La ciencia de datos que utiliza las mejores prácticas, es sólo el punto de partida para crear una organización basada en valor (value-driven organization). Un aspecto crítico para asegurar que los administradores utilicen los resultados es fomentar una cultura basada en los datos, lo que requiere administrar a las personas.

Para permitir que la ciencia de datos florezca, la organización necesita tener un conjunto bien establecido de sistemas informáticos para almacenar y analizar los datos y presentar los resultados. Se dispone de una amplia gama de herramientas de ciencia de datos, cada una de las cuales desempeña un papel diferente en la cadena de valor del análisis.

Cada proyecto de ciencia de datos comienza con una definición del problema que se traduce en datos y código para definir una solución. Este problema se inyecta en el vórtice de datos hasta que se encuentra una solución. El proceso de la ciencia de datos discute el flujo de trabajo de la creación de “productos de datos”.

Los tres aspectos para convertirse en una organización basada en datos y para implementar estratégicamente la ciencia de datos se requiere alinear a:

Las personas
Los sistemas y
Los procesos

Esto con el fin de optimizar el valor que se puede extraer de la información disponible.

1- Las Personas

Cuando se habla de las personas en una organización basada en datos, no debemos mencionar solamente a los especialistas que crean los productos de datos. Los miembros del equipo de ciencias de datos poseen las competencias que se muestran en el siguiente diagrama

Diagrama de Conway

Estas personas que son claramente técnicas deben ser capaces de comunicar los resultados de su trabajo a sus colegas o clientes y convencerlos de que apliquen los hallazgos.

La ciencia de datos no sólo ocurre exclusivamente dentro del equipo especializado. Cada proyecto de datos tiene un cliente interno o externo que tiene un problema que necesita una respuesta. El equipo de ciencia de datos y los usuarios de sus productos trabajan juntos para mejorar la organización.

Esto implica que un científico de datos necesita entender los principios básicos del comportamiento organizacional y el manejo del cambio y ser un buen comunicador. Por el contrario, los receptores de la ciencia de datos necesitan tener suficiente conocimiento de los datos para entender cómo interpretar y utilizar los resultados.

2- Los Sistemas

Al igual que cualquier otra profesión, un científico de datos necesita un conjunto adecuado de herramientas para crear valor a partir de los datos. Hay una gran cantidad de soluciones para la ciencia de datos disponibles en el mercado, muchas de las cuales son software de código abierto. Existen herramientas especializadas para cada aspecto del flujo de trabajo de la ciencia de datos.

No hay necesidad de discutir la multitud de paquetes que están disponibles. Muchos sitios web excelentes examinan las diversas ofertas. Ofreceremos por el contrario, algunas reflexiones sobre el uso de las Excel (o cualquier otro spreadsheet) frente a la escritura de código y las plataformas de business intelligence.

Las hojas de cálculo son una herramienta versátil para analizar datos que ha proliferado en casi todos los aspectos de los negocios. Sin embargo, esta herramienta universal no es muy adecuada para emprender una ciencia de datos compleja y sofisticada. Una de las ventajas que se perciben de las hojas de cálculo es que contienen los datos, el código y la salida en un archivo conveniente. Esta conveniencia tiene un precio, ya que reduce la solidez del análisis.

Cualquiera que haya tenido alguna vez el disgusto de hacer ingeniería inversa en una hoja de cálculo entenderá las limitaciones de las hojas de cálculo. En las hojas de cálculo, no queda claro inmediatamente qué celda es el resultado de otra celda y cuáles son los datos originales.

Muchas organizaciones utilizan las hojas de cálculo como única fuente de verdad para los datos de las empresas, lo que debería evitarse si es necesario compartir la información. La mejor práctica de la ciencia de datos es separar los datos, el código y el resultado.

Como se ha mencionado anteriormente, la mejor manera de crear unicornios en la ciencia de datos es enseñar a los expertos en la materia a escribir código analítico. Escribir código con R o Python es como escribir un manual de instrucciones sobre cómo analizar datos. Cualquiera que entienda el lenguaje será capaz de saber cómo se derivan sus conclusiones.

Los modernos lenguajes de la ciencia de datos pueden generar visualizaciones con calidad de impresión y pueden producir resultados en muchos formatos, incluyendo una hoja de cálculo o una aplicación independiente.

El estándar de oro para la programación en la ciencia de datos es la programación bien documentada. Esta técnica combina el código con “pseudocódigo” (o para hacerlo más sencillo, se trata de hacer comentarios al lado del código escrito, y así explicar cómo fue creado y cuál es su función) y así permitir que el algoritmo se entienda completamente. Todos los lenguajes de programación incluyen la capacidad de agregar estos comentarios.

Cada lenguaje tiene sus propios métodos para combinar el texto con el código. RMarkdown, Jupyter Notebooks y Org Mode son sistemas populares para llevar a cabo en análisis de datos y permiten entender fácilmente esos comentarios (incluso a modo de blog post con edición de texto). Una vez que se escribe el código, con sólo pulsar un botón la máquina genera un nuevo informe con estadísticas y gráficos actualizados.

Por último, las herramientas de Business Intelligence son útiles para difundir los resultados de un proyecto de ciencia de datos, pero no son muy útiles para realizar un análisis detallado. Una plataforma como Power BI es un gran sistema para visualizar el resultado de un análisis porque proporciona formas muy flexibles de cortar y trocear los datos y visualizar los resultados. Las capacidades analíticas de la plataforma no son muy altas pero pueden ser modificadas insertando código en Python o R para complementar sus capacidades.

Lea También: ¿Por qué las competiciones en data science son importantes para las startups?

3- Los procesos

El proceso de creación de valor a partir de los datos sigue un flujo de trabajo iterativo que funciona desde los datos en bruto hasta un proyecto terminado.

El flujo de trabajo comienza con la definición de un problema que necesita ser resuelto como se muestra en la siguiente figura. El siguiente paso implica cargar y transformar los datos en un formato adecuado para el análisis requerido. El flujo de trabajo de la ciencia de datos contiene un bucle que consiste en la exploración, el modelado y la reflexión, que se repite hasta que el problema se resuelve o se demuestra que no tiene solución.

El Flujo de Data Science

El flujo de trabajo de un proyecto de datos es independiente del aspecto de la continuidad de la ciencia de datos que se está considerando. Los mismos principios se aplican a todo tipo de análisis. En el caso de los proyectos de mayor envergadura, se aconsejan métodos formales de gestión de proyectos para controlar el tiempo, el presupuesto y la calidad.

Conclusion

Como podemos ver, las organizaciones deben hacer un esfuerzo consciente, informado y organizado para convertirse en una empresa basada en datos, lo cual significa que finalmente estarán tomando decisiones sin basarse en caprichos, egos, competencias u otras características, en vez de ello, las decisiones estratégicas e importantes y que generan valor, se toman basados en datos pasados, se analizan en el presente y se trata de predecir un resultado que favorezca la continuidad y las ventajas de la empresa en el mercado.

Por otro lado, vemos que la empresa debe cambiar ciertos procesos internos, y tener un personal adecuado, con el fin de tener una aproximación sofisticada y certera hacia los datos. Si usted desea más información sobre cómo implementar un problema de ciencia de datos podemos ayudarle aquí.

¡Esperamos haya disfrutado de la lectura!

Most Related Articles

Machine Learning

Métricas De Evaluación De Modelos En El Aprendizaje Automático

CréditosLos modelos predictivos se han convertido en un asesor de confianza para muchas empresas y por una buena razón. Estos modelos pueden "prever el futuro", y hay muchos métodos diferentes disponibles, lo que significa que cualquier industria puede encontrar uno que se ajuste a sus retos particulares.Cuando hablamos de modelos predictivos, nos referimos a un modelo de regresión (salida continua) o a un modelo de clasificación (salida nominal o binaria). En los problemas de clasificación, utilizamos dos tipos de algoritmos (dependiendo del tipo de salida que este crea):Salida de clase: Algoritmos como Support Vector Machine y K Nearest Neighbors crean una salida de clase. Por ejemplo, en un problema de clasificación binaria, las salidas serán 0 o 1. Sin embargo, hoy en día tenemos algoritmos que pueden convertir estas salidas de clase en probabilidad.Salida de probabilidad: Algoritmos como la Regresión Logística, el Bosque Aleatorio, potenciación del Gradiente, el Adaboost, etc. dan salidas de probabilidad. Convertir las salidas de probabilidad en salidas de clase es sólo cuestión de crear un umbral de probabilidadPuedes leer más artículos de Data Science en español aquí Lea también:Tipos Claves De Regresiones: ¿Cuál Usar?IntroducciónSi bien la preparación de los datos y el entrenamiento de un modelo de aprendizaje de máquina es un paso clave en el proceso de aprendizaje automático, es igualmente importante medir el rendimiento de este modelo entrenado. Lo bien que el modelo generaliza sobre los datos no vistos es lo que define los modelos de aprendizaje automático adaptables frente a los no adaptables.Al utilizar diferentes métricas para la evaluación del rendimiento, deberíamos estar en posición de mejorar el poder de predicción general de nuestro modelo antes de que lo pongamos en marcha para la producción sobre datos no vistos antes.Si no se realiza una evaluación adecuada del modelo aprendizaje automático utilizando diferentes métricas, y se usa sólo la precisión, puede darse un problema cuando el modelo respectivo se despliega sobre datos no vistos y puede dar lugar a malas predicciones.Esto sucede porque, en casos como éste, nuestros modelos no aprenden sino que memorizan; por lo tanto, no pueden generalizar bien sobre datos no vistos.Métricas de evaluación del modeloDefinamos ahora las métricas de evaluación para valorar el rendimiento de un modelo de aprendizaje automático, que es un componente integral de cualquier proyecto de ciencia de los datos. Su objetivo es estimar la precisión de la generalización de un modelo sobre los datos futuros (no vistos/fuera de muestra).Matriz de confusiónUna matriz de confusión es una representación matricial de los resultados de las predicciones de cualquier prueba binaria que se utiliza a menudo para describir el rendimiento del modelo de clasificación (o "clasificador") sobre un conjunto de datos de prueba cuyos valores reales se conocen.La matriz de confusión es relativamente sencilla de comprender, pero la terminología relacionada puede ser confusa.Matriz de confusión con 2 etiquetas de clase.Cada predicción puede ser uno de cuatro resultados, basado en cómo coincide con el valor real:Verdadero Positivo (TP): Predicho Verdadero y Verdadero en realidad.Verdadero Negativo (TN): Predicho Falso y Falso en realidad.Falso Positivo (FP): Predicción de verdadero y falso en la realidad.Falso Negativo (FN): Predicción de falso y verdadero en la realidad.Ahora entendamos este concepto usando la prueba de hipótesis.Lea también:Falsos Positivos Vs. Falsos Negativos Una hipótesis es una especulación o teoría basada en pruebas insuficientes que se presta a más pruebas y experimentación. Con más pruebas, una hipótesis puede ser probada como verdadera o falsa.Una Hipótesis Nula es una hipótesis que dice que no hay significancia estadística entre las dos variables de la hipótesis. Es la hipótesis que el investigador está tratando de refutar.Siempre rechazamos la hipótesis nula cuando es falsa, y aceptamos la hipótesis nula cuando es realmente verdadera.Aunque las pruebas de hipótesis se supone que son fiables, hay dos tipos de errores que pueden ocurrir.Estos errores se conocen como errores de Tipo I y Tipo II.Por ejemplo, cuando se examina la eficacia de una droga, la hipótesis nula sería que la droga no afecta a una enfermedad.Error de Tipo I: equivalente a los Falsos Positivos(FP).El primer tipo de error posible implica el rechazo de una hipótesis nula que es verdadera.Volvamos al ejemplo de una droga que se utiliza para tratar una enfermedad. Si rechazamos la hipótesis nula en esta situación, entonces afirmamos que la droga tiene algún efecto sobre una enfermedad. Pero si la hipótesis nula es cierta, entonces, en realidad, la droga no combate la enfermedad en absoluto. Se afirma falsamente que la droga tiene un efecto positivo en una enfermedad.Error de tipo II:- equivalente a Falsos Negativos(FN).El otro tipo de error que ocurre cuando aceptamos una hipótesis falsa nula. Este tipo de error se llama error de tipo II y también se conoce como error de segundo tipo.Si pensamos de nuevo en el escenario en el que estamos probando una droga, ¿cómo sería un error de tipo II? Un error de tipo II ocurriría si aceptáramos que la droga no tiene efecto sobre la enfermedad, pero en realidad, sí lo tiene.Un ejemplo de la implementación Python de la matriz de confusión.Puedes leer más artículos de Data Science en español aquí import warningsimport pandas as pdfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import confusion_matriximport matplotlib.pyplot as plt%matplotlib inline #ignore warningswarnings.filterwarnings('ignore')# Load digits dataseturl = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"df = pd.read_csv(url)# df = df.valuesX = df.iloc[:,0:4]y = df.iloc[:,4]#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#Split data into train and test set. X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#Train Modelmodel = LogisticRegression()model.fit(X_train, y_train)pred = model.predict(X_test)#Construct the Confusion Matrixlabels = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']cm = confusion_matrix(y_test, pred, labels)print(cm)fig = plt.figure()ax = fig.add_subplot(111)cax = ax.matshow(cm)plt.title('Confusion matrix')fig.colorbar(cax)ax.set_xticklabels([''] + labels)ax.set_yticklabels([''] + labels)plt.xlabel('Predicted Values')plt.ylabel('Actual Values')plt.show()Matriz de confusión con 3 etiquetas de clase.Los elementos diagonales representan el número de puntos para los cuales la etiqueta predicha es igual a la etiqueta verdadera, mientras que cualquier cosa fuera de la diagonal fue mal etiquetada por el clasificador. Por lo tanto, cuanto más altos sean los valores diagonales de la matriz de confusión, mejor, indicando muchas predicciones correctas.En nuestro caso, el clasificador predijo perfectamente las 13 plantas de setosa y 18 de virginica en los datos de prueba. Sin embargo, clasificó incorrectamente 4 de las plantas versicolor como virginica.También hay una lista de tasas que a menudo se calculan a partir de una matriz de confusión para un clasificador binario:1. ExactitudEn general, ¿con qué frecuencia es correcto el clasificador?Exactitud = (TP+TN)/totalCuando nuestras clases son aproximadamente iguales en tamaño, podemos usar la precisión, que nos dará valores clasificados correctamente.La precisión es una métrica de evaluación común para los problemas de clasificación. Es el número de predicciones correctas hechas como una proporción de todas las predicciones hechas.Tasa de clasificación errónea (Tasa de error): En general, con qué frecuencia se equivoca. Dado que la exactitud es el porcentaje que clasificamos correctamente (tasa de éxito), se deduce que nuestra tasa de error (el porcentaje en que nos equivocamos) puede calcularse de la siguiente manera:Tasa de clasificación errónea = (FP+FN)/total#import modulesimport warningsimport pandas as pdimport numpy as npfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn import datasetsfrom sklearn.metrics import accuracy_score#ignore warningswarnings.filterwarnings('ignore')# Load digits datasetiris = datasets.load_iris()# # Create feature matrixX = iris.data# Create target vectory = iris.target#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#cross-validation settingskfold = model_selection.KFold(n_splits=10, random_state=seed)#Model instancemodel = LogisticRegression()#Evaluate model performancescoring = 'accuracy'results = model_selection.cross_val_score(model, X, y, cv=kfold, scoring=scoring)print('Accuracy -val set: %.2f%% (%.2f)' % (results.mean()*100, results.std()))#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#fit modelmodel.fit(X_train, y_train)#accuracy on test setresult = model.score(X_test, y_test)print("Accuracy - test set: %.2f%%" % (result*100.0))La precisión de la clasificación es del 88% en el conjunto de validación.2. PrecisiónCuando predice sí, ¿con qué frecuencia es correcto?Precisión=TP/predicciones síCuando tenemos un desequilibrio de clase, la precisión puede convertirse en una métrica poco fiable para medir nuestro desempeño. Por ejemplo, si tuviéramos una división de 99/1 entre dos clases, A y B, donde el evento raro, B, es nuestra clase positiva, podríamos construir un modelo que fuera 99% exacto con sólo decir que todo pertenece a la clase A. Claramente, no deberíamos molestarnos en construir un modelo si no hace nada para identificar la clase B; por lo tanto, necesitamos diferentes métricas que desalienten este comportamiento. Para ello, utilizamos la precisión y la sensibilidad en lugar de la exactitud.Puedes leer más artículos de Data Science en español aquí 3. ExhaustividadCuando en realidad es un sí, ¿con qué frecuencia predice un sí?Tasa positiva verdadera = TP/Si realesLa Exhaustividad nos da la tasa positiva verdadera (TPR), que es la proporción de los verdaderos positivos a todo lo positivo.En el caso de la división 99/1 entre las clases A y B, el modelo que clasifica todo como A tendría una exhaustividad del 0% para la clase positiva, B (la precisión sería indefinida - 0/0). La exhaustividad proporciona una mejor manera de evaluar el rendimiento del modelo ante un desequilibrio de clases. Nos dirá correctamente que el modelo tiene poco valor para nuestro caso de uso.Al igual que la exactitud, tanto la precisión como la exhaustividad son fáciles de calcular y comprender, pero requieren umbrales. Además, la precisión y la exhaustividad sólo consideran la mitad de la matriz de confusión:4. Puntuación F1La puntuación F1 es la media armónica de la precisión y exhaustividad, donde la puntuación de la F1 alcanza su mejor valor en 1 (precisión y exhaustividad perfectas) y el peor en 0.¿Por qué la media armónica? Dado que la media armónica de una lista de números se inclina fuertemente hacia últimos elementos de la lista, tiende (en comparación con la media aritmética) a mitigar el impacto de los grandes valores atípicos y a agravar el impacto de los pequeños.Una puntuación F1 castiga más los valores extremos. Idealmente, un puntaje F1 podría ser una métrica de evaluación efectiva en los siguientes escenarios de clasificación:Cuando los Falsos Positivos y la Falsos Negativos son igualmente costosos - lo que significa que se pasan verdaderos positivos o se encuentran falsos positivos - ambos impactan el modelo casi de la misma manera, como en nuestro ejemplo de clasificación de detección de cáncerAñadir más datos no cambia el resultado de manera efectivaLa TN es alta (como en las predicciones de inundaciones, predicciones de cáncer, etc.)Un ejemplo de implementación en Python de la puntuación F1.import warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_lossfrom sklearn.metrics import precision_recall_fscore_support as score, precision_score, recall_score, f1_scorewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]test_size = 0.33seed = 7model = LogisticRegression()#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)precision = precision_score(y_test, pred)print('Precision: %f' % precision)# recall: tp / (tp + fn)recall = recall_score(y_test, pred)print('Recall: %f' % recall)# f1: tp / (tp + fp + fn)f1 = f1_score(y_test, pred)print('F1 score: %f' % f1)Puedes leer más artículos de Data Science en español aquí 5. EspecificidadCuando es no, ¿con qué frecuencia predice el no?Tasa negativa real = TN/no realEs la verdadera tasa negativa o la proporción de verdaderos negativos a todo lo que debería haber sido clasificado como negativo.Obsérvese que, en conjunto, la especificidad y la sensibilidad consideran la matriz de confusión completa:6. Curva de características operativas del receptor (ROC)Medir el área bajo la curva ROC es también un método muy útil para evaluar un modelo. Al trazar la tasa positiva verdadera (sensibilidad) frente a la tasa de falsos positivos (1 - especificidad), obtenemos la curva de Característica Operativa del Receptor (ROC). Esta curva nos permite visualizar el equilibrio entre la tasa de verdaderos positivos y la tasa falsos positivosLos siguientes son ejemplos de buenas curvas ROC. La línea discontinua sería una suposición aleatoria (sin valor predictivo) y se utiliza como línea de base; cualquier cosa por debajo de eso se considera peor que una suposición. Queremos estar hacia la esquina superior izquierda:Una ejemplo de implementación en Python de las curvas ROC#Classification Area under curveimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import roc_auc_score, roc_curvewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)# predict probabilitiesprobs = model.predict_proba(X_test)# keep probabilities for the positive outcome onlyprobs = probs[:, 1]auc = roc_auc_score(y_test, probs)print('AUC - Test Set: %.2f%%' % (auc*100))# calculate roc curvefpr, tpr, thresholds = roc_curve(y_test, probs)# plot no skillplt.plot([0, 1], [0, 1], linestyle='--')# plot the roc curve for the modelplt.plot(fpr, tpr, marker='.')plt.xlabel('False positive rate')plt.ylabel('Sensitivity/ Recall')# show the plotplt.show()En el ejemplo anterior, la AUC está relativamente cerca de 1 y es mayor de 0,5. Un clasificador perfecto hará que la curva ROC vaya a lo largo del eje Y y luego a lo largo del eje X.7. Pérdida logarítmicaLa pérdida logarítmica es la métrica de clasificación más importante basada en probabilidades.A medida que la probabilidad predicha de la clase verdadera se acerca a cero, la pérdida aumenta exponencialmente:Mide el desempeño de un modelo de clasificación en el que la entrada de la predicción es un valor de probabilidad entre 0 y 1. La pérdida logarítmica aumenta a medida que la probabilidad predicha se aleja de la etiqueta real. El objetivo de cualquier modelo de aprendizaje automático es minimizar este valor. Por lo tanto, una pérdida logarítmica menor es mejor, con un modelo perfecto teniendo una pérdida logarítmica de 0.Una muestra de la implementación en Python de la pérdida logarítmica#Classification LogLossimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_losswarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)#predict and compute loglosspred = model.predict(X_test)accuracy = log_loss(y_test, pred)print("Logloss: %.2f" % (accuracy))Logloss: 8.02Puedes leer más artículos de Data Science en español aquí 8. Índice JaccardEl índice Jaccard es una de las formas más simples de calcular y averiguar la exactitud de un modelo de clasificación de aprendizaje automático. Entendamoslo con un ejemplo. Supongamos que tenemos un conjunto de pruebas etiquetadas, con etiquetas como -y = [0,0,0,0,0,1,1,1,1,1]Y nuestro modelo ha predicho las etiquetas como…y1 = [1,1,0,0,0,1,1,1,1,1]El anterior diagrama de Venn nos muestra las etiquetas del conjunto de pruebas y las etiquetas de las predicciones, y su intersección y unión.El índice Jaccard o coeficiente de similitud Jaccard es una estadística utilizada para comprender las similitudes entre los conjuntos de muestras. La medición enfatiza la similitud entre conjuntos de muestras finitas y se define formalmente como el tamaño de la intersección dividido por el tamaño de la unión de los dos conjuntos etiquetados, con la fórmula como -Índice Jaccard o Intersección sobre Unión(IoU)Así, para nuestro ejemplo, podemos ver que la intersección de los dos conjuntos es igual a 8 (ya que ocho valores se predicen correctamente) y la unión es 10 + 10-8 = 12. Por lo tanto, el índice Jaccard nos da la precisión como -Así que la precisión de nuestro modelo, según el índice Jaccard, se convierte en 0.66, o 66%.Cuanto mayor sea el índice Jaccard, mayor será la precisión del clasificador.Una muestra de implementación en Python del índice Jaccard.import numpy as npdef compute_jaccard_similarity_score(x, y): intersection_cardinality = len(set(x).intersection(set(y))) union_cardinality = len(set(x).union(set(y))) return intersection_cardinality / float(union_cardinality)score = compute_jaccard_similarity_score(np.array([0, 1, 2, 5, 6]), np.array([0, 2, 3, 5, 7, 9]))print "Jaccard Similarity Score : %s" %scorepassPuntaje de similitud Jaccard: 0.3759. Gráfico de Kolmogorov SmirnovEl gráfico K-S o Kolmogorov-Smirnov mide el rendimiento de los modelos de clasificación. Más exactamente, K-S es una medida del grado de separación entre las distribuciones positivas y negativas.La frecuencia acumulativa de las distribuciones observadas y de las hipótesis se traza en relación con las frecuencias ordenadas. La doble flecha vertical indica la máxima diferencia vertical.La K-S es 100 si las puntuaciones dividen la población en dos grupos separados en los que un grupo contiene todos los positivos y el otro todos los negativos. Por otra parte, si el modelo no puede diferenciar entre los positivos y los negativos, entonces es como si el modelo seleccionara casos al azar de la población. El K-S sería 0.En la mayoría de los modelos de clasificación la K-S caerá entre 0 y 100, y cuanto más alto sea el valor mejor será el modelo para separar los casos positivos de los negativos.La K-S también puede utilizarse para comprobar si dos distribuciones de probabilidad unidimensionales subyacentes difieren. Es una forma muy eficiente de determinar si dos muestras son significativamente diferentes entre sí.Un ejemplo de la implementación en Python del Kolmogorov-Smirnov.from scipy.stats import kstest import random # N = int(input("Enter number of random numbers: ")) N = 10 actual =[] print("Enter outcomes: ") for i in range(N): # x = float(input("Outcomes of class "+str(i + 1)+": ")) actual.append(random.random()) print(actual) x = kstest(actual, "norm") print(x)La hipótesis nula utilizada aquí asume que los números siguen la distribución normal. Devuelve estadísticas y valor p. Si el valor p es < alfa, rechazamos la hipótesis Nula.Alfa se define como la probabilidad de rechazar la hipótesis nula dado que la hipótesis nula(H0) es verdadera. Para la mayoría de las aplicaciones prácticas, se elige alfa como 0,05.Puedes leer más artículos de Data Science en español aquí 10. Gráfico de ganancia y elevaciónLa ganancia o el levantamiento es una medida de la eficacia de un modelo de clasificación calculado como la relación entre los resultados obtenidos con y sin el modelo. Los gráficos de ganancia y elevación son ayudas visuales para evaluar el rendimiento de los modelos de clasificación. Sin embargo, en contraste con la matriz de confusión que evalúa los modelos en toda la población, el gráfico de ganancia o elevación evalúa el rendimiento del modelo en una porción de la población.Cuanto mayor sea la elevación (es decir, cuanto más lejos esté de la línea de base), mejor será el modelo.El siguiente gráfico de ganancias, ejecutado en un conjunto de validación, muestra que con el 50% de los datos, el modelo contiene el 90% de los objetivos, la adición de más datos añade un aumento insignificante en el porcentaje de objetivos incluidos en el modelo.Gráfico de ganancia/elevaciónLos gráficos de elevación suelen presentarse como un gráfico de ascenso acumulativo, que también se conoce como gráfico de ganancias. Por lo tanto, los gráficos de ganancias a veces se denominan (quizás de forma confusa) "gráficos de elevación", pero son más exactos como gráficos de ascenso acumulativo.Uno de sus usos más comunes es en el marketing, para decidir si vale la pena llamar a un posible cliente.11. Coeficiente de GiniEl coeficiente de Gini o Índice de Gini es una métrica popular para los valores de clase desequilibrados. El coeficiente oscila entre 0 y 1, donde 0 representa la igualdad perfecta y 1 la desigualdad perfecta. Aquí, si el valor de un índice es mayor, entonces los datos estarán más dispersos.El coeficiente de Gini puede calcularse a partir del área bajo la curva ROC usando la siguiente fórmula:Coeficiente de Gini = (2 * curva_ROC) - 1Puedes leer más artículos de Data Science en español aquí ConclusiónComprender lo bien que un modelo de aprendizaje automático va a funcionar con datos no vistos es el propósito final de trabajar con estas métricas de evaluación. Métricas como la exactitud, la precisión, la exhaustividad son buenas formas de evaluar los modelos de clasificación para conjuntos de datos equilibrados, pero si los datos están desequilibrados y hay una disparidad de clases, entonces otros métodos como el ROC/AUC, el coeficiente de Gini funcionan mejor en la evaluación del rendimiento del modelo.Bueno, esto concluye este artículo. Espero que hayan disfrutado de su lectura, no duden en compartir sus comentarios/pensamientos/opiniones en la sección de comentarios.Gracias por leerlo!!!

Juan Guillermo Gómez Ramírez

Feb 12, 2021

Business

El impacto de la IA y la ciencia de datos en los desafíos de la industria moderna

La transformación digital que atraviesan las industrias está haciendo que la ciencia de datos y la inteligencia artificial (IA) sean más esenciales que nunca. Desde la fabricación hasta la atención médica, las empresas están aprovechando los datos y la IA no solo para la eficiencia operativa, sino también para el crecimiento estratégico. Aquí exploraremos cómo las aplicaciones reales de la ciencia de datos y la IA están resolviendo desafíos industriales y moldeando el futuro.Mantenimiento Predictivo en la Manufactura Los fabricantes han buscado durante mucho tiempo formas de reducir el tiempo de inactividad de los equipos y prolongar la vida útil de las máquinas. El mantenimiento predictivo, impulsado por IA, permite a las empresas prever problemas antes de que ocurran. Al analizar datos de sensores conectados a las máquinas, la IA puede detectar señales tempranas de posibles fallos. Este enfoque proactivo reduce las averías inesperadas y los costos asociados, mejorando la productividad general.Un ejemplo destacado es el uso del mantenimiento predictivo en la industria de los ascensores. Los ascensores ahora están conectados a través de gateways GSM, lo que permite la comunicación de datos en tiempo real a través de redes como 3G y 4G. La IA analiza los datos de los sensores de varios componentes de los ascensores para detectar anomalías, como cambios en la vibración del motor o el desgaste de los cables. Cuando se detectan, estas anomalías generan alertas para que los técnicos solucionen los problemas antes de que se produzca una avería. Empresas como KONE han aprovechado plataformas como IBM Watson para mejorar sus capacidades de mantenimiento predictivo, garantizando operaciones más seguras y confiables.Detección de Fraudes en Servicios Financieros El fraude es un desafío persistente en los servicios financieros, amenazando la seguridad de las instituciones y de sus clientes. Las soluciones impulsadas por IA han revolucionado la detección de fraudes al utilizar algoritmos de aprendizaje automático para identificar patrones de transacciones inusuales y señalar posibles actividades fraudulentas en tiempo real.Estos sistemas se entrenan con extensos conjuntos de datos, lo que les permite aprender y adaptarse a las tácticas de fraude en constante cambio. Por ejemplo, los modelos de aprendizaje automático analizan datos históricos de transacciones para reconocer desviaciones del comportamiento típico del cliente. Esto permite a las instituciones financieras identificar y detener rápidamente transacciones sospechosas, minimizando el impacto del fraude. Las empresas que incorporan herramientas como Microsoft Power BI pueden optimizar aún más sus análisis, tomar decisiones informadas y fortalecer las medidas de seguridad en toda la organización.Diagnósticos Médicos La aplicación de la ciencia de datos en la atención médica es transformadora, permitiendo diagnósticos más rápidos y precisos. Los algoritmos de IA analizan datos médicos complejos, como imágenes y registros de pacientes, para identificar enfermedades de manera temprana y recomendar planes de tratamiento. Esto ayuda a los médicos a diagnosticar condiciones con mayor precisión y permite una atención más personalizada al paciente.En radiología, por ejemplo, las herramientas de IA pueden procesar miles de radiografías para detectar anomalías con una precisión que a veces supera a la de los expertos humanos. La IA también está demostrando ser indispensable en la genómica, ayudando a identificar marcadores de enfermedades hereditarias y guiando el desarrollo de tratamientos personalizados. Según DataScientest, los avances en la analítica de salud no solo están mejorando los procesos de diagnóstico, sino que también están facilitando mejores resultados para los pacientes al proporcionar información procesable sobre los datos médicos.Optimización de la Cadena de Suministro La cadena de suministro es la columna vertebral de cualquier industria orientada a productos. Una gestión eficaz de la cadena de suministro garantiza que los productos lleguen a los clientes de manera puntual y eficiente. La IA juega un papel importante aquí, mejorando las previsiones de demanda, la gestión de inventarios y los procesos de entrega.El análisis predictivo, por ejemplo, utiliza datos históricos de ventas y factores externos como el clima y los indicadores económicos para predecir la demanda de productos con mayor precisión. Esto ayuda a las empresas a evitar el exceso o la falta de inventario, lo que conduce a una gestión de inventarios más eficiente. Además, la optimización de rutas impulsada por IA garantiza tiempos de entrega más rápidos y menores costos de transporte.Mejora de la Experiencia del Cliente Las empresas hoy en día recurren cada vez más a la IA para mejorar las experiencias de los clientes. Al analizar los datos de los clientes, la IA puede ayudar a predecir las necesidades de los consumidores y personalizar las interacciones, haciendo que los servicios sean más atractivos y efectivos. Los chatbots impulsados por IA, por ejemplo, se han vuelto comunes para manejar consultas básicas de los clientes. Estos bots, equipados con procesamiento de lenguaje natural (NLP), pueden comprender y responder a preguntas, mejorando los tiempos de respuesta y la satisfacción general del cliente. Más allá de los chatbots, los motores de recomendación avanzados se utilizan en plataformas de comercio electrónico para sugerir productos basados en el comportamiento del usuario.Desafíos y Consideraciones Clave Aunque los beneficios de integrar la IA y la ciencia de datos son evidentes, las industrias deben superar varios desafíos para aprovechar al máximo estas tecnologías. La seguridad de los datos es de suma importancia, especialmente en sectores como la atención médica y los servicios financieros donde se manejan datos sensibles. Las empresas deben garantizar protocolos sólidos de seguridad de la información y cumplir con regulaciones como el Reglamento General de Protección de Datos (GDPR) en la UE y la Ley de Portabilidad y Responsabilidad de Seguros de Salud (HIPAA) en Estados Unidos.El sesgo en los modelos de IA es otro desafío que requiere atención. Si los algoritmos de aprendizaje automático se entrenan con datos no representativos, pueden perpetuar sesgos, lo que lleva a resultados injustos. Por ejemplo, los modelos sesgados en los procesos de contratación podrían generar decisiones desequilibradas, mientras que los algoritmos de atención médica sesgados podrían pasar por alto necesidades críticas de los pacientes. Las auditorías regulares y el entrenamiento con conjuntos de datos diversos pueden ayudar a mitigar estos riesgos.Consideraciones Éticas y Sostenibilidad El uso de la IA y la ciencia de datos debe alinearse con prácticas éticas. Esto incluye garantizar la transparencia en la toma de decisiones impulsada por IA y minimizar los posibles sesgos. También es importante priorizar la sostenibilidad. Las empresas deben esforzarse por implementar modelos de IA eficientes en términos de energía y considerar el impacto ambiental de sus centros de datos y necesidades de computación.El uso ético de los datos y la interpretabilidad de los modelos son fundamentales para generar confianza con los consumidores y las partes interesadas. Cuando las empresas comunican abiertamente cómo funcionan sus sistemas de IA y los pasos tomados para prevenir sesgos, fomentan la confianza y promueven una adopción más amplia.Mejora de las Habilidades de la Fuerza Laboral Para aprovechar al máximo el potencial de la IA y la ciencia de datos, las empresas deben invertir en la mejora de las habilidades de su fuerza laboral. Esto incluye capacitar a los empleados para que comprendan y trabajen con tecnologías de IA, así como fomentar una cultura de toma de decisiones basada en datos.El Futuro de la IA y la Ciencia de Datos en la Industria Las tendencias emergentes, como la automatización impulsada por IA y algoritmos de aprendizaje automático más sofisticados, redefinirán la forma en que operan las industrias. Las empresas que adopten estas tecnologías y se centren en construir una cultura centrada en los datos estarán mejor posicionadas para el éxito a largo plazo. La integración de la ciencia de datos y la IA en las prácticas industriales no es solo una tendencia: es una estrategia crucial para obtener una ventaja competitiva.

nikos_datasource

Feb 12, 2021

¿Cómo Hacer de Su Empresa Una Organización Basada En Datos?

Contents Outline

Daniel Morales

¿Cómo Hacer de Su Empresa Una Organización Basada En Datos?

Hacia una organización basada en datos

1- Las Personas

2- Los Sistemas

3- Los procesos

Conclusion

Related Posts

Categories

Join Competition

Juan Guillermo Gómez Ramírez

nikos_datasource

¿Cómo Hacer de Su Empresa Una Organización Basada En Datos?

Contents Outline

Social Sharing

Daniel Morales

Hacia una organización basada en datos

1- Las Personas

2- Los Sistemas

3- Los procesos

Conclusion

Related Posts

Categories

Join Competition

Most Related Articles

Juan Guillermo Gómez Ramírez

nikos_datasource