Crearemos un proyecto completo tratando de predecir los gastos de los clientes mediante una regresión lineal con Python. En este ejercicio, tenemos algunos datos históricos de transacciones de 2010 y 2011. Para cada transacción, tenemos un identificador de cliente (CustomerID), el número de unidades compradas (Quantity), la fecha de la compra (InvoiceDate) y el costo unitario (UnitPrice), así como alguna otra información sobre el artículo comprado.

Usted puede encontrar el dataset aqui

Queremos preparar estos datos para una regresión de los datos de las transacciones de los clientes de 2010 contra los gastos de 2011. Por lo tanto, crearemos características a partir de los datos del año 2010 y calcularemos el objetivo (la cantidad de dinero gastada) para 2011.

Cuando creemos este modelo, debería generalizarse a los años futuros para los que aún no tenemos el resultado. Por lo tanto, podríamos utilizar los datos de 2020 para predecir el comportamiento de gasto de 2021 por adelantado, a menos que el mercado o el negocio haya cambiado significativamente desde el período de tiempo al que se refieren los datos utilizados para ajustar el modelo:

import pandas as pd

df = pd.read_csv('datasets/retail_transactions.csv')
df.head()

resultado

Convierta la columna InvoiceDate en formato de fecha utilizando el siguiente código:

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
df.head()

resultado

Calcule los ingresos de cada fila, multiplicando la cantidad por el precio unitario:

df['revenue'] = df['UnitPrice']*df['Quantity']
df.head()

resultado

Observará que cada factura está repartida en varias filas, una para cada tipo de producto adquirido. Éstas pueden combinarse de tal manera que los datos de cada transacción se encuentran en una sola fila. Para ello, podemos realizar una operación agrupada en InvoiceNo. Sin embargo, antes de eso, necesitamos especificar cómo combinar esas filas que están agrupadas. Utilice el siguiente código:

operations = {'revenue':'sum',
              'InvoiceDate':'first',
              'CustomerID':'first' 
             }

df = df.groupby('InvoiceNo').agg(operations)
df.head()

resultado

En el fragmento de código precedente, especificamos primero las funciones de agregación que utilizaremos para cada columna, y luego realizamos la agrupación y aplicamos esas funciones. InvoiceDate y CustomerID serán los mismos para todas las filas de la misma factura, por lo que sólo podemos tomar la primera entrada para ellas. Para los ingresos, sumamos los ingresos de todos los artículos de la misma factura para obtener el total de ingresos de esa factura.

Dado que usaremos el año para decidir qué filas se están usando para la predicción y cuáles estamos prediciendo, cree una columna separada llamada año para el año, de la siguiente manera:

df['year'] = df['InvoiceDate'].apply(lambda x: x.year)
df.head()

resultado

Las fechas de las transacciones también pueden ser una fuente importante de características. Los días desde la última transacción de un cliente hasta el final del año, o lo temprano que un cliente tuvo su primera transacción, puede decirnos un poco sobre el historial de compras del cliente, lo cual podría ser importante. Por lo tanto, para cada transacción, calcularemos cuántos días de diferencia hay entre el último día de 2010 y la fecha de la factura:

df['days_since'] = (pd.datetime(year=2010, month=12, day=31) - 
                    df['InvoiceDate']).apply(lambda x: x.days)
df.head()

resultado

Actualmente, tenemos los datos agrupados por factura, pero realmente queremos que se agrupen por cliente.

Empezaremos calculando todos nuestros predictores. Definiremos de nuevo un conjunto de funciones de agregación para cada una de nuestras variables y las aplicaremos usando groupby. Calcularemos la suma de los ingresos.

Para `days_since`, calcularemos el número máximo y mínimo de días (dándonos características que nos digan cuánto tiempo ha estado activo este cliente en 2010, y qué tan recientemente), así como el número de valores únicos (dándonos cuántos días separados este cliente hizo una compra). Dado que son para nuestros pronosticadores, sólo aplicaremos estas funciones a nuestros datos a partir de 2010, y los almacenaremos en una variable, X, y usaremos la función `head` para ver los resultados:

operations = {'revenue':'sum',
              'days_since':['max','min','nunique'],
             }

X = df[df['year'] == 2010].groupby('CustomerID').agg(operations)
X.head()

resultado

Como puede ver en la figura anterior, como realizamos múltiples tipos de agregaciones en la columna `days_since`, terminamos con etiquetas de columna de varios niveles. Para simplificar esto, podemos reajustar los nombres de las columnas para facilitar su referencia posterior. Utilice el siguiente código e imprima los resultados:

X.columns = [' '.join(col).strip() for col in X.columns.values]
X.head()

resultado

Vamos a calcular una característica más: el gasto medio por pedido. Podemos calcularlo dividiendo la suma de los ingresos por `days_since_nunique` (esto es realmente el gasto medio por día, no por pedido, pero estamos asumiendo que si dos pedidos se hicieron en el mismo día, podemos tratarlos como parte del mismo pedido para nuestros propósitos):

X['avg_order_cost'] = X['revenue sum']/X['days_since nunique']
X.head()

resultado

Ahora que tenemos nuestros pronosticadores, necesitamos el resultado que predeciremos, que es sólo la suma de los ingresos para 2011. Podemos calcularlo con un simple groupby y almacenar los valores en la variable y, de la siguiente manera:

y = df[df['year'] == 2011].groupby('CustomerID')['revenue'].sum()
y

resultado

Ahora podemos poner nuestros predictores y resultados en un solo DataFrame, `wrangled_df`, y renombrar las columnas para tener nombres más intuitivos. Finalmente, mira el DataFrame resultante, usando la función `head`:

wrangled_df = pd.concat([X,y], axis=1)
wrangled_df.columns = ['2010 revenue',
                       'days_since_first_purchase',
                       'days_since_last_purchase',
                       'number_of_purchases',
                       'avg_order_cost',
                       '2011 revenue']
wrangled_df.head()

resultado

Observe que muchos de los valores de nuestro DataFrame son `NaN`. Esto es causado por clientes que estuvieron activos sólo en 2010 o sólo en 2011, por lo que no hay datos para el otro año. Más adelante trabajaremos en la predicción de cuáles de nuestros clientes se darán de baja, pero por ahora, sólo dejaremos de lado a todos los clientes que no estén activos en ambos años. Note que esto significa que nuestro modelo predecirá el gasto de los clientes en el próximo año asumiendo que siguen siendo clientes activos. Para eliminar los clientes sin valores, eliminaremos las filas donde cualquiera de las columnas de ingresos son nulas, de la siguiente manera:

wrangled_df = wrangled_df[~wrangled_df['2010 revenue'].isnull()]
wrangled_df = wrangled_df[~wrangled_df['2011 revenue'].isnull()]
wrangled_df.head()

resultado

Como paso final de limpieza de datos, a menudo es una buena idea deshacerse de los valores atípicos. Una definición estándar es que un valor atípico es cualquier punto de datos que esté más de tres desviaciones estándar por encima de la mediana, por lo que lo usaremos para eliminar los clientes que son valores atípicos en términos de ingresos de 2010 o 2011:

wrangled_df = wrangled_df[wrangled_df['2011 revenue'] 
                          < ((wrangled_df['2011 revenue'].median()) 
                             + wrangled_df['2011 revenue'].std()*3)]

wrangled_df = wrangled_df[wrangled_df['2010 revenue'] 
                          < ((wrangled_df['2010 revenue'].median()) 
                             + wrangled_df['2010 revenue'].std()*3)]

wrangled_df.head()

resultado

A menudo es una buena idea, después de haber hecho la limpieza de datos y la ingeniería de características, guardar los nuevos datos como un nuevo archivo, de modo que, a medida que se desarrolla el modelo, no sea necesario ejecutar los datos a través de toda la ingeniería de características y la tubería de limpieza cada vez que se quiera volver a ejecutar el código. Podemos hacer esto usando la función `to_csv`.

wrangled_df.to_csv('datasets/wrangled_transactions.csv')

Examinando las relaciones entre los pronosticadores y el resultado

En este ejercicio, utilizaremos las características que calculamos en el ejercicio anterior y veremos si estas variables tienen alguna relación con nuestro resultado de interés (ingresos por ventas de clientes en 2011):

Usar pandas para importar los datos que guardaste al final del último ejercicio, usando CustomerID como índice:

df = pd.read_csv('datasets/wrangled_transactions.csv', index_col='CustomerID')

La librería seaborn tiene una serie de características de trazado. Su función de diagrama de pares trazará los histogramas y los diagramas de dispersión por pares de todas nuestras variables en una línea, permitiéndonos examinar fácilmente tanto las distribuciones de nuestros datos como las relaciones entre los puntos de datos. Utilice el siguiente código:

import seaborn as sns
%matplotlib inline

sns.pairplot(df)

resultado

En el diagrama anterior, la diagonal muestra un histograma para cada variable, mientras que cada fila muestra el diagrama de dispersión entre una y otra variable. La fila inferior de figuras muestra los diagramas de dispersión de los ingresos de 2011 (nuestro resultado de interés) contra cada una de las otras variables. Debido a que los puntos de datos se superponen y hay una buena cantidad de variación, las relaciones no parecen muy claras en las visualizaciones.

Por lo tanto, podemos usar correlaciones para ayudarnos a interpretar las relaciones. La función `corr` de pandas generará correlaciones entre todas las variables de un DataFrame:

df.corr()

resultado

De nuevo, podemos mirar la última fila para ver las relaciones entre nuestros pronosticadores y el resultado de los intereses (ingresos de 2011). Los números positivos indican una relación positiva, por ejemplo, cuanto más altos sean los ingresos de 2010 de un cliente, mayores serán los ingresos esperados de ellos en 2011. Los números negativos significan lo contrario, por ejemplo, cuantos más días haya transcurrido desde la última compra de un cliente, menor será la expectativa de ingresos para 2011. Además, cuanto más alto sea el número absoluto, más fuerte será la relación.

Las correlaciones resultantes deberían tener sentido. Cuanto más competidores haya en la zona, menor será el ingreso de un lugar, mientras que el ingreso medio, los miembros de la lealtad y la densidad de población están todos positivamente relacionados. La edad de un lugar también está positivamente correlacionada con los ingresos, lo que indica que cuanto más tiempo esté abierto un lugar, más conocido es y más clientes atrae (o tal vez, sólo los lugares que funcionan bien duran mucho tiempo).

Construyendo un modelo lineal que prediga el gasto de los clientes

En este ejercicio, construiremos un modelo lineal sobre los gastos de los clientes utilizando las características creadas en el ejercicio anterior:

Recordemos que sólo hay una relación débil entre `days_since_first_purchase` y los ingresos de 2011- por lo tanto no incluiremos ese predictor en nuestro modelo.

Almacene las columnas de predicción y las columnas de resultados en las variables X e y, respectivamente:

X = df[['2010 revenue',
       'days_since_last_purchase',
       'number_of_purchases',
       'avg_order_cost'
       ]]

y = df['2011 revenue']

Usamos sklearn para realizar una división de los datos, para que podamos evaluar el modelo en un conjunto de datos en el que no fue entrenado, como se muestra aquí:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 100)

Importamos LinearRegression de sklearn, creamos un modelo de LinearRegression y ajustamos los datos de entrenamiento:

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train,y_train)

Examinamos los coeficientes del modelo comprobando la propiedad coef_. Note que estos están en el mismo orden que nuestras columnas X: Ingresos de 2010, días desde la última compra, número de compras y coste medio de pedido:

model.coef_
>> array([  5.78799016,   7.47737544, 336.60769871,  -2.0558923 ])

Compruebe el término de intercepción del modelo comprobando la propiedad intercept_:

model.intercept_
>> 264.8693265705956

Ahora podemos usar el modelo ajustado para hacer predicciones sobre un cliente fuera de nuestro conjunto de datos.

Haga un DataFrame que contenga los datos de un cliente, donde los ingresos de 2010 sean 1.000, el número de días desde la última compra sea 20, el número de compras sea 2, y el coste medio del pedido sea 500. Haz que el modelo haga una predicción sobre los datos de este cliente:

single_customer = pd.DataFrame({
    '2010 revenue': [1000],
    'days_since_last_purchase': [20],
    'number_of_purchases': [2],
    'avg_order_cost': [500]
})

single_customer

resultado

model.predict(single_customer)
>> array([5847.67624446])

Podemos trazar las predicciones del modelo en el conjunto de prueba contra el valor real. En primer lugar, importamos matplotlib, y hacemos un gráfico de dispersión de las predicciones del modelo en X_test contra y_test.

Limita los ejes x e y a un valor máximo de 10.000 para que tengamos una mejor visión de dónde se encuentran la mayoría de los puntos de datos.

Por último, añadir una línea con la pendiente 1, que servirá como nuestra referencia: si todos los puntos se encuentran en esta línea, significa que tenemos una relación perfecta entre nuestras predicciones y la respuesta verdadera:

import matplotlib.pyplot as plt
%matplotlib inline

plt.scatter(model.predict(X_test),y_test)
plt.xlim(0,10000)
plt.ylim(0,10000)
plt.plot([0, 10000], [0, 10000], 'k-', color = 'r')
plt.xlabel('Model Predictions')
plt.ylabel('True Value')
plt.show()

resultado

En el gráfico anterior, la línea roja indica dónde estarían los puntos si la predicción fuera la misma que el valor real. Dado que muchos de nuestros puntos están bastante lejos de la línea roja, esto indica que el modelo no es completamente exacto. Sin embargo, parece haber alguna relación, ya que las predicciones más altas del modelo tienen valores verdaderos más altos.

Para examinar más a fondo la relación, podemos usar la correlación. Desde scipy, podemos importar la función pearsonr, que calcula la correlación entre dos matrices, tal y como lo hicimos con Pandas para todo nuestro DataFrame. Podemos usarla para calcular la correlación entre las predicciones de nuestro modelo y el valor real de la siguiente manera:

from scipy.stats.stats import pearsonr
pearsonr(model.predict(X_test),y_test)
>> (0.6125740076680493, 1.934002067463782e-20)

Deberías hacer que te devuelvan dos números: (0.6125740076680493, 1.934002067463782e-20). El primer número es la correlación, que está cerca del 0,6, lo que indica una relación fuerte. El segundo número es el valor p, que indica la probabilidad de ver una relación tan fuerte si los dos conjuntos de números no estuvieran relacionados; el número muy bajo aquí significa que es improbable que esta relación se deba al azar.

Conclusión

Hemos construido un ejemplo sencillo de regresión lineal. Podrías intentar este mismo con Arboles de Decisión y revisar las diferencias en los modelos. Más adelante crearemos otro artículo para entender como hacerlo

Most Related Articles

10 Preguntas Altamente Probables en Una Entrevista de Data Science

La popularidad de la ciencia de los datos atrae a muchas personas de una amplia gama de profesiones para hacer un cambio de carrera con el objetivo de convertirse en un científico de datos.A pesar de la gran demanda de científicos de datos, es una tarea muy difícil encontrar tu primer trabajo. A menos que tengas una sólida experiencia laboral previa, las entrevistas son el lugar donde puedes mostrar tus habilidades e impresionar a tu potencial empleador.La ciencia de los datos es un campo interdisciplinar que abarca una amplia gama de temas y conceptos. Por ello, el número de preguntas que te pueden hacer en una entrevista es muy elevado.Sin embargo, hay algunas preguntas sobre los fundamentos de la ciencia de los datos y el aprendizaje automático. Éstas son las que no debes perderte. En este artículo, repasaremos 10 preguntas que probablemente se hagan en una entrevista a un científico de datos.Las preguntas están agrupadas en 3 categorías principales que son aprendizaje automático, Python y SQL. Intentaré dar una breve respuesta a cada pregunta. Sin embargo, sugiero leer o estudiar cada una con más detalle después.Aprendizaje automático1. ¿Qué es el overfitting (sobreajuste)? El sobreajuste en el aprendizaje automático se produce cuando el modelo no está bien generalizado. El modelo se centra demasiado en el conjunto de entrenamiento. Capta muchos detalles o incluso ruido en el conjunto de entrenamiento. Por lo tanto, no logra captar la tendencia general o las relaciones en los datos. Si un modelo es demasiado complejo en comparación con los datos, probablemente estará sobreajustado. Un buen indicador de sobreajuste es la gran diferencia entre la precisión de los conjuntos de entrenamiento y de prueba. Los modelos sobreajustados suelen tener una precisión muy alta en el conjunto de entrenamiento, pero la precisión de la prueba suele ser impredecible y mucho más baja que la de entrenamiento. 2. ¿Cómo se puede reducir el overfitting? Podemos reducir el sobreajuste haciendo que el modelo sea más generalizado, lo que significa que debe centrarse más en la tendencia general que en los detalles específicos. Si es posible, recoger más datos es una forma eficaz de reducir el sobreajuste. Le darás más jugo al modelo para que tenga más material del que aprender. Los datos siempre son valiosos, especialmente para los modelos de aprendizaje automático. Otro método para reducir la sobreadaptación es reducir la complejidad del modelo. Si un modelo es demasiado complejo para una tarea determinada, es probable que se produzca un sobreajuste. En estos casos, debemos buscar modelos más sencillos. 3. ¿Qué es la regularización? Hemos mencionado que la principal razón del sobreajuste es que un modelo sea más complejo de lo necesario. La regularización es un método para reducir la complejidad del modelo. Lo hace penalizando los términos más altos del modelo. Con la adición de un término de regularización, el modelo intenta minimizar tanto la pérdida como la complejidad. Los dos tipos principales de regularización son L1 y L2. La regularización L1 resta una pequeña cantidad de los pesos de las características no informativas en cada iteración. Así, hace que estos pesos se conviertan finalmente en cero. Por otro lado, la regularización L2 elimina un pequeño porcentaje de los pesos en cada iteración. Estos pesos se acercarán a cero, pero nunca llegarán a ser 0.4. ¿Cuál es la diferencia entre clasificación y agrupación? Ambas son tareas de aprendizaje automático. La clasificación es una tarea de aprendizaje supervisado, por lo que tenemos observaciones etiquetadas (es decir, puntos de datos). Entrenamos un modelo con datos etiquetados y esperamos que prediga las etiquetas de los nuevos datos. Por ejemplo, la detección de correos electrónicos no deseados es una tarea de clasificación. Proporcionamos un modelo con varios correos electrónicos marcados como spam o no spam. Una vez entrenado el modelo con esos correos, evaluará los nuevos correos de forma adecuada. La agrupación es una tarea de aprendizaje no supervisada, por lo que las observaciones no tienen etiquetas. Se espera que el modelo evalúe las observaciones y las agrupe en clusters. Las observaciones similares se colocan en el mismo clúster. En el caso óptimo, las observaciones del mismo clúster están lo más cerca posible unas de otras y los diferentes clústeres están lo más separados posible. Un ejemplo de tarea de clustering sería agrupar a los clientes en función de su comportamiento de compra. Python Las estructuras de datos incorporadas son de crucial importancia. Por lo tanto, debes estar familiarizado con lo que son y cómo interactuar con ellas. Lista, diccionario, conjunto y tupla son las 4 principales estructuras de datos incorporadas en Python. 5. ¿Cuál es la diferencia entre listas y tuplas? La principal diferencia entre las listas y las tuplas es la mutabilidad. Las listas son mutables, por lo que podemos manipularlas añadiendo o eliminando elementos.mylist = [1,2,3] mylist.append(4) mylist.remove(1) print(mylist) [2,3,4]En cambio, las tuplas son inmutables. Aunque podemos acceder a cada elemento de una tupla, no podemos modificar su contenido.mytuple = (1,2,3) mytuple.append(4) AttributeError: 'tuple' object has no attribute 'append'Un punto importante a mencionar aquí es que aunque las tuplas son inmutables, pueden contener elementos mutables como listas o conjuntos. mytuple = (1,2,["a","b","c"]) mytuple[2] ['a', 'b', 'c'] mytuple[2][0] = ["A"] print(mytuple) (1, 2, [['A'], 'b', 'c'])6. ¿Cuál es la diferencia entre listas y sets? Hagamos un ejemplo para demostrar la principal diferencia entre listas y conjuntos.text = "Python is awesome!" mylist = list(text) myset = set(text) print(mylist) ['P', 'y', 't', 'h', 'o', 'n', ' ', 'i', 's', ' ', 'a', 'w', 'e', 's', 'o', 'm', 'e', '!'] print(myset) {'t', ' ', 'i', 'e', 'm', 'P', '!', 'y', 'o', 'h', 'n', 'a', 's', 'w'} Como vemos en los objetos resultantes, la lista contiene todos los caracteres de la cadena mientras que el conjunto sólo contiene valores únicos. Otra diferencia es que los caracteres de la lista están ordenados según su ubicación en la cadena. Sin embargo, los caracteres del conjunto no están ordenados. A continuación se muestra una tabla que resume las principales características de las listas, las tuplas y los conjuntos.(image by author)7. ¿Qué es un diccionario y cuáles son las características importantes de los diccionarios? Un diccionario en Python es una colección de pares clave-valor. Es similar a una lista en el sentido de que cada elemento de una lista tiene un índice asociado que empieza por 0.mylist = ["a", "b", "c"] mylist[1] "b"En un diccionario, las claves son el índice. Así, podemos acceder a un valor utilizando su clave.mydict = {"John": 24, "Jane": 26, "Ashley": 22} mydict["Jane"] 26Las claves de un diccionario son únicas, lo que tiene sentido porque actúan como una dirección para los valores. SQL SQL es una habilidad extremadamente importante para los científicos de datos. Hay un gran número de empresas que almacenan sus datos en una base de datos relacional. SQL es lo que se necesita para interactuar con las bases de datos relacionales. Es probable que te hagan una pregunta que implique escribir una consulta para realizar una tarea específica. También es posible que te hagan una pregunta sobre conocimientos generales de bases de datos.8. Ejemplo de Consulta #1 Consider we have a sales table that contains daily sales quantities of products.SELECT TOP 10 * FROM SalesTable(image by author)Encuentre las 5 semanas más importantes en términos de cantidades totales de ventas semanales.SELECT TOP 5 CONCAT(YEAR(SalesDate), DATEPART(WEEK, SalesDate)) AS YearWeek, SUM(SalesQty) AS TotalWeeklySales FROM SalesTable GROUP BY CONCAT(YEAR(SalesDate), DATEPART(WEEK, SalesDate)) ORDER BY TotalWeeklySales DESC (image by author)Primero extraemos la información del año y la semana de la columna de la fecha y luego la utilizamos en la agregación. La función de suma se utiliza para calcular las cantidades totales de ventas. 9. Ejemplo de consulta #2 En la misma tabla de ventas, encuentre el número de artículos únicos que se venden cada mes.SELECT MONTH(SalesDate) AS Month, COUNT(DISTINCT(ItemNumber)) AS ItemCount FROM SalesTable GROUP BY MONTH(SalesDate) Month ItemCount 1 9 1021 2 8 102110. ¿Qué es la normalización y la desnormalización en una base de datos? Estos términos están relacionados con el diseño del esquema de la base de datos. La normalización y la desnormalización tienen como objetivo optimizar diferentes métricas. El objetivo de la normalización es reducir la redundancia e inconsistencia de los datos aumentando el número de tablas. Por otro lado, la desnormalización tiene como objetivo acelerar la ejecución de la consulta. La desnormalización disminuye el número de tablas, pero al mismo tiempo añade cierta redundancia. ConclusiónConvertirse en un científico de datos es una tarea difícil. Requiere tiempo, esfuerzo y dedicación. Sin tener experiencia laboral previa, el proceso se hace más difícil. Las entrevistas son muy importantes para demostrar tus habilidades. En este artículo, hemos cubierto 10 preguntas que es probable que te encuentres en una entrevista de científico de datos. Gracias por leerlo. Por favor, hágame saber si tiene algún comentario.

Daniel Morales

Jan 26, 2021

Data Science

Machine Learning

Métricas De Evaluación De Modelos En El Aprendizaje Automático

CréditosLos modelos predictivos se han convertido en un asesor de confianza para muchas empresas y por una buena razón. Estos modelos pueden "prever el futuro", y hay muchos métodos diferentes disponibles, lo que significa que cualquier industria puede encontrar uno que se ajuste a sus retos particulares.Cuando hablamos de modelos predictivos, nos referimos a un modelo de regresión (salida continua) o a un modelo de clasificación (salida nominal o binaria). En los problemas de clasificación, utilizamos dos tipos de algoritmos (dependiendo del tipo de salida que este crea):Salida de clase: Algoritmos como Support Vector Machine y K Nearest Neighbors crean una salida de clase. Por ejemplo, en un problema de clasificación binaria, las salidas serán 0 o 1. Sin embargo, hoy en día tenemos algoritmos que pueden convertir estas salidas de clase en probabilidad.Salida de probabilidad: Algoritmos como la Regresión Logística, el Bosque Aleatorio, potenciación del Gradiente, el Adaboost, etc. dan salidas de probabilidad. Convertir las salidas de probabilidad en salidas de clase es sólo cuestión de crear un umbral de probabilidadPuedes leer más artículos de Data Science en español aquí Lea también:Tipos Claves De Regresiones: ¿Cuál Usar?IntroducciónSi bien la preparación de los datos y el entrenamiento de un modelo de aprendizaje de máquina es un paso clave en el proceso de aprendizaje automático, es igualmente importante medir el rendimiento de este modelo entrenado. Lo bien que el modelo generaliza sobre los datos no vistos es lo que define los modelos de aprendizaje automático adaptables frente a los no adaptables.Al utilizar diferentes métricas para la evaluación del rendimiento, deberíamos estar en posición de mejorar el poder de predicción general de nuestro modelo antes de que lo pongamos en marcha para la producción sobre datos no vistos antes.Si no se realiza una evaluación adecuada del modelo aprendizaje automático utilizando diferentes métricas, y se usa sólo la precisión, puede darse un problema cuando el modelo respectivo se despliega sobre datos no vistos y puede dar lugar a malas predicciones.Esto sucede porque, en casos como éste, nuestros modelos no aprenden sino que memorizan; por lo tanto, no pueden generalizar bien sobre datos no vistos.Métricas de evaluación del modeloDefinamos ahora las métricas de evaluación para valorar el rendimiento de un modelo de aprendizaje automático, que es un componente integral de cualquier proyecto de ciencia de los datos. Su objetivo es estimar la precisión de la generalización de un modelo sobre los datos futuros (no vistos/fuera de muestra).Matriz de confusiónUna matriz de confusión es una representación matricial de los resultados de las predicciones de cualquier prueba binaria que se utiliza a menudo para describir el rendimiento del modelo de clasificación (o "clasificador") sobre un conjunto de datos de prueba cuyos valores reales se conocen.La matriz de confusión es relativamente sencilla de comprender, pero la terminología relacionada puede ser confusa.Matriz de confusión con 2 etiquetas de clase.Cada predicción puede ser uno de cuatro resultados, basado en cómo coincide con el valor real:Verdadero Positivo (TP): Predicho Verdadero y Verdadero en realidad.Verdadero Negativo (TN): Predicho Falso y Falso en realidad.Falso Positivo (FP): Predicción de verdadero y falso en la realidad.Falso Negativo (FN): Predicción de falso y verdadero en la realidad.Ahora entendamos este concepto usando la prueba de hipótesis.Lea también:Falsos Positivos Vs. Falsos Negativos Una hipótesis es una especulación o teoría basada en pruebas insuficientes que se presta a más pruebas y experimentación. Con más pruebas, una hipótesis puede ser probada como verdadera o falsa.Una Hipótesis Nula es una hipótesis que dice que no hay significancia estadística entre las dos variables de la hipótesis. Es la hipótesis que el investigador está tratando de refutar.Siempre rechazamos la hipótesis nula cuando es falsa, y aceptamos la hipótesis nula cuando es realmente verdadera.Aunque las pruebas de hipótesis se supone que son fiables, hay dos tipos de errores que pueden ocurrir.Estos errores se conocen como errores de Tipo I y Tipo II.Por ejemplo, cuando se examina la eficacia de una droga, la hipótesis nula sería que la droga no afecta a una enfermedad.Error de Tipo I: equivalente a los Falsos Positivos(FP).El primer tipo de error posible implica el rechazo de una hipótesis nula que es verdadera.Volvamos al ejemplo de una droga que se utiliza para tratar una enfermedad. Si rechazamos la hipótesis nula en esta situación, entonces afirmamos que la droga tiene algún efecto sobre una enfermedad. Pero si la hipótesis nula es cierta, entonces, en realidad, la droga no combate la enfermedad en absoluto. Se afirma falsamente que la droga tiene un efecto positivo en una enfermedad.Error de tipo II:- equivalente a Falsos Negativos(FN).El otro tipo de error que ocurre cuando aceptamos una hipótesis falsa nula. Este tipo de error se llama error de tipo II y también se conoce como error de segundo tipo.Si pensamos de nuevo en el escenario en el que estamos probando una droga, ¿cómo sería un error de tipo II? Un error de tipo II ocurriría si aceptáramos que la droga no tiene efecto sobre la enfermedad, pero en realidad, sí lo tiene.Un ejemplo de la implementación Python de la matriz de confusión.Puedes leer más artículos de Data Science en español aquí import warningsimport pandas as pdfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import confusion_matriximport matplotlib.pyplot as plt%matplotlib inline #ignore warningswarnings.filterwarnings('ignore')# Load digits dataseturl = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"df = pd.read_csv(url)# df = df.valuesX = df.iloc[:,0:4]y = df.iloc[:,4]#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#Split data into train and test set. X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#Train Modelmodel = LogisticRegression()model.fit(X_train, y_train)pred = model.predict(X_test)#Construct the Confusion Matrixlabels = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']cm = confusion_matrix(y_test, pred, labels)print(cm)fig = plt.figure()ax = fig.add_subplot(111)cax = ax.matshow(cm)plt.title('Confusion matrix')fig.colorbar(cax)ax.set_xticklabels([''] + labels)ax.set_yticklabels([''] + labels)plt.xlabel('Predicted Values')plt.ylabel('Actual Values')plt.show()Matriz de confusión con 3 etiquetas de clase.Los elementos diagonales representan el número de puntos para los cuales la etiqueta predicha es igual a la etiqueta verdadera, mientras que cualquier cosa fuera de la diagonal fue mal etiquetada por el clasificador. Por lo tanto, cuanto más altos sean los valores diagonales de la matriz de confusión, mejor, indicando muchas predicciones correctas.En nuestro caso, el clasificador predijo perfectamente las 13 plantas de setosa y 18 de virginica en los datos de prueba. Sin embargo, clasificó incorrectamente 4 de las plantas versicolor como virginica.También hay una lista de tasas que a menudo se calculan a partir de una matriz de confusión para un clasificador binario:1. ExactitudEn general, ¿con qué frecuencia es correcto el clasificador?Exactitud = (TP+TN)/totalCuando nuestras clases son aproximadamente iguales en tamaño, podemos usar la precisión, que nos dará valores clasificados correctamente.La precisión es una métrica de evaluación común para los problemas de clasificación. Es el número de predicciones correctas hechas como una proporción de todas las predicciones hechas.Tasa de clasificación errónea (Tasa de error): En general, con qué frecuencia se equivoca. Dado que la exactitud es el porcentaje que clasificamos correctamente (tasa de éxito), se deduce que nuestra tasa de error (el porcentaje en que nos equivocamos) puede calcularse de la siguiente manera:Tasa de clasificación errónea = (FP+FN)/total#import modulesimport warningsimport pandas as pdimport numpy as npfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn import datasetsfrom sklearn.metrics import accuracy_score#ignore warningswarnings.filterwarnings('ignore')# Load digits datasetiris = datasets.load_iris()# # Create feature matrixX = iris.data# Create target vectory = iris.target#test sizetest_size = 0.33#generate the same set of random numbersseed = 7#cross-validation settingskfold = model_selection.KFold(n_splits=10, random_state=seed)#Model instancemodel = LogisticRegression()#Evaluate model performancescoring = 'accuracy'results = model_selection.cross_val_score(model, X, y, cv=kfold, scoring=scoring)print('Accuracy -val set: %.2f%% (%.2f)' % (results.mean()*100, results.std()))#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)#fit modelmodel.fit(X_train, y_train)#accuracy on test setresult = model.score(X_test, y_test)print("Accuracy - test set: %.2f%%" % (result*100.0))La precisión de la clasificación es del 88% en el conjunto de validación.2. PrecisiónCuando predice sí, ¿con qué frecuencia es correcto?Precisión=TP/predicciones síCuando tenemos un desequilibrio de clase, la precisión puede convertirse en una métrica poco fiable para medir nuestro desempeño. Por ejemplo, si tuviéramos una división de 99/1 entre dos clases, A y B, donde el evento raro, B, es nuestra clase positiva, podríamos construir un modelo que fuera 99% exacto con sólo decir que todo pertenece a la clase A. Claramente, no deberíamos molestarnos en construir un modelo si no hace nada para identificar la clase B; por lo tanto, necesitamos diferentes métricas que desalienten este comportamiento. Para ello, utilizamos la precisión y la sensibilidad en lugar de la exactitud.Puedes leer más artículos de Data Science en español aquí 3. ExhaustividadCuando en realidad es un sí, ¿con qué frecuencia predice un sí?Tasa positiva verdadera = TP/Si realesLa Exhaustividad nos da la tasa positiva verdadera (TPR), que es la proporción de los verdaderos positivos a todo lo positivo.En el caso de la división 99/1 entre las clases A y B, el modelo que clasifica todo como A tendría una exhaustividad del 0% para la clase positiva, B (la precisión sería indefinida - 0/0). La exhaustividad proporciona una mejor manera de evaluar el rendimiento del modelo ante un desequilibrio de clases. Nos dirá correctamente que el modelo tiene poco valor para nuestro caso de uso.Al igual que la exactitud, tanto la precisión como la exhaustividad son fáciles de calcular y comprender, pero requieren umbrales. Además, la precisión y la exhaustividad sólo consideran la mitad de la matriz de confusión:4. Puntuación F1La puntuación F1 es la media armónica de la precisión y exhaustividad, donde la puntuación de la F1 alcanza su mejor valor en 1 (precisión y exhaustividad perfectas) y el peor en 0.¿Por qué la media armónica? Dado que la media armónica de una lista de números se inclina fuertemente hacia últimos elementos de la lista, tiende (en comparación con la media aritmética) a mitigar el impacto de los grandes valores atípicos y a agravar el impacto de los pequeños.Una puntuación F1 castiga más los valores extremos. Idealmente, un puntaje F1 podría ser una métrica de evaluación efectiva en los siguientes escenarios de clasificación:Cuando los Falsos Positivos y la Falsos Negativos son igualmente costosos - lo que significa que se pasan verdaderos positivos o se encuentran falsos positivos - ambos impactan el modelo casi de la misma manera, como en nuestro ejemplo de clasificación de detección de cáncerAñadir más datos no cambia el resultado de manera efectivaLa TN es alta (como en las predicciones de inundaciones, predicciones de cáncer, etc.)Un ejemplo de implementación en Python de la puntuación F1.import warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_lossfrom sklearn.metrics import precision_recall_fscore_support as score, precision_score, recall_score, f1_scorewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]test_size = 0.33seed = 7model = LogisticRegression()#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)precision = precision_score(y_test, pred)print('Precision: %f' % precision)# recall: tp / (tp + fn)recall = recall_score(y_test, pred)print('Recall: %f' % recall)# f1: tp / (tp + fp + fn)f1 = f1_score(y_test, pred)print('F1 score: %f' % f1)Puedes leer más artículos de Data Science en español aquí 5. EspecificidadCuando es no, ¿con qué frecuencia predice el no?Tasa negativa real = TN/no realEs la verdadera tasa negativa o la proporción de verdaderos negativos a todo lo que debería haber sido clasificado como negativo.Obsérvese que, en conjunto, la especificidad y la sensibilidad consideran la matriz de confusión completa:6. Curva de características operativas del receptor (ROC)Medir el área bajo la curva ROC es también un método muy útil para evaluar un modelo. Al trazar la tasa positiva verdadera (sensibilidad) frente a la tasa de falsos positivos (1 - especificidad), obtenemos la curva de Característica Operativa del Receptor (ROC). Esta curva nos permite visualizar el equilibrio entre la tasa de verdaderos positivos y la tasa falsos positivosLos siguientes son ejemplos de buenas curvas ROC. La línea discontinua sería una suposición aleatoria (sin valor predictivo) y se utiliza como línea de base; cualquier cosa por debajo de eso se considera peor que una suposición. Queremos estar hacia la esquina superior izquierda:Una ejemplo de implementación en Python de las curvas ROC#Classification Area under curveimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import roc_auc_score, roc_curvewarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)# predict probabilitiesprobs = model.predict_proba(X_test)# keep probabilities for the positive outcome onlyprobs = probs[:, 1]auc = roc_auc_score(y_test, probs)print('AUC - Test Set: %.2f%%' % (auc*100))# calculate roc curvefpr, tpr, thresholds = roc_curve(y_test, probs)# plot no skillplt.plot([0, 1], [0, 1], linestyle='--')# plot the roc curve for the modelplt.plot(fpr, tpr, marker='.')plt.xlabel('False positive rate')plt.ylabel('Sensitivity/ Recall')# show the plotplt.show()En el ejemplo anterior, la AUC está relativamente cerca de 1 y es mayor de 0,5. Un clasificador perfecto hará que la curva ROC vaya a lo largo del eje Y y luego a lo largo del eje X.7. Pérdida logarítmicaLa pérdida logarítmica es la métrica de clasificación más importante basada en probabilidades.A medida que la probabilidad predicha de la clase verdadera se acerca a cero, la pérdida aumenta exponencialmente:Mide el desempeño de un modelo de clasificación en el que la entrada de la predicción es un valor de probabilidad entre 0 y 1. La pérdida logarítmica aumenta a medida que la probabilidad predicha se aleja de la etiqueta real. El objetivo de cualquier modelo de aprendizaje automático es minimizar este valor. Por lo tanto, una pérdida logarítmica menor es mejor, con un modelo perfecto teniendo una pérdida logarítmica de 0.Una muestra de la implementación en Python de la pérdida logarítmica#Classification LogLossimport warningsimport pandasfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import log_losswarnings.filterwarnings('ignore')url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"dataframe = pandas.read_csv(url)dat = dataframe.valuesX = dat[:,:-1]y = dat[:,-1]seed = 7#split dataX_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=test_size, random_state=seed)model.fit(X_train, y_train)#predict and compute loglosspred = model.predict(X_test)accuracy = log_loss(y_test, pred)print("Logloss: %.2f" % (accuracy))Logloss: 8.02Puedes leer más artículos de Data Science en español aquí 8. Índice JaccardEl índice Jaccard es una de las formas más simples de calcular y averiguar la exactitud de un modelo de clasificación de aprendizaje automático. Entendamoslo con un ejemplo. Supongamos que tenemos un conjunto de pruebas etiquetadas, con etiquetas como -y = [0,0,0,0,0,1,1,1,1,1]Y nuestro modelo ha predicho las etiquetas como…y1 = [1,1,0,0,0,1,1,1,1,1]El anterior diagrama de Venn nos muestra las etiquetas del conjunto de pruebas y las etiquetas de las predicciones, y su intersección y unión.El índice Jaccard o coeficiente de similitud Jaccard es una estadística utilizada para comprender las similitudes entre los conjuntos de muestras. La medición enfatiza la similitud entre conjuntos de muestras finitas y se define formalmente como el tamaño de la intersección dividido por el tamaño de la unión de los dos conjuntos etiquetados, con la fórmula como -Índice Jaccard o Intersección sobre Unión(IoU)Así, para nuestro ejemplo, podemos ver que la intersección de los dos conjuntos es igual a 8 (ya que ocho valores se predicen correctamente) y la unión es 10 + 10-8 = 12. Por lo tanto, el índice Jaccard nos da la precisión como -Así que la precisión de nuestro modelo, según el índice Jaccard, se convierte en 0.66, o 66%.Cuanto mayor sea el índice Jaccard, mayor será la precisión del clasificador.Una muestra de implementación en Python del índice Jaccard.import numpy as npdef compute_jaccard_similarity_score(x, y): intersection_cardinality = len(set(x).intersection(set(y))) union_cardinality = len(set(x).union(set(y))) return intersection_cardinality / float(union_cardinality)score = compute_jaccard_similarity_score(np.array([0, 1, 2, 5, 6]), np.array([0, 2, 3, 5, 7, 9]))print "Jaccard Similarity Score : %s" %scorepassPuntaje de similitud Jaccard: 0.3759. Gráfico de Kolmogorov SmirnovEl gráfico K-S o Kolmogorov-Smirnov mide el rendimiento de los modelos de clasificación. Más exactamente, K-S es una medida del grado de separación entre las distribuciones positivas y negativas.La frecuencia acumulativa de las distribuciones observadas y de las hipótesis se traza en relación con las frecuencias ordenadas. La doble flecha vertical indica la máxima diferencia vertical.La K-S es 100 si las puntuaciones dividen la población en dos grupos separados en los que un grupo contiene todos los positivos y el otro todos los negativos. Por otra parte, si el modelo no puede diferenciar entre los positivos y los negativos, entonces es como si el modelo seleccionara casos al azar de la población. El K-S sería 0.En la mayoría de los modelos de clasificación la K-S caerá entre 0 y 100, y cuanto más alto sea el valor mejor será el modelo para separar los casos positivos de los negativos.La K-S también puede utilizarse para comprobar si dos distribuciones de probabilidad unidimensionales subyacentes difieren. Es una forma muy eficiente de determinar si dos muestras son significativamente diferentes entre sí.Un ejemplo de la implementación en Python del Kolmogorov-Smirnov.from scipy.stats import kstest import random # N = int(input("Enter number of random numbers: ")) N = 10 actual =[] print("Enter outcomes: ") for i in range(N): # x = float(input("Outcomes of class "+str(i + 1)+": ")) actual.append(random.random()) print(actual) x = kstest(actual, "norm") print(x)La hipótesis nula utilizada aquí asume que los números siguen la distribución normal. Devuelve estadísticas y valor p. Si el valor p es < alfa, rechazamos la hipótesis Nula.Alfa se define como la probabilidad de rechazar la hipótesis nula dado que la hipótesis nula(H0) es verdadera. Para la mayoría de las aplicaciones prácticas, se elige alfa como 0,05.Puedes leer más artículos de Data Science en español aquí 10. Gráfico de ganancia y elevaciónLa ganancia o el levantamiento es una medida de la eficacia de un modelo de clasificación calculado como la relación entre los resultados obtenidos con y sin el modelo. Los gráficos de ganancia y elevación son ayudas visuales para evaluar el rendimiento de los modelos de clasificación. Sin embargo, en contraste con la matriz de confusión que evalúa los modelos en toda la población, el gráfico de ganancia o elevación evalúa el rendimiento del modelo en una porción de la población.Cuanto mayor sea la elevación (es decir, cuanto más lejos esté de la línea de base), mejor será el modelo.El siguiente gráfico de ganancias, ejecutado en un conjunto de validación, muestra que con el 50% de los datos, el modelo contiene el 90% de los objetivos, la adición de más datos añade un aumento insignificante en el porcentaje de objetivos incluidos en el modelo.Gráfico de ganancia/elevaciónLos gráficos de elevación suelen presentarse como un gráfico de ascenso acumulativo, que también se conoce como gráfico de ganancias. Por lo tanto, los gráficos de ganancias a veces se denominan (quizás de forma confusa) "gráficos de elevación", pero son más exactos como gráficos de ascenso acumulativo.Uno de sus usos más comunes es en el marketing, para decidir si vale la pena llamar a un posible cliente.11. Coeficiente de GiniEl coeficiente de Gini o Índice de Gini es una métrica popular para los valores de clase desequilibrados. El coeficiente oscila entre 0 y 1, donde 0 representa la igualdad perfecta y 1 la desigualdad perfecta. Aquí, si el valor de un índice es mayor, entonces los datos estarán más dispersos.El coeficiente de Gini puede calcularse a partir del área bajo la curva ROC usando la siguiente fórmula:Coeficiente de Gini = (2 * curva_ROC) - 1Puedes leer más artículos de Data Science en español aquí ConclusiónComprender lo bien que un modelo de aprendizaje automático va a funcionar con datos no vistos es el propósito final de trabajar con estas métricas de evaluación. Métricas como la exactitud, la precisión, la exhaustividad son buenas formas de evaluar los modelos de clasificación para conjuntos de datos equilibrados, pero si los datos están desequilibrados y hay una disparidad de clases, entonces otros métodos como el ROC/AUC, el coeficiente de Gini funcionan mejor en la evaluación del rendimiento del modelo.Bueno, esto concluye este artículo. Espero que hayan disfrutado de su lectura, no duden en compartir sus comentarios/pensamientos/opiniones en la sección de comentarios.Gracias por leerlo!!!

Juan Guillermo Gómez Ramírez

Jan 26, 2021

Python

Las 10 Mejores Extensiones de Python para Visual Studio Code

En este nuevo post queremos hablar de las extensiones más útiles de Python para Visual Studio Code. Visual Studio Code es un entorno de desarrollo integrado creado por Microsoft para Windows, Linux y macOS. Entre sus características se encuentran la depuración, el resaltado de sintaxis, la finalización inteligente de código, los fragmentos, la refactorización de código y Git integrado. Los usuarios pueden cambiar el tema, los atajos de teclado, las preferencias e instalar extensiones que añaden funcionalidad adicional.Precisamente vamos a hablar sobre las extensiones que puedes instalar para VS. Aquí una lista de nuestras preferidasPuedes leer más artículos de Data Science en español aquí 1- PythonLink: https://github.com/Microsoft/vscode-pythonExtensión de Python para Visual Studio CodeUna extensión de Visual Studio Code con un rico soporte para el lenguaje Python (para todas las versiones activamente soportadas del lenguaje: >=3.6), incluyendo características como IntelliSense (Pylance), linting, depuración, navegación de código, formateo de código, refactorización, explorador de variables, explorador de pruebas, ¡y más!NOTA: El soporte en la web -- por ejemplo, github.dev -- es limitado.Extensiones instaladasLa extensión Python instalará automáticamente las extensiones Pylance y Jupyter para ofrecerte la mejor experiencia al trabajar con archivos Python y notebooks Jupyter. Sin embargo, Pylance es una dependencia opcional, lo que significa que la extensión de Python seguirá siendo totalmente funcional si no se instala. También puedes desinstalarla a expensas de algunas características si estás usando un servidor de idiomas diferente.2- Python IndentLink: https://github.com/kbrose/vsc-python-indentSirve para corregir la sangría de Python en Visual Studio Code. Cómo funcionaCada vez que presione la tecla Enter en un contexto de Python, esta extensión analizará su archivo de Python hasta la ubicación de su cursor, y determinará exactamente cuánto debe sangrar la siguiente línea (o dos en el caso de sangrías colgantes) y cuánto deben desangrarse las líneas cercanas.Hay tres casos principales a la hora de determinar la sangría correcta. Revisar la documentación aqui: https://github.com/kbrose/vsc-python-indent3- Python Doctring GeneratorLink: https://github.com/NilsJPWerner/autoDocstringExtensión de Visual Studio Code para generar rápidamente docstrings para funciones python.CaracterísticasGenera rápidamente un fragmento de docstring que puede ser tabulado.Elija entre varios tipos de formatos de docstrings.Infiere los tipos de parámetros a través de pistas de tipo pep484, valores por defecto y nombres var.Soporte para args, kwargs, decoradores, errores y tipos de parámetros.Formatos DocstringGoogle (por defecto)docBlockrNumpySphinxPEP0257 (próximamente)UsoEl cursor debe estar en la línea directamente debajo de la definición para generar un docstring completo auto-pobladoPulsa enter después de abrir el docstring con comillas triples (""" o ''')Atajo de teclado: ctrl+mayús+2 o cmd+mayús+2 para macSe puede cambiar en Preferencias -> Atajos de teclado -> extension.generateDocstringComando: Generar DocstringMenú del botón derecho: Generar DocstringLea también: 4 Funciones de Python Pandas Imprescindibles Para el Análisis de Series Temporales4- Python ExtendedLink: https://github.com/tushortz/vscode-Python-ExtendedPython Extended es un fragmento de vscode que facilita la escritura de códigos en python proporcionando opciones de finalización junto con todos los argumentos.UsoEjecute vscode y en un archivo python, escriba el nombre del método a completar y presione tab o enter en la selección.Cómo instalarAbra vscode. Pulse F1, busque "ext install" seguido del nombre de la extensión, en este caso "ext install Python Extended" sin el ">". O si prefieres ">ext install", pulsa enter, busca "Python Extended".Puedes leer más artículos de Data Science en español aquí 5- Python PreviewLink: https://github.com/dongli0x00/python-previewUna extensión de Visual Studio Code con soporte de vista previa de depuración para el lenguaje Python.RequisitosInstale una versión de Python 3.6 o Python 2.7. Asegúrese de que la ubicación de su intérprete de Python está incluida en su variable de entorno PATH.Es mejor instalar la extensión de Python para el Intellisense de Python6- AREPL for PythonLink: https://github.com/almenon/arepl-vscodeAREPL evalúa automáticamente el código python en tiempo real mientras usted escribe.UsoEn primer lugar, asegúrese de que tiene instalado python 3.7 o superior.Abra un archivo de python y haga clic en el gato en la barra superior a la derecha para abrir AREPL. Puede hacer clic en el gato de nuevo para cerrar.O ejecute AREPL a través del comando de búsqueda: control-mayúsculas-po utilizar los atajos: control-mayúsculas-a (documento actual) / control-mayúsculas-q (nuevo documento)CaracterísticasEvaluación en tiempo real: no es necesario ejecutar - AREPL evalúa su código automáticamente. Puede controlar esto (o incluso desactivarlo) en los ajustes.Visualización de variables: El estado final de sus variables locales se muestra en un formato JSON colapsable.Visualización de errores: En el momento en que cometes un error se muestra un error con la traza de la pila.Ajustes: AREPL ofrece muchos ajustes para adaptarse a su experiencia de usuario. Personaliza el aspecto, el tiempo de rebote, las opciones de python y mucho más.Lea también: 3 Trucos De Python Que Mejorarán Tu Código7- Python PathLink: https://github.com/mgesbert/vscode-python-pathEsta extensión añade un conjunto de herramientas que ayudan a generar sentencias de importación internas en un proyecto python.Características"Copy Python Path" es accesible desde:Linea de comandoMenú contextual del exploradorMenú contextual del editorMenú contextual del título del editorPuedes leer más artículos de Data Science en español aquí 8- Python Test ExplorerLink: https://github.com/kondratyev-nv/vscode-python-test-adapterEsta extensión le permite ejecutar sus pruebas de Python Unittest, Pytest o Testplan con la interfaz de usuario de Test Explorer.Cómo empezarInstale la extensiónConfigure Visual Studio Code para que descubra sus pruebas (consulte la sección Configuración y la documentación del marco de pruebas de su elección:Documentación de UnittestDocumentación de PytestDocumentación de TestplanAbra la barra lateral de la vista de pruebasEjecutar sus pruebas mediante el icono Ejecutar en el Explorador de PruebasCaracterísticasMuestra un Explorador de Pruebas en la vista de pruebas en la barra lateral de VS Code con todas las pruebas y suites detectadas y su estadoPráctico informe de errores durante la detección de pruebasDepuración de Unittest, Pytest y TestplanMuestra el registro de una prueba fallida cuando se selecciona la prueba en el exploradorReejecución de pruebas al guardarlasSoporta espacios de trabajo multi-rootAdmite los marcos de pruebas Unittest, Pytest y Testplan y sus complementos9- Python SnippetsLink: https://github.com/ylcnfrht/vscode-python-snippet-packUn paquete de fragmentos para hacer más productivo el trabajo con python Este paquete de fragmentos contiene todos los métodos de python que se indican a continuacióntodos los fragmentos incorporados de python y contiene al menos un ejemplo para cada métodotodos los fragmentos de cadenas de python contienen al menos un ejemplo para cada métodotodos los fragmentos de listas de python contienen al menos un ejemplo para cada métodotodos los fragmentos de conjuntos de python contienen al menos un ejemplo para cada métodotodos los fragmentos de tuplas en python contienen al menos un ejemplo para cada métodotodos los fragmentos de diccionario de python contienen al menos un ejemplo para cada métodoY contiene muchos otros fragmentos de código (como if/else, for, while, while/else, try/catch, file process yfragmentos de clases y ejemplos de clases para oop (polimorfismo, encapsulación, herencia, etc.)Si no usas un método no te preocupes esta extensión contiene un montón de ejemplos de código para cada método de pythonEsta extensión no es sólo un fragmento de código, sino que también será útil para aprender el lenguaje de programación python.Aprenderás todos los métodos de python con un montón de ejemplos de códigoPor ejemplo, si usted quiere usar el método de reemplazo de cadena, sólo tiene que utilizar .replacePero si usted no sabe cómo utilizar el método de reemplazo a continuación, utilice string.replace =>10- JupyterLink: https://github.com/Microsoft/vscode-jupyterUna extensión de Visual Studio Code que proporciona soporte básico de notebooks para los kernels de lenguaje que son compatibles con Jupyter Notebooks hoy en día. Muchos kernels de lenguaje funcionarán sin ninguna modificación. Para habilitar características avanzadas, pueden ser necesarias modificaciones en las extensiones de lenguaje de VS Code.Soporte de notebooksLa Extensión Jupyter utiliza el soporte de cuaderno incorporado de VS code. Esta interfaz ofrece una serie de ventajas a los usuarios de cuadernos:Soporte inmediato de la amplia gama de funciones básicas de edición de código de VS Code, como la salida en caliente, la búsqueda y el reemplazo, y el plegado de código.Extensiones del editor como VIM, coloración de corchetes, linters y muchas más están disponibles mientras se edita una celda.Profunda integración con el banco de trabajo general y con las funciones basadas en archivos de VS Code, como la vista de esquema (tabla de contenidos), las migas de pan y otras operaciones.Tiempos de carga rápidos para los archivos Jupyter notebook (.ipynb). Cualquier archivo de cuaderno se carga y renderiza lo más rápidamente posible, mientras que las operaciones relacionadas con la ejecución se inicializan entre bastidores.Incluye una herramienta de diferencias para cuadernos, que facilita la comparación y la visualización de las diferencias entre las celdas de código, los resultados y los metadatos.Extensibilidad más allá de lo que proporciona la extensión Jupyter. Las extensiones ahora pueden añadir su propio lenguaje o tiempo de ejecución específico a los cuadernos, como los cuadernos interactivos de .NET y GatherAunque la extensión de Jupyter viene con un amplio conjunto de los renderizadores más utilizados para la salida, el mercado admite renderizadores personalizados instalables para que el trabajo con tus cuadernos sea aún más productivo. Para empezar a escribir los tuyos propios, consulta la documentación de la api de renderizadores de VS Code.Puedes leer más artículos de Data Science en español aquí ConclusiónExisten muchas extensiones que puedes usar con tu Visual Studio Code, y decidir cual usar pasará por hacer pruebas, revisar utilidades, casos de uso y demás con el fin de hacer tu trabajo mas sencillo mientras codeas!Lea también: ¿Por Qué Los Decoradores En Python Son Pura Genialidad?

Daniel Morales

Jan 26, 2021

Construyendo Un Modelo De Regresión Lineal Con Python Que Prediga El Gasto De Un Cliente De Un Comercio

Contents Outline

Daniel Morales

Construyendo Un Modelo De Regresión Lineal Con Python Que Prediga El Gasto De Un Cliente De Un Comercio

Examinando las relaciones entre los pronosticadores y el resultado

Construyendo un modelo lineal que prediga el gasto de los clientes

Conclusión

Related Posts

Categories

Join Competition

Daniel Morales

Juan Guillermo Gómez Ramírez

Daniel Morales

Construyendo Un Modelo De Regresión Lineal Con Python Que Prediga El Gasto De Un Cliente De Un Comercio

Contents Outline

Social Sharing

Daniel Morales

Examinando las relaciones entre los pronosticadores y el resultado

Construyendo un modelo lineal que prediga el gasto de los clientes

Conclusión

Related Posts

Categories

Join Competition

Most Related Articles

Daniel Morales

Juan Guillermo Gómez Ramírez

Daniel Morales