1- Usando Predictive Power Score Para Identificar Correlaciones Lineales¶

Correlaciones En estadística, la correlación o dependencia es cualquier relación estadística, causal o no, entre dos variables aleatorias o datos bivariantes. En el sentido más amplio, la correlación es cualquier asociación estadística, aunque comúnmente se refiere al grado en que un par de variables están relacionadas linealmente.

Ejemplos conocidos de fenómenos dependientes son la correlación entre la altura de los padres y la de sus hijos y la correlación entre el precio de un bien y la cantidad que los consumidores están dispuestos a comprar, representada por la llamada curva de demanda. Las correlaciones son útiles porque pueden indicar una relación predictiva que se puede aprovechar en la práctica.

Por ejemplo, una compañía eléctrica puede producir menos energía en un día cálido basándose en la correlación entre la demanda de electricidad y el clima. En este ejemplo, existe una relación causal porque el clima extremo hace que la gente utilice más electricidad para calentarse o refrescarse

Sin embargo, en general, la presencia de una correlación no es suficiente para inferir la presencia de una relación causal (es decir, la correlación no implica causalidad). Formalmente, las variables aleatorias son dependientes si no satisfacen una propiedad matemática de independencia probabilística. En el lenguaje informal, correlación es sinónimo de dependencia.

Esencialmente, la correlación es la medida de la relación entre dos o más variables. Existen varios coeficientes de correlación. El más común es el coeficiente de correlación de Pearson, que sólo es sensible a una relación lineal entre dos variables (que puede estar presente incluso cuando una variable es una función no lineal de la otra)

Screenshot%20from%202021-02-23%2007-49-23.png

Se han desarrollado otros coeficientes de correlación -como la correlación de rangos de Spearman- que son más robustos que el de Pearson, es decir, más sensibles a las relaciones no lineales. La información mutua también puede aplicarse para medir la dependencia entre dos variables. Aquí podemos ver correlaciones con un valor de 0, pero que efectivamente existe algún tipo de correlación:

Screenshot%20from%202021-02-23%2007-51-50.png

Las correlaciones se puntúan de -1 a 1 e indican si existe una fuerte relación lineal, ya sea en sentido positivo o negativo. Sin embargo, hay muchas relaciones no lineales que este tipo de puntuación simplemente no detecta. Además, la correlación sólo se define para las columnas numéricas. Por lo tanto, dejamos fuera todas las columnas categóricas.

Lo mismo ocurrirá si transformamos las columnas categóricas, porque no son ordinales y si hacemos OneHotEncoding acabaremos con un array con muchos valores diferentes (con alta cardinalidad). La simetría en las correlaciones significa que la correlación es la misma si calculamos la correlación de A y B o la correlación de B y A. Sin embargo, las relaciones en el mundo real rara vez son simétricas. Lo más frecuente es que las relaciones sean asimétricas

Un ejemplo rápido: una columna con 2 valores únicos (Verdadero o Falso por ejemplo) nunca podrá predecir perfectamente otra columna con 100 valores únicos. Pero lo contrario podría ser cierto. Está claro que la asimetría es importante porque es muy común en el mundo real.

Alguna vez te has preguntado:

¿Existe una puntuación que nos diga si hay alguna relación entre dos columnas - sin importar si la relación es lineal, no lineal, gaussiana, o algún otro tipo de relación?
Por supuesto, la puntuación debería ser asimétrica porque quiero detectar todas las relaciones extrañas entre dos variables.
La puntuación debe ser 0 si no hay relación y la puntuación debe ser 1 si hay una relación perfecta
Y que la puntuación ayude a responder a la pregunta ¿Existen correlaciones entre las columnas? con una matriz de correlaciones, luego se hace un gráfico de dispersión sobre las dos columnas para compararlas y ver si efectivamente hay una fuerte correlación.
Y como la guinda del pastel, la puntuación debería ser capaz de manejar tanto columnas categóricas como numéricas por defecto.

En resumen, una puntuación asimétrica y agnóstica del tipo de datos para las relaciones predictivas entre dos columnas que van de 0 a 1. Pues bien, existe la librería Predictive Power Score y se puede encontrar en el siguiente enlace: Puntaje de Poder Predictivo

Así que, ¡vamos a trabajar la librería!

Primero tenemos que instalarla con el siguiente comando pip install ppscore, ejecutelo en la siguiente celda

In [1]:

!pip3 install ppscore

Requirement already satisfied: ppscore in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (1.1.1)
Collecting pandas<2.0.0,>=1.0.0
  Downloading pandas-1.1.5-cp36-cp36m-manylinux1_x86_64.whl (9.5 MB)
     |████████████████████████████████| 9.5 MB 7.4 MB/s eta 0:00:01
Requirement already satisfied: scikit-learn<1.0.0,>=0.20.2 in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (from ppscore) (0.23.2)
Requirement already satisfied: pytz>=2017.2 in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (from pandas<2.0.0,>=1.0.0->ppscore) (2020.1)
Requirement already satisfied: numpy>=1.15.4 in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (from pandas<2.0.0,>=1.0.0->ppscore) (1.19.5)
Requirement already satisfied: python-dateutil>=2.7.3 in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (from pandas<2.0.0,>=1.0.0->ppscore) (2.8.1)
Requirement already satisfied: scipy>=0.19.1 in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (from scikit-learn<1.0.0,>=0.20.2->ppscore) (1.5.2)
Requirement already satisfied: threadpoolctl>=2.0.0 in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (from scikit-learn<1.0.0,>=0.20.2->ppscore) (2.1.0)
Requirement already satisfied: joblib>=0.11 in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (from scikit-learn<1.0.0,>=0.20.2->ppscore) (0.16.0)
Requirement already satisfied: six>=1.5 in /home/daniel/Desktop/datacademy_project/notebooks/lib/python3.6/site-packages (from python-dateutil>=2.7.3->pandas<2.0.0,>=1.0.0->ppscore) (1.15.0)
ERROR: apache-airflow 2.0.0 has requirement sqlalchemy<2,>=1.3.18, but you'll have sqlalchemy 1.3.13 which is incompatible.
Installing collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 0.25.3
    Uninstalling pandas-0.25.3:
      Successfully uninstalled pandas-0.25.3
Successfully installed pandas-1.1.5
WARNING: You are using pip version 20.1.1; however, version 21.0.1 is available.
You should consider upgrading via the '/home/daniel/Desktop/datacademy_project/notebooks/bin/python -m pip install --upgrade pip' command.

Cálculo del PPS¶

En primer lugar, no hay una única forma de calcular la puntuación de poder predictivo. De hecho, hay muchas formas posibles de calcular una puntuación que cumpla los requisitos mencionados anteriormente. Por lo tanto, pensemos en el PPS como un marco para una familia de puntuaciones. Digamos que tenemos dos columnas y queremos calcular el PPS de X prediciendo Y. En este caso, tratamos Y como nuestra variable objetivo y X como nuestra (única) característica.

Ahora podemos calcular un Árbol de Decisión con validación cruzada y calcular una métrica de evaluación adecuada.

Cuando el objetivo es numérico podemos utilizar un Árbol de Decisión de Regresión y calcular el Error Absoluto Medio (MAE).
Cuando el objetivo es categórico, podemos utilizar un Árbol de Decisión de Clasificación y calcular el F1 ponderado.

También se pueden utilizar otras puntuaciones como el ROC, etc. pero dejemos esas dudas por un segundo porque tenemos otro problema. La mayoría de las métricas de evaluación no tienen sentido si no se comparan con una línea de base. No importa que tengamos una puntuación de 0,9 si hay posibles puntuaciones de 0,95. Y también importa mucho si es la primera persona que consigue una puntuación superior a 0,7. Por lo tanto, tenemos que "normalizar" nuestra puntuación de evaluación. ¿Y cómo se normaliza una puntuación? Se define un límite inferior y otro superior y se relativiza la puntuación

Entonces, ¿cuáles deberían ser los límites superior e inferior? Empecemos por el límite superior porque suele ser más fácil: un F1 perfecto es 1. Un "MAE" perfecto es "0".

¿Pero qué pasa con el límite inferior? En realidad, no podemos responder en términos absolutos. El límite inferior depende de la métrica de evaluación y de su conjunto de datos. Es el valor alcanzado por un predictor "ingenuo".

Pero, ¿qué es un modelo ingenuo? Para un problema de clasificación, predecir siempre la clase más común es bastante ingenuo. Para un problema de regresión, predecir siempre el valor medio es bastante ingenuo.

PPS VS Correlación¶

Para tener una mejor idea del PPS y sus diferencias con la correlación veamos este versus. Ahora tenemos las correlaciones entre x e y y viceversa

Screenshot%20from%202021-02-23%2007-56-02.png

Hagamos esta ecuación de PPS, primero importe Pandas, Numpy y PPS import ppscore as pps en la siguiente celda

Crear ahora un dataframe de Pandas vacio, siguiendo una estructura como la siguiente

df = pd.DataFrame()

Según la fórmula anterior

Screenshot%20from%202021-02-23%2008-01-14.png

Necesitamos crear los valores de las características X, que van de -2 a +2, y lo hacemos como una distribución uniforme con Numpy, y crearemos 10.000 muestras y asignamos estos valores a una nueva columna del dataframe vacío llamada X. Crea dicha distribución en la siguiente celda

	x
0	-1.308590
1	0.000748
2	-1.385791
3	-1.254756
4	0.234191

Siguiendo la misma fórmula también tendremos que crear una nueva columna llamada error asignando los valores de -0.5 a 0.5 como una distribución uniforme y con el mismo número de muestras. Haz lo mismo con Numpy, pero cambianos los parametros adecuados

	x	error
0	-1.308590	-0.168760
1	0.000748	-0.439931
2	-1.385791	-0.366945
3	-1.254756	0.423950
4	0.234191	-0.140243

Nota: Como son numeros random usted deberia tener valores diferentes a los nuestros.

¡Genial! Tenemos la primera mitad de la fórmula recreada. Ahora bien, necesitamos replicar y crear Y.

En la siguiente celda crea una nueva columna para el dataframe df llamada y, y asignale el resultado de la siguiente formula

Screenshot%20from%202021-02-23%2008-04-08.png

Esto quiere decir que debes elevar al cuadrado cada fila de la columna X del dataframe y el resultado sumarlo a cada fila de la columna error del dataframe

	x	error	y
0	-1.308590	-0.168760	1.543649
1	0.000748	-0.439931	-0.439930
2	-1.385791	-0.366945	1.553472
3	-1.254756	0.423950	1.998363
4	0.234191	-0.140243	-0.085397

Muy fácil, aquí seguimos la fórmula. Ahora queremos ver las correlaciones entre X e Y. Para ello utilizaremos el .corr() de Pandas. Para más información sobre corr() aquí . Tenemos dos formas de ejecutarlo:

1- En la columna: Ejecuta .corr() entre x e y

En el dataframe: Ejecuta .corr() sobre todo el dataframe

	x	error	y
x	1.000000	-0.011687	-0.014093
error	-0.011687	1.000000	0.232022
y	-0.014093	0.232022	1.000000

Como podemos ver, la conclusión a la que llegaríamos aquí es que la correlación entre X e Y no es una correlación fuerte, ya que el valor es -0,014 (aproximadamente, recuerda que debe variar ligeramente debido a que los inicializamos aleatoriamente), lo que indica una ligera correlación negativa.

Recuerda que una correlación positiva fuerte es igual a 1, y una correlación negativa fuerte es igual a -1 (lo vimos en los gráficos anteriores). Pero, ¿qué ocurre si ejecutamos esta misma correlación pero con Predictive Power Score? Hagámoslo. Basándonos en el dataframe anterior podemos calcular el PPS de x al predecir y de la siguiente forma (ejecutelo en la siguiente celda)

pps.score(dataframe, "x", "y")

Aquí obtenemos un valor de 0,67 que es un indicador de una alta correlación positiva. ¡Usando sólo el Pandas corr() podríamos haber perdido el poder predictivo de esta variable! Aquí se puede ver que esta correlación es no lineal

Screenshot%20from%202021-02-23%2008-27-23.png

¿Qué ocurre ahora si invertimos la correlación? ¿Intentamos predecir X basándonos en Y? Ejecutalo en la siguiente celda y trata de analizar el resultado

¡La correlación es ahora 0, por lo que no tiene correlación, lo que significa que estamos ante una correlación asimétrica! Veamos más detalles sobre la biblioteca PPS. Ejecuta el siguiente comando:

pps.predictors(dataframe, "y")

	x	y	ppscore	case	is_valid_score	metric	baseline_score	model_score	model
0	x	y	0.667627	regression	True	mean absolute error	1.012223	0.336435	DecisionTreeRegressor()
1	error	y	0.000000	regression	True	mean absolute error	1.012223	1.319763	DecisionTreeRegressor()

Y ahora ejecutalo sobre x

	x	y	ppscore	case	is_valid_score	metric	baseline_score	model_score	model
0	error	x	0	regression	True	mean absolute error	0.988877	1.328623	DecisionTreeRegressor()
1	y	x	0	regression	True	mean absolute error	0.988877	1.105103	DecisionTreeRegressor()

Con .predictors podemos tener una idea más clara de lo que ocurre bajo el capó. En el que podemos ver las métricas y los modelos utilizados. También podemos acceder al método .matrix con el siguiente comando

pps.matrix(dataframe)

	x	y	ppscore	case	is_valid_score	metric	baseline_score	model_score	model
0	x	x	1.000000	predict_itself	True	None	0.000000	1.000000	None
1	x	error	0.000000	regression	True	mean absolute error	0.250900	0.336423	DecisionTreeRegressor()
2	x	y	0.667627	regression	True	mean absolute error	1.012223	0.336435	DecisionTreeRegressor()
3	error	x	0.000000	regression	True	mean absolute error	0.988877	1.328623	DecisionTreeRegressor()
4	error	error	1.000000	predict_itself	True	None	0.000000	1.000000	None
5	error	y	0.000000	regression	True	mean absolute error	1.012223	1.319763	DecisionTreeRegressor()
6	y	x	0.000000	regression	True	mean absolute error	0.988877	1.105103	DecisionTreeRegressor()
7	y	error	0.000000	regression	True	mean absolute error	0.250900	0.280452	DecisionTreeRegressor()
8	y	y	1.000000	predict_itself	True	None	0.000000	1.000000	None

Así podemos calcular la matriz PPS entre todas las columnas

Analizar y visualizar los resultados¶

Llamamos a esto efectos no lineales y asimetría. Utilicemos una relación cuadrática típica: la característica x es una variable uniforme que va de -2 a 2 y el objetivo y es el cuadrado de x más algún error. En este caso, x puede predecir muy bien y porque existe una clara relación cuadrática no lineal; al fin y al cabo, así es como generamos los datos. Sin embargo, esto no es cierto en la otra dirección de "y" a "x". Por ejemplo, si "y" es 4, es imposible predecir si "x" fue aproximadamente "2" o "-2".

Por lo tanto, la relación de predicción es asimétrica y las puntuaciones deben reflejarlo. ¿Cuáles son los valores de las puntuaciones en este ejemplo? Si no sabe lo que está buscando, la correlación le dejará colgado porque la correlación es 0. Tanto de x a y como de y a x porque la correlación es simétrica

Sin embargo, el PPS de x a y es 0,67, detectando la relación no lineal y salvando el día. Sin embargo, el PPS no es 1 porque hay algún error en la relación. En la otra dirección, el PPS de y a x es 0 porque su predicción no puede ser mejor que la línea de base ingenua y por lo tanto la puntuación es 0.

Puede utilizar seaborn o su biblioteca favorita para ver los resultados.

Visualización de los predictores PPS, ejecute el siguiente codigo cambiando las variables correctas en la siguiente celda

import seaborn as sns
predictors_df = pps.predictors(dataframe, y="y")
sns.barplot(data=predictors_df, x="x", y="ppscore")

Visualización de la matriz PPS:

(Esto necesita un pequeño preprocesamiento porque seaborn.heatmap desafortunadamente no acepta datos ordenados)

Pegue e imprima el siguiente codigo

matrix_df = pps.matrix(dataframe)[['x', 'y', 'ppscore']].pivot(columns='x', index='y', values='ppscore')

sns.heatmap(matrix_df, vmin=0, vmax=1, cmap="Blues", linewidths=0.5, annot=True)

x	error	x	y
error	1.0	0.000000	0.0
x	0.0	1.000000	0.0
y	0.0	0.667627	1.0

Está claro, con esta visualización, que estamos teniendo un buen resultado con la correlación entre x e y, pero no en el sentido contrario.

Ejemplo con características categóricas¶

Comparar la matriz de correlación con la matriz PPS del conjunto de datos del Titanic nos dará algunas ideas nuevas. Esta es una grafica de la matrix una vez corrido .corr() y ppscore sobre dicho dataset

Screenshot%20from%202021-02-23%2008-36-36.png

La matriz de correlación es más pequeña y deja fuera muchas relaciones interesantes. Por supuesto, esto tiene sentido porque columnas como Sex, TicketID o Port son categóricas y la correlación no puede calcularse para ellas. La matriz de correlación muestra una correlación negativa entre "TicketPrice" y "Class" (-0,55).

Podemos comprobar esta relación si echamos un vistazo al PPS. Veremos que el "Precio de entrada" es un fuerte predictor de la "Clase" (0,9 PPS), pero no al revés. La característica "Clase" sólo predice el "Precio del billete" con un PPS de "0,2".

Esto tiene sentido porque si su billete costó 5.000 o 10.000 dólares es muy probable que esté en la clase más alta. Por el contrario, si se sabe que alguien estaba en la clase más alta no se puede saber si pagó 5.000 o 10.000 dólares por su billete. En este escenario, la asimetría del PPS vuelve a brillar.

La primera fila de la matriz indica que el mejor predictor univariante de la columna "Sobrevivido" es la columna "Sexo". Esto tiene sentido porque se dio prioridad a las mujeres durante el rescate. (No pudimos encontrar esta información en la matriz de correlación porque la columna "Sexo" fue eliminada).

Si se observa la columna TicketID, se puede ver que TicketID es un predictor bastante bueno para una serie de columnas. Si profundiza en este patrón, descubrirá que varias personas tenían el mismo TicketID. Por tanto, el TicketID se refiere en realidad a un grupo latente de pasajeros que compraron la entrada juntos, por ejemplo la gran familia italiana Rossi que convierte cualquier noche en un espectáculo. Así, el PPS le ayudó a detectar un patrón oculto.

Lo que es aún más sorprendente que el fuerte poder predictivo de TicketID es el fuerte poder predictivo de TicketPrice en una amplia gama de columnas. Especialmente, el hecho de que TicketPrice es bastante bueno para predecir TicketID (0,67) y viceversa (0,64).

Si se investiga más a fondo, se descubre que las entradas tenían a menudo un precio único. Por ejemplo, sólo la familia italiana Rossi pagó un precio de 72,50 dólares. Este es un punto de vista crítico. Significa que el TicketPrice contiene información sobre el TicketID y, por tanto, sobre nuestra familia italiana. Una información que es necesario tener cuando se considera una posible fuga de información.

Al observar la matriz PPS, podemos ver los efectos que podrían explicarse por las cadenas causales. Por ejemplo, le sorprendería que el Precio del billete tenga un poder predictivo sobre la tasa de supervivencia (PPS 0,39). Pero si sabe que la Clase influye en su tasa de supervivencia (PPS 0,36) y que Precio del billete es un buen predictor de su Clase (PPS 0,9), entonces podría haber encontrado una explicación

Disclosure¶

El PPS tiene claramente algunas ventajas sobre la correlación a la hora de encontrar patrones predictivos en los datos. Sin embargo, una vez que se encuentran los patrones, la correlación sigue siendo una gran manera de comunicar las relaciones lineales encontradas. Por lo tanto, puede utilizar la matriz PPS como una alternativa a la matriz de correlación para detectar y comprender los patrones lineales o no lineales en sus datos

Limitaciones¶

El cálculo es más lento que la correlación (matriz).
La puntuación no se puede interpretar tan fácilmente como la correlación porque no le dice nada sobre el tipo de relación que se encontró. Por lo tanto, el PPS es mejor para encontrar patrones pero la correlación es mejor para comunicar las relaciones lineales encontradas.
No se pueden comparar las puntuaciones de diferentes variables objetivo de forma estrictamente matemática porque se calculan utilizando diferentes métricas de evaluación. Las puntuaciones siguen siendo valiosas en el mundo real, pero hay que tenerlo en cuenta.
Hay limitaciones en los componentes utilizados bajo el capó

Conclusiones¶

Además de su mecanismo habitual de selección de características, puede utilizar el PPS para encontrar buenos predictores para su columna objetivo.
También puede eliminar las características que sólo añaden ruido aleatorio.
Esas características a veces siguen puntuando alto en la métrica de importancia de la característica.
Puede eliminar características que pueden ser predichas por otras características porque no añaden información nueva.
Puede identificar pares de características mutuamente predictivas en la matriz PPS - esto incluye características fuertemente correlacionadas pero también detectará relaciones no lineales.
Detectar fugas: Utilice la matriz PPS para detectar fugas entre variables - incluso si la fuga está mediada por otras variables.
Normalización de datos: Encuentre estructuras de entidades en los datos interpretando la matriz PPS como un gráfico dirigido. Esto puede ser sorprendente cuando los datos contienen estructuras latentes que antes eran desconocidas. Por ejemplo: el TicketID en el conjunto de datos del Titanic suele ser una bandera de

Esperamos haya aprendido de este reto, trate de hacer en el dataset de Titanic o en otros dataset que posea. Lo esperamos en el próximo reto!