Statistics with Numpy - Part 2

Daniel Morales
By Daniel Morales - Screencast # 32
May 20, 2020


Valores atipicos (Outliers)
  • Como podemos ver, la media es una vía útil para entender rápidamente partes diferentes de nuestra data. Sin embargo, la media está altamente influenciada por valor específicos de nuestro set de datos. 
  • Que pasa si uno de esos valores es significativamente diferente del resto?
  • Los valores que no se ajustan dentro de la mayoría del set de datos, son conocidos como outliers (valores atípicos)
  • Es importante identificar valores atípicos porque si pasan desapercibidos, pueden sesgar nuestros datos y conducir a errores en nuestro análisis (como la determinación de la media)
  • También pueden ser útiles para señalar errores en nuestra recopilación de datos. 
  • Cuando somos capaces de identificar los outliers, podemos determinar si se debieron a un error en la recolección de datos o si representan una desviación significativa pero real de la media. 
Como determinar Outliers
  • Algunas veces podemos hacerlo solo mirando el dataset y señalando los valores que parecen más grandes o menores que otros valores. Pero es un método manual, propenso a errores y difícil. 
  • Podemos hacer cálculos para determinar un rango de valores y si algún valor se sale del rango es un outlier. Esto se puede hacer con cuartiles. Algo así:
  • [first_quartile - 1.5 * IQR, third_quartile + 1.5 * IQR]
  • donde IQR es “Interquartile Range”
  • Ya veremos cuartiles en detalle más adelante...

Sorting y Outliers
  • Otra forma de identificar rápidamente outliers es ordenando los datos de mayor a menor o viceversa.  
  • Una vez los datos estan ordenados, podemos ver rápidamente al inicio y al final del dataset para ver si hay valores más allá del rango esperado. 
  • Podemos usar la función de NumPy np.sort
Numpy y Mediana
  • Otra métrica importante que podemos usar en data analysis es la mediana (median)
  • La mediana es el valor del medio de un set de datos que ha sido ordenado en términos de magnitud (del más pequeño al más grande)
  • Si el largo del set de datos es un número par, la mediana sería el valor a medio camino entre los dos valores centrales. Así que en el siguiente ejemplo, la mediana sería 3.5
  • Pero qué pasa si tenemos un dataset muy grande? Sería muy tedioso contar todos los valores. 
  • Afortunadamente NumPy también tiene una función para calcular la mediana np.median
Mean Vs Median (Diferencia)
  • Algunas veces estos valores serán muy similares según el set de datos, pero son diferentes y representan conceptos diferentes
  • La mediana retorna el valor en una posición central de un dataset ordenado. Si el largo del dataset es par, será el promedio de los dos valores del medio. Es conocido también como el 50th percentile. 
  • La media es el promedio de todos los valores del set de datos. Los outliers pueden influir mucho en la media, pero no en la mediana

“Statistics with Numpy - Part 2”
– Daniel Morales twitter social icon Tweet

Share this article:

0 Comments

Post a comment
Log In to Comment
divider graphic

Related Screencasts

May 29, 2020
140

Complete Project with Numpy

Este proyecto abarca los diferentes temas vistos con Numpy

Daniel Morales
By Daniel Morales
May 28, 2020
90

Binomial Distribution and Exercise with NumPy

Para ver este video debes estar inscrito, asi que inscribete y sigue aprendiendo! Si ya estas inscrito, dale play al video y sigue aprendiendo!

Daniel Morales
By Daniel Morales
May 27, 2020
65

Statistical Distribution and Exercise with NumPy - Part 4

Para ver este video debes estar inscrito, asi que inscribete y sigue aprendiendo! Si ya estas inscrito, dale play al video y sigue aprendiendo!

Daniel Morales
By Daniel Morales
arrow-up icon