En este artículo, presentaré las 22 preguntas sobre estadística fundamental que pueden encontrarse durante sus entrevistas de trabajo para un puesto en data science.
1, ¿Qué es la Hypothesis Testing?
La Hypothesis Testing es un método de inferencia estadística. Basándose en los datos recogidos en una encuesta o un experimento, se calcula cuál es la probabilidad (valor de p - p-value) de observar las estadísticas de sus datos, dado que la hipótesis nula es cierta. Luego decidimos si rechazamos la hipótesis nula comparando el valor de p y el nivel de significación. Se utiliza ampliamente para probar la existencia de un efecto.
2, ¿Qué es el valor de p (p-value)?
El valor p es la probabilidad de observar los datos si la hipótesis nula es cierta. Un valor de p menor significa una mayor probabilidad de rechazar la hipótesis nula.
3, ¿Qué es el nivel de confianza?
El nivel de confianza, en la Hypothesis Testing, es la probabilidad de rechazar la hipótesis nula cuando la hipótesis nula es verdadera:
P(Not Rejecting H0|H0 is True) = 1 - P(Rejecting H0|H0 is True)
La potencia estadística por defecto está fijada en el 95%.
4, ¿Qué es el intervalo de confianza?
En contraste con la estimación puntual, un intervalo de confianza es una estimación de intervalo de un parámetro obtenido mediante inferencia estadística. Se calcula por:
[point_estimation - cv*sd, point_estimation + cv*sd]
donde cv es el valor crítico basado en la distribución de la muestra, y sd es la desviación estándar de la muestra.
5, ¿Qué es la potencia estadística (statistical power)?
La potencia estadístico mide la probabilidad de rechazar la hipótesis nula cuando la hipótesis nula es falsa:
P(Reject H0|H0 is False) = 1- P(Not Rejecting H0|H0 is False)
La potencia estadística por defecto está fijada en un 80%.
6, ¿Qué es un error de tipo I y qué es un error de tipo II?
El error Tipo I es
P(Rejecting H0|H0 is True), es Falso Positivo, es ⍺, es uno menos el nivel de confianza;
El error tipo II es
P(Not Rejecting H0|H0 is False), es Falso Negativo, es β, es uno menos la potencia estadística.
Hay un equilibrio entre el error de tipo I y el error de tipo II, lo que significa que si todo lo demás permanece igual, para disminuir el error de tipo I, necesitamos aumentar el error de tipo II.
7, ¿Qué es el Teorema del Límite Central (CLM)?
El Teorema del Límite Central establece que no importa cuál sea la distribución original de la población, cuando se toman muestras aleatorias de la población, la distribución de las medias o sumas de las muestras aleatorias se aproxima a una distribución normal, con la media igual a la media de la población, a medida que el tamaño de la muestra aleatoria se hace más grande:
8, ¿Cuál es la ley de los grandes números?
La Ley de los Grandes Números establece que a medida que el número de intentos sea lo suficientemente grande, el resultado promedio de los intentos se acercará más al valor esperado. Por ejemplo, cuando lanzas una moneda 1000 veces, es más probable que veas Cara la mitad de las veces, mientras que si la lanzas sólo 100 veces es menos probable.
9, ¿Cuál es el error estándar? ¿Cuál es el error estándar de la media?
El error estándar de una estadística es la desviación estándar de su distribución de muestreo o una estimación de esa desviación estándar.
Utilizando CLM, podemos estimar el error estándar de la media utilizando la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la muestra n. Si se desconoce la desviación estándar de la población, podemos utilizar la desviación estándar de la muestra como estimación.
10, ¿Cómo elegir el tamaño de la muestra para un experimento?
El tamaño de la muestra está estrechamente relacionado con el error estándar de la muestra, el nivel de confianza deseado, la potencia y el tamaño del efecto. El tamaño de la muestra aumenta a medida que aumenta el error estándar, el nivel de confianza y la potencia de la muestra, o a medida que disminuye el tamaño del efecto de la muestra. Por favor,
eche un vistazo a este artículo para conocer la intuición que hay detrás.
11, ¿Qué es el bootstrapping?
El bootstrapping es una de las técnicas de remuestreo. Dada una muestra, repetidamente se toman otras muestras al azar de ella
con reemplazo. El bootstrapping es útil cuando el tamaño de la muestra es pequeño y cuando se necesita estimar la distribución empírica. Podemos estimar el error estándar de la mediana usando el bootstrapping.
Por favor, lea el artículo a continuación para más detalles.
12, ¿Qué es el sesgo de una muestra?
El sesgo de una muestra es la muestra tomada para inferir estadísticamente que no es una gran representación de toda la población. Se debe a varias razones:
- sesgo de la muestra: muestreo no aleatorio;
- sesgo de selección: la muestra no representa a toda la población. Por ejemplo, aprobar una encuesta en las universidades cuando se quiere estimar el ingreso medio de todos los adultos;
- sesgo de respuesta: ya sea porque hay muy pocas respuestas o porque sólo ciertos tipos de sujetos responderán a la encuesta. Por ejemplo, una encuesta sobre las habilidades de enseñanza de un profesor puede ser respondida sólo por estudiantes que les guste o que realmente odien al profesor;
- sesgo de supervivencia: sesgo por pasar por alto temas que no pasaron el proceso de selección.
13, ¿Cómo detectar los valores atípicos?
Los valores atípicos son observaciones que difieren significativamente de otras observaciones. Detectar los valores atípicos es lo mismo que definir la diferencia. La forma más sencilla es trazar la variable y encontrar los puntos de datos que están lejos de los demás.
Para cuantificar la diferencia, podemos usar los cuartiles y el rango intercuartil (IQR). El IQR es el tercer cuartil menos el primer cuartil (Q3-Q1). Los valores atípicos son cualquier punto de datos que sea menor que Q1-1.5*IQR, o mayor que Q3+1.5*IQR.
Si los datos siguen una distribución normal, los valores atípicos son los puntos con una puntuación Z mayor que 3 o menor que -3.
14, ¿Qué es la inferencia Bayesiana?
La inferencia bayesiana es un método de inferencia estadística en el que se utiliza el
teorema de Bayes para actualizar la probabilidad de una hipótesis a medida que se dispone de más pruebas o información. A continuación se expone el teorema de Bayes:
donde P(A) es una creencia previa, P(B) es la evidencia, y P(B|A) es la probabilidad condicional de que el evento B ocurra cuando A ocurre.
15, ¿Qué es la Estimación de Máxima Probabilidad (EML)?
La Estimación de Máxima Probabilidad es la estimación del parámetro mediante la maximización de la función de Probabilidad utilizando el teorema de Bayes. Según el teorema de Bayes:
donde P(θ) es la distribución previa del parámetro; P(y|θ) es la función de probabilidad que describe la probabilidad de observar los puntos de datos y cuando tenemos el parámetro θ; P(y) es la evidencia, que se utiliza normalmente para normalizar la probabilidad.
Maximizar P(θ|y) es el objetivo de encontrar el óptimo θ, donde maximizamos la probabilidad condicional de tener θ dados todos los puntos de datos y.
En la práctica, podemos calcular fácilmente P(y|θ) una vez que conocemos la distribución. Así, resolvemos el problema de optimización maximizando la función de probabilidad P(y|θ) con respecto a θ.
1, el 50% de todas las personas que reciben una primera entrevista reciben una segunda entrevista
2, 95% de tus amigos que tuvieron una segunda entrevista sintieron que tuvieron una buena primera entrevista
3, 75% de tus amigos que NO tuvieron una segunda entrevista sintieron que tuvieron una buena primera entrevista
Si cree que tuvo una buena primera entrevista, ¿cuál es la probabilidad de que reciba una segunda?
La clave para resolver problemas como este es definir los eventos cuidadosamente. Supongamos que tus amigos son una buena representación de toda la población:
- Definamos que sentirse bien en la primera entrevista es el evento A, y definamos recibir la segunda entrevista el evento B;
- De acuerdo con 1, P(B)=0.5, por lo tanto P(no B) es uno menos P(B), que también es 0.5;
- Según 2, P(A|B) =0,95;
- Según 3, P(A|no B) = 0,75.
- Dado P(B), P(A|B), P(A|no B), ¿qué es P(B|A)?
Según el teorema de Bayes:
Por lo tanto
17, ¿Cuál es la diferencia entre correlación y causalidad?
La correlación es la relación entre dos variables, puede ser positiva, negativa, cero o poca correlación dependiendo del signo y el tamaño de la siguiente ecuación:
Dónde:
Cov(X, Y) es la covarianza de las dos variables, y Cor(X, Y) se normaliza por la desviación estándar de X e Y (Sx, Sy) de modo que la correlación puede ser entre -1 y 1. Cuando la correlación es igual a -1, X, Y tienen una perfecta correlación negativa y cuando es igual a 1, tienen una perfecta correlación positiva. Cuando el valor absoluto de la correlación es cercano a cero, X, Y tienen poca correlación entre sí.
La causalidad es mucho más difícil de captar, es la relación entre X e Y tal que X ha causado que Y suceda, o viceversa. Por ejemplo, en un estudio, se puede observar que las personas que comen más vegetales al día son más saludables, hay claramente una correlación positiva entre el consumo de vegetales y el nivel de salud. Sin embargo, si sólo se basa en esta información, no puede afirmar que comer más vegetales le hace ser más saludable, lo que es establecer una relación causal.
Puede observar esta relación porque los sujetos de su estudio tienen otros estilos de vida saludables (variables omitidas) que podrían mejorar su nivel de salud, y comer verduras es sólo uno de los hábitos saludables que tienen. Encontrar una relación causal requiere de información adicional y de un cuidadoso modelado.
18, ¿Cuál es la paradoja de Simpson?
La paradoja de Simpson se refiere a las situaciones en las que una tendencia o relación que se observa dentro de múltiples grupos desaparece o se invierte cuando los grupos se combinan. La respuesta rápida a por qué existe la paradoja de Simpson es la existencia de variables de confusión. En este artículo se explica
la paradoja de Simpson con un ejemplo
19, ¿Cuál es la variable de confusión?
Una variable de confusión es una variable que se correlaciona tanto con la variable dependiente como con la variable independiente. Por ejemplo, al comprobar la relación causal entre el tabaquismo y la tasa de mortalidad, la edad es una variable de confusión porque a medida que aumenta la edad, aumenta la tasa de mortalidad y disminuye la tasa de tabaquismo. No controlar la edad puede causar la Paradoja de Simpson en la inferencia estadística.
Aprenda más aqui sobre
las métricas de evaluación de los modelos de machine learning.
Lea más sobre
la matriz de confusión aquí.
20, ¿Qué es el A/B testing, cuándo podemos usarla y cuándo no?
La prueba A/B consiste en realizar un experimento aleatorio con dos variantes, A y B. A través de la prueba de hipótesis estadísticas o la prueba de hipótesis de "dos muestras", la prueba A/B es una forma de comparar dos versiones de una única variable, típicamente probando la respuesta de un sujeto a la variante A contra la variante B, y determinando cuál de las dos variantes es más efectiva. Se suele utilizar para mejorar y optimizar la experiencia del usuario y las estrategias de marketing.
No todos los experimentos pueden realizarse mediante pruebas A/B:
- Las pruebas A/B no son buenas para probar el efecto a largo plazo
- Las pruebas A/B sólo pueden comparar dos versiones, pero no pueden decirte lo que te falta.
- Las pruebas A/B no pueden utilizarse cuando hay un efecto de red en el mercado. Por ejemplo, no se pueden aumentar los precios de algunos consumidores mientras se disminuyen otros en el mismo mercado porque se torcería la demanda del mercado.
21, ¿Qué es el PMF/PDF?
Una función de masa de probabilidad (Probability Mass Function) es una función que da la probabilidad de que una variable aleatoria discreta sea exactamente igual a algún valor.
La PMF no funciona para las variables aleatorias continuas, porque para una variable aleatoria continua P(X=x)=0 para todo x∈R. En cambio, normalmente podemos definir la función de densidad de probabilidad (Probability Density Function). La PDF es la densidad de probabilidad más que la masa de probabilidad:
22, Resuma las distribuciones más importantes.
Este artículo resume las distribuciones más importantes, incluyendo sus supuestos, PDF/PMF, simulaciones, etc.
Por favor, véalo aquí:
Aquí están las 22 preguntas estadísticas fundamentales. Esperamos que este artículo te haya ayudado a preparar tus entrevistas o a refrescar tus conceptos de estadística. ¡Gracias por leer!