Tipos Claves De Regresiones: ¿Cuál Usar?

Oleksii Kharkovyna
Aug 20, 2020

Tipos Claves De Regresiones: ¿Cuál Usar?

Aug 20, 2020 9 minutes read

Así que, la regresión... aparte de otros algoritmos y modelos estadísticos, es un bloque de construcción más sobre el cual el Aprendizaje Automático funciona exitosamente. En su núcleo, la regresión tiene como objetivo encontrar la relación entre las variables y para el Aprendizaje Automático esto es necesario para predecir el resultado basado en dicha relación.

Obviamente, cualquier ingeniero de aprendizaje automático que se respete tiene que estar bien orientado en este tema. Pero espera, hay una gran cantidad de regresiones. Las regresiones lineales y logísticas son normalmente los primeros algoritmos que la gente aprende. Pero, la verdad es que se pueden realizar innumerables formas de regresiones. Cada forma tiene su propia importancia y una condición específica en la que se aplican mejor. Entonces, ¿cuál usar?


En este artículo, he explicado las formas de regresión más utilizadas de forma comprensible, para que pueda calcular cuál es la más adecuada para su tarea específica.

Vamos 

1. Regresión lineal

Igualmente conocida como mínimos cuadrados ordinarios (OLS) y mínimos cuadrados lineales, - el tipo "más clásico", que apareció hace casi 250 años (¿te imaginas?). Se puede emplear para realizar cálculos en pequeños conjuntos de datos, incluso manualmente. Los casos de uso actuales incluyen la interpolación, pero la regresión lineal es inadecuada para los pronósticos del mundo real y el análisis proactivo.

Además, al trabajar con datos modernos caracterizados por una estructura muy caótica, este tipo de regresión es propenso al "lag": la excesiva precisión de la regresión lineal, cuando un modelo funciona demasiado bien en un conjunto de datos, y muy mal en otro, aunque debería describir patrones generales, lo hace inestable en casi todos los casos.

Lea también:

2. Regresión de ridge

Se trata de una mejora de la regresión lineal con una mayor tolerancia al error, que impone restricciones a los coeficientes de regresión para obtener un resultado mucho más realista. Además, este resultado es mucho más fácil de interpretar. El método se utiliza para combatir la redundancia de datos cuando las variables independientes se correlacionan entre sí (multicolinealidad).
La regresión de ridge implica la estimación de parámetros mediante la siguiente fórmula:

3. Regresión del lasso

Es similar a la Ridge, excepto que los coeficientes de regresión pueden ser cero (algunos de los signos están excluidos del modelo).



4. Mínimos Cuadrados parciales (PLS)

Es una regresión útil cuando se tienen muy pocas observaciones en comparación con el número de variables independientes o cuando sus variables independientes están altamente correlacionadas. Los mínimos cuadrados parciales disminuyen las variables independientes a un número menor de componentes no correlacionados, similar al Análisis de Componentes Principales. Después, el procedimiento realiza una regresión lineal sobre estos componentes en lugar de los datos originales. Los mínimos cuadrados parciales hacen hincapié en el desarrollo de modelos predictivos y no se utiliza para la selección de variables. A diferencia de los mínimos cuadrados ordinarios, puede incluir múltiples variables dependientes continuas. Mínimos cuadrados parciales utiliza la estructura de correlación para identificar efectos más pequeños y modelar patrones multivariados en las variables dependientes.

5. Regresión logística

Se utiliza ampliamente en los ensayos clínicos, la cuantificación y, por ejemplo, el fraude cuando la respuesta puede obtenerse en forma binaria (sí/no) para una prueba de drogas o una transacción con tarjeta de crédito. Tiene algunos inconvenientes inherentes a la regresión lineal - baja tolerancia a los errores, dependencia del conjunto de datos, pero en general funciona mejor y puede reducirse a un tipo de regresión lineal para simplificar los cálculos. Algunas versiones - por ejemplo, la regresión de Poisson - es mejor en caso de que necesite  una respuesta no binaria - clasificación, grupos de edad, e incluso árboles de regresión.

Lea también:

6. Regresión ecológica

Se utiliza en los casos en que los datos se dividen en capas o grupos bastante grandes (la regresión se aplica a cada uno de ellos por separado) - por ejemplo, este tipo de regresión se utiliza en la ciencia política para evaluar el comportamiento del grupo de votantes en base a datos resumidos. Sin embargo, hay que tener cuidado con la "maldición del Big Data": si se cuentan millones de regresiones, algunos de los modelos pueden ser completamente inexactos, y los modelos exitosos serán "aplastados" por modelos ruidosos con un alto (y naturalmente artificial) grado de acuerdo. Por lo tanto, este tipo de regresión no es adecuado para predecir eventos extremos (terremotos) y estudiar las relaciones causales (calentamiento global).


7. Regresión lineal bayesiana

Es similar a la Ridge, pero se basa en la suposición de que todos los posibles errores tendrán una distribución normal. En consecuencia, se supone que ya existe una comprensión general de la estructura de los datos, lo que permite obtener un modelo más preciso (especialmente en comparación con la regresión lineal).

Sin embargo, en la práctica, si se trata de grandes cantidades de  datos, el conocimiento inicial de los mismos no puede presumir de exactitud, por lo que la suposición se basa en valores conjugados, es decir, es artificial en su esencia, y esto es un inconveniente importante de este tipo de regresión.
La variable observada se calcula como:
el error se distribuye normalmente:

8. Regresión cuantílica

Se utiliza en relación con los eventos extremos - este tipo implica la introducción deliberada de un sesgo en el resultado, aumentando la precisión del modelo.

9. Mínimas Desviaciones absolutas (LAD)

También conocido como menos errores  absolutos (LAE), menos valor absoluto (LAV), menos residuo absoluto (LAR), suma de desviaciones absolutas, o la condición de la norma L1, es el método del módulo más pequeño) se utiliza para estimar valores desconocidos de mediciones que contienen errores aleatorios, así como para aproximar la representación de una función dada más simple (aproximación). Parece una regresión lineal pero utiliza valores absolutos en lugar de cuadrados, por lo que la precisión del modelo aumenta sin complicar los cálculos.

10. Método de Jackknife (una navaja plegable compacta)

Es un nuevo tipo de regresión usado para la agrupación y el adelgazamiento de datos. Al mismo tiempo, no tiene los inconvenientes de los tipos clásicos, proporcionando una solución aproximada, pero una solución muy precisa y resistente a los problemas de regresión, funciona bien con variables "independientes" que se correlacionan o no pueden "catalogarse" bajo la distribución normal. Este tipo de regresión se considera ideal para los algoritmos de predicción de tipo caja negra - se aproxima perfectamente a la regresión lineal sin pérdida de precisión y funciona incluso en los casos donde los supuestos tradicionales de la regresión (variables no correlacionadas, distribución normal de los datos, varianza condicional constante) no pueden aceptarse debido a la naturaleza de los datos.
Supongamos que la muestra es la siguiente:
En la teoría probabilístico-estadística, asumimos que se trata de un conjunto de variables aleatorias independientes distribuidas de forma idéntica. Supongamos que estamos interesados en estas estadísticas:
La idea que John Tukey propuso en 1949 (este es el "método de la navaja plegable") es hacer un lote a partir de una muestra, excluyendo una observación (y devolviendo las que fueron excluidas anteriormente). Enumeramos las muestras que se obtienen del original:
Imagen para el correo

Total de n nuevas muestras (multiplicadas) de tamaño (n-1) cada una. Para cada una de ellas se puede calcular el valor de las estadísticas de interés para la econometría (con un tamaño de muestra reducido en 1):
Los valores obtenidos de las estadísticas permiten juzgar sobre su distribución y sobre las características de la misma - sobre el valor esperado, la mediana, cuantil, la dispersión, la desviación cuadrada media.

Conclusión: ¿Qué tipo de regresión elegir?


  • En el caso de los modelos que requieren una variable dependiente continua:
La regresión lineal es la más común y la más sencilla de usar. Si tienes una variable dependiente continua, la regresión lineal es probablemente el primer tipo que debes considerar. Sin embargo, debes prestar atención a varias debilidades de la regresión lineal como la sensibilidad a los valores atípicos y la multicolinealidad. En este caso, es mejor utilizar variantes más avanzadas de la regresión lineal como la regresión de Ridge, la regresión de Lasso y los mínimos cuadrados parciales (PLS).
  • En el caso de los modelos que requieren variables dependientes categóricas:
Preste atención a la Regresión Logística. Este modelo es el más popular para las variables dependientes binarias. Es altamente recomendado comenzar con este ajuste de modelo antes de llevar a cabo un modelado categórico más sofisticado. Una variable categórica tiene valores que se pueden poner en un número contable de grupos distintos basados en una característica. La regresión logística transforma la variable dependiente y luego utiliza la Estimación de Máxima probabilidad, en lugar de los mínimos cuadrados, para estimar los parámetros.

  • En el caso de los modelos que requieren un recuento de variables dependientes:
Utiliza la regresión de Poisson. Los datos de conteo frecuentemente siguen la distribución de Poisson, lo que hace que la Regresión de Poisson sea una buena posibilidad. Con una variable de Poisson, se puede calcular y evaluar una tasa de ocurrencia.
…………………………………
¿Me pierdo algo? ¿Desacuerdo completamente? Comparte tu opinión en los comentarios! Siéntase libre de seguirme en Medium e Instagram.
¡Gracias por la lectura!


Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!