Random Forests (Bosques aleatorios) es uno de mis algoritmos favoritos de minería de datos. Inventado por Leo Breiman y Adele Cutler en el siglo pasado, ha conservado su autenticidad hasta hoy, no se le han añadido cambios desde su invención.

Sin exagerar, es uno de los pocos algoritmos universales. Los bosques aleatorios permiten resolver tanto los problemas de regresión como de clasificación. Es bueno para la búsqueda de anomalías y la selección de predictores. Además, es técnicamente difícil aplicar incorrectamente este algoritmo. Es sorprendentemente simple en su esencia. A diferencia de otros algoritmos, tiene pocos parámetros configurables. Y al mismo tiempo, es sorprendentemente preciso.

Vaya, ¡tantas ventajas de usar los bosques al azar! Parece un milagro para los ingenieros de aprendizaje automático ;) Así que, si aún no sabes cómo funciona, es el momento adecuado para arreglar esta situación. Esta es una aventura de aprendizaje para principiantes, donde vemos las cosas en términos de ramas, hojas y bosques aleatorios, por supuesto.

Sin más preámbulos, ¡comencemos!

Árboles de decisión en una cáscara de nuez

Empecemos con los árboles de decisión, porque lógicamente, no hay bosque sin árboles.

Los Árboles de Decisión son algoritmos de aprendizaje supervisado no paramétrico que construyen modelos de clasificación o regresión con la forma de una estructura de árbol. Descompone un conjunto de datos en subconjuntos cada vez más pequeños, mientras que al mismo tiempo se desarrolla gradualmente un árbol de decisión asociado.

Un bosque aleatorio es en realidad sólo un montón de árboles de decisión. El objetivo es crear un modelo que prediga el valor de una variable objetivo mediante el aprendizaje de reglas de decisión simples inferidas a partir de las características de los datos.

Un árbol de decisión es una estructura similar a un diagrama de flujo en la que cada nodo interno representa una "prueba" a un atributo (por ejemplo, si al tirar una moneda sale cara o cruz), cada rama representa el resultado de la prueba y cada nodo de hoja representa una etiqueta de clase (decisión tomada después de computar todos los atributos). Los caminos desde la raíz hasta la hoja representan las reglas de clasificación.

Un árbol de decisión consta de tres tipos de nodos:

Nodos de decisión - normalmente representados por cuadrados
Nodos de azar - típicamente representados por círculos
Nodos finales - típicamente representados por triángulos

Así que, en conjunto, el árbol aprendido también puede representarse como una regla anidada if else para mejorar la legibilidad humana. Los árboles tienen un alto riesgo de sobre ajustar los datos de formación, así como de volverse complejos desde el punto de vista computacional si no se limitan y regularizan adecuadamente durante la etapa de crecimiento. Este sobreajuste implica un bajo sesgo y una alta varianza en el modelo. Por lo tanto, para hacer frente a este problema, utilizamos el aprendizaje en conjunto, un enfoque que nos permite corregir este hábito de sobreaprendizaje y esperamos, llegar a mejores y más fuertes resultados.

¿Qué es el método de aprendizaje en conjunto?

El método de aprendizaje por conjuntos se basa en algoritmos de entrenamiento que forman muchos clasificadores y luego segmentan nuevos puntos de datos, a partir de la votación o el promedio. El método original de conjunto no es más que un promedio bayesiano, pero los algoritmos posteriores incluyen la corrección de errores de codificación de salida, la agregación y el boosting. El boosting tiene como objetivo convertir los modelos débiles en fuertes construyendo un conjunto de clasificadores. La agregación también agrega clasificadores avanzados, pero utiliza el entrenamiento paralelo de los clasificadores básicos. En el lenguaje de la lógica matemática, la agregación es una unión mejorada, y el boosting es una intersección mejorada.

En nuestro caso, un Bosque Aleatorio (aprendiz fuerte) se construye como un conjunto de Árboles de Decisión (aprendices débiles) para realizar diferentes tareas como la regresión y la clasificación.

¿Cuál es la idea del Bosque aleatorio?

La idea es simple: digamos que tenemos un algoritmo muy débil, digamos, un árbol de decisión. Si hacemos muchos modelos diferentes usando este algoritmo débil y promediamos el resultado de sus predicciones, entonces el resultado final será mucho mejor. Este es el llamado aprendizaje en conjunto en acción.

Bueno, aquí hay una razón por la que el bosque aleatorio se llama así, porque crea muchos árboles de decisión para los datos y luego promedia el resultado de sus predicciones. Un gran número de árboles de decisión son los parámetros del método, cada uno de los cuales se construye de acuerdo con una muestra obtenida de la formación original seleccionada usando bootstrap (muestra con retorno).

Un punto importante aquí es el elemento de aleatoriedad en la creación de cada árbol. Después de todo, está claro que si creamos muchos árboles idénticos, el resultado de su promediación tendrá la precisión de un árbol.

Una explicación simple

Un bosque aleatorio es una colección de árboles de decisión aleatoria (el número de n_estimadores en sklearn). Tienes que entender cómo crear un árbol de decisión aleatoria.

En términos generales, para construir un árbol de decisión aleatoria se empieza con un subconjunto de tus muestras de entrenamiento. En cada nodo, se dibuja arbitrariamente un subconjunto de funciones (el número está determinado por max_funciones en sklearn). Para cada una de estas funciones, probará diferentes valores umbral y verá cómo separan sus muestras según un criterio determinado (normalmente entropía o gini, criterio en sklearn).

A continuación, guardará la función y su umbral, que son la mejor manera de separar sus datos y escribirlos en un nodo. Cuando termina la construcción del árbol (esto puede ser por varias razones: se alcanza la profundidad máxima (max_depth en sklearn), se alcanza el mínimo número de muestras (min_samples_leaf en sklearn), etc.), se miran las muestras en cada hoja y se guarda la frecuencia de las marcas. Como resultado, parece que el árbol le da una sección de sus muestras de entrenamiento de acuerdo con las funciones significativas.

Dado que cada nodo se construye a partir de funciones aleatorias, entendemos que cada árbol construido de esta manera será diferente. Esto contribuye a un buen compromiso entre el desplazamiento y la dispersión.

Luego, en el modo de prueba, la muestra de prueba pasará a través de cada árbol, dándole etiquetas para cada árbol. La etiqueta más representada suele ser el resultado final de la clasificación.

¿Cómo funciona?

Supongamos que tenemos algunos datos de entrada. Cada columna corresponde a un determinado parámetro, cada fila corresponde a un determinado elemento de datos.

Podemos seleccionar al azar de todo el conjunto de datos un cierto número de columnas y filas y construir un árbol de decisión a partir de ellas.

Luego podemos repetir este proceso muchas veces y obtener un montón de árboles diferentes. El proceso del algoritmo de construcción de árboles es muy rápido. Y por lo tanto, no será difícil para nosotros hacer tantos árboles como necesitemos. Al mismo tiempo, todos estos árboles son, en cierto sentido, aleatorios, porque elegimos un subconjunto aleatorio de datos para crear cada uno de ellos.

El número de árboles creados es a menudo un factor importante. Este número puede influir en el nivel de error de clasificación alcanzado. Además, con clases muy desequilibradas (por ejemplo, un lote de 0 y sólo una pequeña cantidad de 1), es importante realizar un muestreo estratificado para igualar los niveles de error de clasificación en cada una de estas clases.

En la versión original del algoritmo, se selecciona un subconjunto aleatorio en cada paso de la construcción del árbol. Pero esto no cambia la esencia y los resultados son comparables.

Este algoritmo es sorprendentemente simple, el paso más difícil de su implementación es la construcción del árbol de decisión. Y a pesar de su simplicidad, da muy buenos resultados en tareas reales. Desde un punto de vista práctico, tiene una gran ventaja: casi no requiere configuración. Si tomamos cualquier otro algoritmo de aprendizaje automático, ya sea una regresión o una red neuronal, todos tienen un montón de parámetros y hay que saber qué algoritmos son mejores para aplicar a una tarea específica.

El algoritmo de bosques aleatorio tiene esencialmente un solo parámetro: el tamaño del subconjunto aleatorio seleccionado en cada paso de la construcción del árbol. Este parámetro es importante, pero incluso los valores predeterminados proporcionan resultados muy aceptables.

Bosques aleatorios vs. árboles de decisión

Tanto el bosque aleatorio como los árboles de decisión son un tipo de algoritmo de clasificación, que son supervisados en su naturaleza.

Un árbol de decisión es una representación gráfica de todas las posibles soluciones a una decisión basada en ciertas condiciones. Se llama árbol de decisión porque comienza con una única caja (o raíz), que luego se ramifica en varias soluciones, igual que un árbol.

Los bosques aleatorios implican la construcción de varios árboles de decisión basados en muestrear parámetros y luego realizar predicciones basadas en la mayor puntuación entre los árboles para los problemas de clasificación o el promedio para los problemas de regresión. Esto resuelve el problema de la sobrecarga de los árboles de decisión.

Cuando se trabaja con el bosque, al construir cada árbol en las etapas de división de los vértices, sólo se utiliza un número fijo de parámetros seleccionados al azar del conjunto de entrenamiento (el segundo parámetro del método) y se construye un árbol completo (sin truncamiento). En otras palabras, cada hoja del árbol contiene observaciones de una sola clase.

Algoritmo de bosques aleatorios con Python y Scikit-Learn

La biblioteca Scikit Learn, tiene la siguiente implementación de árboles aleatorios (abajo sólo para la tarea de clasificación):

class sklearn.ensemble.RandomForestClassifier(n_estimators=10,
criterion=’gini’, max_depth=None, min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0,
max_features=’auto’, max_leaf_nodes=None, min_impurity_split=1e-07,
bootstrap=True, oob_score=False, n_jobs=1,
random_state=None, verbose=0, warm_start=False,
class_weight=None)

Trabajan con el algoritmo según el esquema estándar adoptado en scikit-learn:

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import roc_auc_score
# then — (X, y) -training, (X2, y2) — verification
# model — here (for contrast) consider the regressor
model = RandomForestRegressor(n_estimators=10 ,
oob_score=True,
random_state=1)
model.fit(X, y) # training
a = model.predict(X2) # prediction
print (“AUC-ROC (oob) = “, roc_auc_score(y, model.oob_prediction_))
print (“AUC-ROC (test) = “, roc_auc_score(y2, a))

Echemos un vistazo a lo que significan los principales parámetros:

N_estimadores - Número de árboles

Cuantos más árboles, mejor calidad, pero la sintonización y el tiempo de árbol aleatorio también aumentan proporcionalmente. Tengan en cuenta que a menudo con un aumento de n_estimadores, la calidad de la muestra de entrenamiento aumenta (puede incluso llegar al 100%), y la calidad de la prueba alcanza la asíntota (puedes estimar cuántos árboles son suficientes para ti).

Max_features - El número de características a seleccionar para la división

A medida que max_features aumenta, el tiempo de construcción del bosque aumenta, y los árboles se vuelven "más uniformes". Por defecto, es sqrt (n) en problemas de clasificación y n / 3 en problemas de regresión. Este es el parámetro más importante! Se establece en primer lugar (con un número suficiente de árboles en el bosque).

Min_samples_split - El número mínimo de objetos en los que se realiza la división

Este parámetro, por regla general, no es muy importante - puedes dejar el valor por defecto.

El gráfico de calidad en el control puede ser similar a un "peine" (no hay un óptimo claro). A medida que el parámetro aumenta, la calidad del entrenamiento disminuye y el tiempo de construcción del árbol aleatorio disminuye.

Min_samples_leaf - Límite en el número de objetos en las hojas

Todo lo que se ha descrito min_samples_split también es adecuado para describir este parámetro. A menudo se puede dejar el valor por defecto. Por cierto, normalmente se recomienda usar el valor 5 en las tareas de regresión (esto se implementa en la biblioteca randomForest para R, y 1 en sklearn).

Max_depth - Profundidad Máxima del árbol

Está claro que a menor profundidad, más rápido se construye y funciona un bosque aleatorio. Con el aumento de la profundidad, la calidad del entrenamiento aumenta bruscamente, pero también en el control, por regla general, aumenta. Se recomienda utilizar la máxima profundidad (excepto en los casos en que haya demasiados objetos y se obtengan árboles muy profundos, cuya construcción lleva un tiempo considerable).

Cuando se utilizan árboles poco profundos, el cambio de los parámetros asociados a la limitación del número de objetos en la hoja y a la división no produce un efecto significativo (las hojas son "grandes" de todos modos). Se recomienda el uso de árboles de poca profundidad en problemas con un gran número de objetos ruiodosos (emisiones).

Criterio - Criterio de división

En términos de significado, este es un parámetro muy importante, pero de hecho, no hay opciones aquí. En la biblioteca de Sklearn se implementan dos criterios para la regresión: "mse" y "mae", que corresponden a las funciones de error que minimizan. La mayoría de las tareas requieren el uso de mse. Para la clasificación, se implementan los criterios "gini" y "entropía", que corresponden a los criterios de división clásicos. Una simple búsqueda le ayudará a elegir qué utilizar en una determinada tarea.

No existe un parámetro de tamaño de muestra en la aplicación de mse de un bosque aleatorio, que regula cuántos objetos deben seleccionarse para construir cada árbol. Existe tal parámetro en la implementación en R, pero, de hecho, a menudo es óptimo elegir entre toda la muestra. También se recomienda seleccionar una submuestra con un retorno: bootstrap = True (esto es agregar - bootstrap agreggating).

Empaquetando todo

Así que, el bosque aleatorio es un algoritmo muy fácil de usar. Tiene muchas ventajas, y aquí están los puntos más importantes para mí:

Los bosques aleatorios garantizan la protección contra el sobreajuste.
La construcción de bosques aleatorios es muy simple - sólo necesitas dos parámetros que requieren un ajuste mínimo
Los bosques aleatorios pueden ser utilizados no sólo para tareas de clasificación y regresión, sino también para las tareas de identificación de las características más informativas, agrupación y resaltar observaciones anómalas

…………………………………….

Espero que este post haya sido útil e interesante para ti! Si haces algo interesante con esta información, deja una respuesta en los comentarios de abajo o ponte en contacto en cualquier momento en mi blog de Instagram y Medium.

Gracias por leer!

Most Related Articles

Python

Programming

¿Por Qué Los Decoradores En Python Son Pura Genialidad?

Analiza, prueba y reutiliza tu código con poco más que un símbolo @Si hay algo que hace que Python sea increíblemente exitoso, eso sería su legibilidad. Todo lo demás depende de eso: si el código es ilegible, es difícil de mantener. Tampoco es fácil para los principiantes: un novato que se aturda con un código ilegible no intentará escribir el suyo propio algún día.Python ya era legible y amigable para los principiantes antes de que aparecieran los decoradores. Pero a medida que el lenguaje comenzó a ser utilizado para más y más cosas, los desarrolladores de Python sintieron la necesidad de más y más características, sin desordenar el paisaje y hacer el código ilegible.Los decoradores son un ejemplo de una característica perfectamente implementada. Lleva un tiempo entenderlos, pero vale la pena. Cuando empieces a usarlos, notarás cómo no complican demasiado las cosas y hacen que tu código sea limpio y elegante.Antes que nada: funciones de orden superiorEn pocas palabras, los decoradores son una forma clara de manejar las funciones de orden superior. Así que vamos a verlos primero.Funciones que devuelven funcionesDigamos que tienes una función, greet() - que saluda a cualquier objeto que le pases. Y digamos que tienes otra función, simon() - que inserta "Simón" donde sea apropiado. ¿Cómo podemos combinar las dos? Piénsalo un momento antes de mirar a continuacióndef greet(name): return f"Hello, {name}!" def simon(func): return func("Simon") simon(greet)La salida es "¡Hola, Simon!". Espero que tenga sentido para ti.Por supuesto, podríamos haber llamado simplemente a greet("Simon"). Sin embargo, la cuestión es que podríamos querer poner "Simón" en muchas funciones diferentes. Y si no usamos "Simón" sino algo más complicado, podemos ahorrar un montón de líneas de código empaquetándolo en una función como simon().Funciones dentro de otras funcionesTambién podemos definir funciones dentro de otras funciones. Esto es importante porque los decoradores también lo hacen. Sin los decoradores se ve así:def respect(maybe): def congrats(): return "Congrats, bro!" def insult(): return "You're silly!" if maybe == "yes": return congrats else: return insultLa función respect() devuelve una función; respect("yes") devuelve la función congrats, respect("brother") (o algún otro argumento en lugar de "brother") devuelve la función insultos. Para llamar a las funciones, introduce respect("sí")() y respect("hermano")(), como una función normal.Lee también: Python Books You Must Read in 2020¿Lo tienes? ¡Entonces ya tienes todo listo para los decoradores!Code is beautifully nerdy. Image by author.El ABC de los decoradores de PythonFunciones con un símbolo @Probemos una combinación de los dos conceptos anteriores: una función que toma otra función y define una función. ¿Suena alucinante? Considera esto:def startstop(func): def wrapper(): print("Starting...") func() print("Finished!") return wrapper def roll(): print("Rolling on the floor laughing XD") roll = startstop(roll)La última línea asegura que ya no necesitamos llamar a startstop(roll)(); con roll() será suficiente. ¿Sabes cuál es la salida de esa llamada? ¡Pruébalo tú mismo si no estás seguro!Ahora, como una muy buena alternativa, podríamos insertar esto justo después de definir startstop():@startstop def roll(): print("Rolling on the floor laughing XD")Esto hace lo mismo, pero pega roll() a startstop() al principio.Flexibilidad añadida¿Por qué es útil? ¿No consume exactamente las mismas líneas de código que antes?En este caso, sí. Pero una vez que estás tratando con cosas un poco más complicadas, se vuelve realmente útil. Por una vez, puedes mover todos los decoradores (es decir, la parte def startstop() de arriba) a su propio módulo. Es decir, los escribes en un archivo llamado decorators.py y escribes algo como esto en tu archivo principal:from decorators import startstop @startstop def roll(): print("Rolling on the floor laughing XD")En principio, puedes hacerlo sin usar decoradores. Pero de esta manera se hace la vida más fácil porque ya no tienes que lidiar con funciones anidadas y con el interminable conteo de corchetes.También puedes anidar decoradores:from decorators import startstop, exectime @exectime @startstop def roll(): print("Rolling on the floor laughing XD")Ten en cuenta que aún no hemos definido exectime(), pero lo verás en la siguiente sección. Es una función que puede medir el tiempo que tarda un proceso en Python.Este anidamiento equivaldría a una línea como estaroll = exectime(startstop(roll))¡Comienza el conteo de corchetes! Imagina que tienes cinco o seis de esas funciones anidadas unas dentro de otras. ¿No sería la notación del decorador mucho más fácil de leer que este lío anidado?Incluso puedes usar decoradores en funciones que aceptan argumentos. Ahora imagina unos cuantos argumentos en la línea anterior y tu caos estaría completo. Los decoradores lo hacen más limpio y ordenado.Lee también: How to Get a Job With PythonFinalmente, puedes incluso añadir argumentos a tus decoradores - como @mydecorator(argument). Sí, puedes hacer todo esto sin decoradores. Pero entonces te deseo que te diviertas entendiendo tu código sin decoradores cuando lo releas dentro de tres semanas...Decorators make everything easier. Image by author.Aplicaciones: donde los decoradores cortan la nataAhora que espero haberte convencido de que los decoradores te hacen la vida tres veces más fácil, veamos algunos ejemplos clásicos en los que los decoradores son básicamente indispensables.Medir el tiempo de ejecuciónSupongamos que tenemos una función llamada waste time() y queremos saber cuánto tarda. Pues bien, ¡sólo hay que utilizar un decorador!import time def measuretime(func): def wrapper(): starttime = time.perf_counter() func() endtime = time.perf_counter() print(f"Time needed: {endtime - starttime} seconds") return wrapper @measuretime def wastetime(): sum([i**2 for i in range(1000000)]) wastetime()Una docena de líneas de código y ya está. Además, puedes usar measuretime() en tantas funciones como quieras.Ralentizar el códigoA veces no quieres ejecutar el código inmediatamente, sino esperar un tiempo. Ahí es donde un decorador de ralentización resulta útil:import time def sleep(func): def wrapper(): time.sleep(300) return func() return wrapper @sleep def wakeup(): print("Get up! Your break is over.") wakeup()Llamar a wakeup() hace que te tomes un descanso de 5 minutos, tras el cual tu consola te recuerda que debes volver al trabajo.Lee también: Building A Linear Regression Model With Python To Predict Retail Customer SpendingPruebas y depuraciónDigamos que tienes un montón de funciones diferentes que llamas en diferentes etapas, y estás perdiendo la visión general sobre lo que se está llamando cuando. Con un simple decorador para cada definición de función, puedes aportar más claridad. Así:def debug(func): def wrapper(): print(f"Calling {func.__name__}") return wrapper @debug def scare(): print("Boo!") scare()Hay un ejemplo mucho más elaborado aquí. Ten en cuenta, sin embargo, que para entender ese ejemplo, tendrás que comprobar cómo decorar funciones con argumentos. Aun así, ¡vale la pena leerlo!Reutilización de códigoEsto no hace falta decirlo. Si has definido una función decorator(), puedes esparcir @decorator por todo tu código. Para ser honesto, no creo que haya nada más simple que eso.Manejo de los inicios de sesiónSi tienes funcionalidades a las que sólo se puede acceder si un usuario está conectado, también es bastante fácil con los decoradores. Te remitiré al ejemplo completo para que lo consultes, pero el principio es bastante sencillo: primero defines una función como login_required(). Antes de cualquier definición de función que necesite el inicio de sesión, pones @login_required. Bastante simple, diría yo.Azúcar sintáctico - o por qué Python es tan dulceNo es que no sea crítico con Python o que no utilice lenguajes alternativos cuando sea apropiado. Pero hay un gran atractivo en Python: es muy fácil de digerir, incluso cuando no eres un informático de formación y sólo quieres hacer que las cosas funcionen.Si C++ es una naranja, Python es una piña: igualmente nutritiva, pero tres veces más dulce. Los decoradores son sólo un factor en la mezcla.Pero espero que hayas llegado a ver por qué es un factor tan dulce. ¡Azúcar sintáctico para añadir algo de placer a tu vida! Sin riesgos para la salud, salvo tener los ojos pegados a una pantalla.¡Te deseo mucho código dulce!Lee también: How to Use Python Datetimes Correctly?

Daniel Morales

May 14, 2020

Python

SQL

Programming

¿Cómo Usar Correctamente Los Datetimes En Python?

Datetime es básicamente un objeto python que representa un punto en el tiempo, como años, días, segundos, milisegundos. Esto es muy útil para crear nuestros programas.El módulo datetime proporciona clases para manipular fechas y horas de forma simple y compleja. Mientras que la aritmética de la fecha y la hora está soportada, la aplicación se centra en la extracción eficiente de atributos para formatear y manipular la salidaVamos a importar el módulo de Python

Daniel Morales

May 14, 2020

Data Science

Programming

6 Conceptos de Estadística Avanzada en Data Science

El artículo contiene algunos de los conceptos estadísticos avanzados más utilizados junto con su implementación en Python.En mis artículos anteriores Beginners Guide to Statistics in Data Science y The Inferential Statistics Data Scientists Should Know hemos hablado de casi todos los conceptos básicos (descriptivos e inferenciales) de la estadística que se utilizan comúnmente en la comprensión y el trabajo con cualquier estudio de caso de ciencia de datos. En este artículo, vamos a ir un poco más allá y hablar de algunos conceptos avanzados que no son parte del hype/buzz.Puedes leer más artículos de Data Science en español aquí Concepto #1 - Q-Q(quantile-quantile) PlotsAntes de comprender los gráficos QQ, primero hay que entender qué es un cuantil.Un cuantil define una parte concreta de un conjunto de datos, es decir, un cuantil determina cuántos valores de una distribución están por encima o por debajo de un determinado límite. Los cuantiles especiales son el cuartil (cuarto), el quintil (quinto) y los percentiles (centésimo).Un ejemplo:Si dividimos una distribución en cuatro porciones iguales, hablaremos de cuatro cuartiles. El primer cuartil incluye todos los valores que son menores que la cuarta parte de todos los valores. En una representación gráfica, corresponde al 25% del área total de la distribución. Los dos cuartiles inferiores comprenden el 50% de todos los valores de la distribución. El rango intercuartil entre el primer y el tercer cuartil es igual al rango en el que se encuentra el 50% de todos los valores que se distribuyen alrededor de la media. En Estadística, un gráfico Q-Q (cuantil-cuantil) es un gráfico de dispersión creado al trazar dos conjuntos de cuantiles entre sí. Si ambos conjuntos de cuantiles provienen de la misma distribución, deberíamos ver los puntos formando una línea que es aproximadamente recta (y=x).Q-Q plotPor ejemplo, la mediana es un cuantil en el que el 50% de los datos caen por debajo de ese punto y el 50% están por encima. El propósito de los gráficos Q Q es averiguar si dos conjuntos de datos proceden de la misma distribución. En el gráfico Q Q se traza un ángulo de 45 grados; si los dos conjuntos de datos proceden de una distribución común, los puntos caerán sobre esa línea de referencia.Es muy importante saber si la distribución es normal o no para poder aplicar diversas medidas estadísticas a los datos e interpretarlos en una visualización mucho más comprensible para el ser humano, y el gráfico Q-Q entra en escena. La pregunta más fundamental que responde el gráfico Q-Q es si la curva está normalmente distribuida o no.Se distribuye normalmente, pero ¿por qué?Los gráficos Q-Q se utilizan para encontrar el tipo de distribución de una variable aleatoria, ya sea una distribución gaussiana, una distribución uniforme, una distribución exponencial o incluso una distribución de Pareto, etc. Se puede saber el tipo de distribución utilizando la potencia del gráfico Q-Q con sólo mirar el gráfico. En general, hablamos de distribuciones Normales sólo porque tenemos un concepto muy bonito de la regla 68-95-99.7 que se ajusta perfectamente a la distribución normal Así sabemos qué parte de los datos se encuentra en el rango de la primera desviación estándar, la segunda desviación estándar y la tercera desviación estándar de la media. Así que saber si una distribución es Normal nos abre nuevas puertas para experimentar Types of Q-Q plots. Source Skewed Q-Q plotsLos gráficos Q-Q permiten encontrar la asimetría de la distribución. Si el extremo inferior del gráfico Q-Q se desvía de la línea recta, pero el extremo superior no, entonces la distribución es Left skewed(Negatively skewed).Ahora bien, si el extremo superior del gráfico Q-Q se desvía de la línea recta y el inferior no, entonces la distribución es Right skewed(Positively skewed).Tailed Q-Q plotsLos gráficos Q-Q pueden encontrar la curtosis (medida de la cola) de la distribución.La distribución con la cola gorda tendrá ambos extremos de la gráfica Q-Q para desviarse de la línea recta y su centro sigue la línea, donde como una distribución de cola delgada término Q-Q parcela con muy menos o desviación insignificante en los extremos por lo que es un ajuste perfecto para la distribución normal.Q-Q plots en Python(Source)Puedes leer más artículos de Data Science en español aquí Supongamos que tenemos el siguiente conjunto de datos de 100 valores:import numpy as np #create dataset with 100 values that follow a normal distribution np.random.seed(0) data = np.random.normal(0,1, 1000) #view first 10 values data[:10] array([ 1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799, -0.97727788, 0.95008842, -0.15135721, -0.10321885, 0.4105985 ])Para crear un gráfico Q-Q para este conjunto de datos, podemos utilizar la función qqplot() function de la biblioteca statsmodels:import statsmodels.api as sm import matplotlib.pyplot as plt #create Q-Q plot with 45-degree line added to plot fig = sm.qqplot(data, line='45') plt.show()En un gráfico Q-Q, el eje x muestra los cuantiles teóricos. Esto significa que no muestra los datos reales, sino que representa dónde estarían los datos si se distribuyeran normalmente.El eje Y muestra los datos reales. Esto significa que si los valores de los datos caen a lo largo de una línea aproximadamente recta en un ángulo de 45 grados, entonces los datos están distribuidos normalmente.Podemos ver en nuestro gráfico Q-Q de arriba que los valores de los datos tienden a seguir de cerca el ángulo de 45 grados, lo que significa que los datos están probablemente distribuidos normalmente. Esto no debería ser sorprendente, ya que generamos los 100 valores de datos utilizando el numpy.random.normal() function.Considere en cambio si generamos un conjunto de datos de 100 valores distribuidos uniformemente y creamos un gráfico Q-Q para ese conjunto de datos:#create dataset of 100 uniformally distributed values data = np.random.uniform(0,1, 1000) #generate Q-Q plot for the dataset fig = sm.qqplot(data, line='45') plt.show()Los valores de los datos no siguen claramente la línea roja de 45 grados, lo que indica que no siguen una distribución normal.Concepto #2- Chebyshev's InequalityEn probabilidad, la desigualdad de Chebyshev, también conocida como desigualdad "Bienayme-Chebyshev", garantiza que, para una amplia clase de distribuciones de probabilidad, sólo una fracción definida de valores se encontrará dentro de una distancia específica de la media de una distribución.Source: https://www.thoughtco.com/chebyshevs-inequality-3126547 La desigualdad de Chebyshev es similar a la regla empírica (68-95-99,7); sin embargo, esta última regla sólo se aplica a las distribuciones normales. La desigualdad de Chebyshev es más amplia; puede aplicarse a cualquier distribución siempre que ésta incluya una varianza y una media definidas.Así, la desigualdad de Chebyshev dice que al menos (1-1/k^2) de los datos de una muestra deben caer dentro de K desviaciones estándar de la media (o, de forma equivalente, no más de 1/k^2 de los valores de la distribución pueden estar a más de k desviaciones estándar de la media).Donde K --> número real positivoSi los datos no se distribuyen normalmente, entonces diferentes cantidades de datos podrían estar en una desviación estándar. La desigualdad de Chebyshev proporciona una manera de saber qué fracción de datos cae dentro de K desviaciones estándar de la media para cualquier distribución de datos.Lea También: 22 Preguntas Sobre Estadística Para Preparar En Una Entrevista De TrabajoCredits: https://calcworkshop.com/joint-probability-distribution/chebyshev-inequality/ La desigualdad de Chebyshev es de gran valor porque puede aplicarse a cualquier distribución de probabilidad en la que se proporcionen la media y la varianza.Consideremos un ejemplo: supongamos que se presentan 1.000 concursantes a una entrevista de trabajo, pero sólo hay 70 puestos disponibles. Para seleccionar a los 70 mejores concursantes del total, el propietario realiza unas pruebas para juzgar su potencial. La puntuación media de la prueba es de 60, con una desviación estándar de 6. Si un aspirante obtiene una puntuación de 84, ¿puede presumir que va a conseguir el puesto?Los resultados muestran que unas 63 personas obtuvieron una puntuación superior a 60, por lo que, con 70 puestos disponibles, un concursante que obtenga una puntuación de 84 puede estar seguro de haber conseguido el puesto.Chebyshev's Inequality en Python(Source) Crear una población de 1.000.000 de valores, utilizo una distribución gamma (también funciona con otras distribuciones) con forma = 2 y escala = 2.import numpy as np import random import matplotlib.pyplot as plt #create a population with a gamma distribution shape, scale = 2., 2. #mean=4, std=2*sqrt(2) mu = shape*scale #mean and standard deviation sigma = scale*np.sqrt(shape) s = np.random.gamma(shape, scale, 1000000)Ahora muestree 10.000 valores de la población.#sample 10000 values rs = random.choices(s, k=10000)Cuente la muestra que tiene una distancia del valor esperado mayor que la desviación estándar k y utilice el recuento para calcular las probabilidades. Quiero representar una tendencia de las probabilidades cuando k aumenta, así que utilizo un rango de k de 0,1 a 3.#set k ks = [0.1,0.5,1.0,1.5,2.0,2.5,3.0] #probability list probs = [] #for each k for k in ks: #start count c = 0 for i in rs: # count if far from mean in k standard deviation if abs(i - mu) > k * sigma : c += 1 probs.append(c/10000)Traza los resultados:plot = plt.figure(figsize=(20,10)) #plot each probability plt.xlabel('K') plt.ylabel('probability') plt.plot(ks,probs, marker='o') plot.show() #print each probability print("Probability of a sample far from mean more than k standard deviation:") for i, prob in enumerate(probs): print("k:" + str(ks[i]) + ", probability: " \ + str(prob)[0:5] + \ " | in theory, probability should less than: " \ + str(1/ks[i]**2)[0:5])A partir del gráfico y el resultado anteriores, podemos ver que a medida que aumenta k, la probabilidad es decreciente, y la probabilidad de cada k sigue la desigualdad. Además, sólo el caso de que k sea mayor que 1 es útil. Si k es menor que 1, el lado derecho de la desigualdad es mayor que 1, lo que no es útil porque la probabilidad no puede ser mayor que 1.Concepto #3- Log-Normal DistributionEn teoría de la probabilidad, una distribución logarítmica normal, también conocida como distribución de Galton, es una distribución de probabilidad continua de una variable aleatoria cuyo logaritmo se distribuye normalmente.Así, si la variable aleatoria X se distribuye de forma log-normal, entonces Y = ln(X) tiene una distribución normal. De forma equivalente, si Y tiene una distribución normal, entonces la función exponencial de Y, es decir, X = exp(Y), tiene una distribución log-normal. Puedes leer más artículos de Data Science en español aquí Las distribuciones sesgadas con baja media y alta varianza y todos los valores positivos encajan en este tipo de distribución. Una variable aleatoria con distribución log-normal sólo toma valores reales positivos. La fórmula general de la función de densidad de probabilidad de la distribución lognormal esLos parámetros de localización y escala equivalen a la media y la desviación estándar del logaritmo de la variable aleatoria.La forma de la distribución Lognormal está definida por 3 parámetros:σ es el parámetro de forma, (y es la desviación estándar del logaritmo de la distribución)θ o μ es el parámetro de localización (y es la media de la distribución)m es el parámetro de escala (y es también la mediana de la distribución)Los parámetros de localización y escala son equivalentes a la media y la desviación estándar del logaritmo de la variable aleatoria, como se ha explicado anteriormente.Si x = θ, entonces f(x) = 0. El caso en el que θ = 0 y m = 1 se denomina distribución lognormal estándar. El caso en el que θ es igual a cero se denomina distribución lognormal de 2 parámetros.El siguiente gráfico ilustra el efecto del parámetro de localización(μ) y escala(σ) en la función de densidad de probabilidad de la distribución lognormal: Source: https://www.sciencedirect.com/topics/mathematics/lognormal-distribution Log-Normal Distribution en Python(Source)Consideremos un ejemplo para generar números aleatorios a partir de una distribución log-normal con μ=1 y σ=0,5 utilizando la función scipy.stats.lognorm.import numpy as np import matplotlib.pyplot as plt from scipy.stats import lognorm np.random.seed(42) data = lognorm.rvs(s=0.5, loc=1, scale=1000, size=1000) plt.figure(figsize=(10,6)) ax = plt.subplot(111) plt.title('Generate wrandom numbers from a Log-normal distribution') ax.hist(data, bins=np.logspace(0,5,200), density=True) ax.set_xscale("log") shape,loc,scale = lognorm.fit(data) x = np.logspace(0, 5, 200) pdf = lognorm.pdf(x, shape, loc, scale) ax.plot(x, pdf, 'y') plt.show()Concepto #4- Power Law distributionEn estadística, una ley de potencia es una relación funcional entre dos cantidades, en la que un cambio relativo en una cantidad da lugar a un cambio relativo proporcional en la otra cantidad, independientemente del tamaño inicial de esas cantidades: una cantidad varía como una potencia de otra.Por ejemplo, considerando el área de un cuadrado en función de la longitud de su lado, si se duplica la longitud, el área se multiplica por un factor de cuatro.Una distribución de ley de potencia tiene la forma Y = k Xα, donde:X e Y son variables de interés,α es el exponente de la ley,k es una constante.Source: https://en.wikipedia.org/wiki/Power_law La distribución de la ley de potencia es sólo una de las muchas distribuciones de probabilidad, pero se considera una herramienta valiosa para evaluar los problemas de incertidumbre que la distribución normal no puede manejar cuando se producen con cierta probabilidad.Se ha comprobado que muchos procesos siguen leyes de potencia en rangos de valores considerables. Desde la distribución en los ingresos, el tamaño de los meteoroides, las magnitudes de los terremotos, la densidad espectral de las matrices de pesos en las redes neuronales profundas, el uso de las palabras, el número de vecinos en varias redes, etc. (Nota: La ley de potencia aquí es una distribución continua. Los dos últimos ejemplos son discretos, pero a gran escala pueden modelarse como si fueran continuos).Puedes leer más artículos de Data Science en español aquí Lea también: Medidas Estadísticas De Tendencia CentralPower-law distribution en Python(Source) Trazamos el Pareto distribution que es una forma de distribución de probabilidad de ley de potencia. La distribución de Pareto se conoce a veces como Principio de Pareto o regla "80-20", ya que la regla establece que el 80% de la riqueza de la sociedad está en manos del 20% de su población. La distribución de Pareto no es una ley de la naturaleza, sino una observación. Es útil en muchos problemas del mundo real. Se trata de una distribución sesgada de cola pesada.import numpy as np import matplotlib.pyplot as plt from scipy.stats import pareto x_m = 1 #scale alpha = [1, 2, 3] #list of values of shape parameters plt.figure(figsize=(10,6)) samples = np.linspace(start=0, stop=5, num=1000) for a in alpha: output = np.array([pareto.pdf(x=samples, b=a, loc=0, scale=x_m)]) plt.plot(samples, output.T, label='alpha {0}' .format(a)) plt.xlabel('samples', fontsize=15) plt.ylabel('PDF', fontsize=15) plt.title('Probability Density function', fontsize=15) plt.legend(loc='best') plt.show()Concepto #5- Box cox transformationLa transformación de Box-Cox transforma nuestros datos para que se parezcan a una distribución normal.Las transformaciones de Box-Cox de un parámetro se definen como En muchas técnicas estadísticas, suponemos que los errores se distribuyen normalmente. Esta suposición nos permite construir intervalos de confianza y realizar pruebas de hipótesis. Al transformar la variable objetivo, podemos (con suerte) normalizar nuestros errores (si no son ya normales).Además, la transformación de nuestras variables puede mejorar el poder predictivo de nuestros modelos porque las transformaciones pueden eliminar el ruido blanco.Distribución original (izquierda) y distribución casi normal después de aplicar la transformación Box cox. Source En el núcleo de la transformación Box-Cox hay un exponente, lambda (λ), que varía de -5 a 5. Se consideran todos los valores de λ y se selecciona el valor óptimo para sus datos; el "valor óptimo" es el que da como resultado la mejor aproximación a una curva de distribución normal.Las transformaciones Box-Cox de un parámetro se definen como:y las transformaciones Box-Cox de dos parámetros como:Además, la transformación de Box-Cox de un parámetro es válida para y > 0, es decir, sólo para valores positivos, y la transformación de Box-Cox de dos parámetros para y > -λ, es decir, para valores negativos. El parámetro λ se estima mediante el profile likelihood function y utilizando pruebas de bondad de ajuste.Si hablamos de algunos inconvenientes de la transformación Box-cox, entonces si lo que se quiere es la interpretación, entonces no se recomienda Box-cox. Porque si λ es algún número distinto de cero, entonces la variable objetivo transformada puede ser más difícil de interpretar que si simplemente aplicamos una transformación logarítmica.Puedes leer más artículos de Data Science en español aquí Un segundo escollo es que la transformación Box-Cox suele dar la mediana de la distribución de la previsión cuando revertimos los datos transformados a su escala original. En ocasiones, queremos la media y no la mediana.Box-Cox transformation en Python (Source)El paquete stats de SciPy proporciona una función llamada boxcox para realizar la transformación de potencia box-cox que toma los datos originales no normales como entrada y devuelve los datos ajustados junto con el valor lambda que se utilizó para ajustar la distribución no normal a la distribución normal.#load necessary packages import numpy as np from scipy.stats import boxcox import seaborn as sns #make this example reproducible np.random.seed(0) #generate dataset data = np.random.exponential(size=1000) fig, ax = plt.subplots(1, 2) #plot the distribution of data values sns.distplot(data, hist=False, kde=True, kde_kws = {'shade': True, 'linewidth': 2}, label = "Non-Normal", color ="red", ax = ax[0]) #perform Box-Cox transformation on original data transformed_data, best_lambda = boxcox(data) sns.distplot(transformed_data, hist = False, kde = True, kde_kws = {'shade': True, 'linewidth': 2}, label = "Normal", color ="red", ax = ax[1]) #adding legends to the subplots plt.legend(loc = "upper right") #rescaling the subplots fig.set_figheight(5) fig.set_figwidth(10) #display optimal lambda value print(f"Lambda value used for Transformation: {best_lambda}") Concepto #6- Poisson distributionEn la teoría de la probabilidad y la estadística, la distribución de Poisson es una distribución de probabilidad discreta que expresa la probabilidad de que se produzca un número determinado de sucesos en un intervalo fijo de tiempo o espacio si estos sucesos se producen con una tasa media constante conocida y con independencia del tiempo transcurrido desde el último suceso.En términos muy sencillos, una distribución de Poisson puede utilizarse para estimar la probabilidad de que algo ocurra "X" número de veces. Algunos ejemplos de procesos de Poisson son los clientes que llaman a un centro de ayuda, la desintegración radiactiva de los átomos, los visitantes de una página web, los fotones que llegan a un telescopio espacial y los movimientos en el precio de las acciones. Los procesos de Poisson suelen estar asociados al tiempo, pero no tienen por qué estarlo. La fórmula de la distribución de Poisson es:Donde:e es el numero de Euler (e = 2.71828...)k es el numero de ocurrenciask! es el factorial de k kλ es igual al valor esperado de kcuando éste es también igual a su varianzaLambda(λ) puede considerarse como el número esperado de eventos en el intervalo. A medida que cambiamos el parámetro de la tasa, λ, cambiamos la probabilidad de ver diferentes números de eventos en un intervalo. El siguiente gráfico es la función de masa de probabilidad de la distribución de Poisson que muestra la probabilidad de que se produzca un número de sucesos en un intervalo con diferentes parámetros de tasa. Función de masa de probabilidad para la distribución de Poisson con parámetros de tasa variables. Source La distribución de Poisson también se utiliza habitualmente para modelar datos de recuento financiero en los que el recuento es pequeño y a menudo es cero. Por ejemplo, en finanzas, puede utilizarse para modelar el número de operaciones que un inversor típico realizará en un día determinado, que puede ser 0 (a menudo), o 1, o 2, etc.Otro ejemplo: este modelo puede utilizarse para predecir el número de "shocks" del mercado que se producirán en un periodo de tiempo determinado, por ejemplo, durante una década.Poisson distribution en Pythonfrom numpy import random import matplotlib.pyplot as plt import seaborn as sns lam_list = [1, 4, 9] #list of Lambda values plt.figure(figsize=(10,6)) samples = np.linspace(start=0, stop=5, num=1000) for lam in lam_list: sns.distplot(random.poisson(lam=lam, size=10), hist=False, label='lambda {0}'.format(lam)) plt.xlabel('Poisson Distribution', fontsize=15) plt.ylabel('Frequency', fontsize=15) plt.legend(loc='best') plt.show()A medida que λ se hace más grande, el gráfico se parece más a una distribución normal.Espero que hayas disfrutado de la lectura de este artículo, Si tienes alguna pregunta o sugerencia, por favor deja un comentario.Lea también: Falsos Positivos Vs. Falsos Negativos Siéntase libre de conectarse conmigo en LinkedIn para cualquier consulta.¡¡¡Gracias por leer!!!Puedes leer más artículos de Data Science en español aquí Referenciashttps://calcworkshop.com/joint-probability-distribution/chebyshev-inequality/ https://corporatefinanceinstitute.com/resources/knowledge/data-analysis/chebyshevs-inequality/ https://www.itl.nist.gov/div898/handbook/eda/section3/eda3669.htm https://www.statology.org/q-q-plot-python/ https://gist.github.com/chaipi-chaya/9eb72978dbbfd7fa4057b493cf6a32e7 https://stackoverflow.com/a/41968334/7175247

Daniel Morales

May 14, 2020

Machine Learning

Programming

Construyendo Una Sistema de Recomendación de Productos Con Filtrado Colaborativo

Daniel Morales

May 14, 2020

Bosques Aleatorios Para Principiantes

Contents Outline

Oleksii Kharkovyna

Bosques Aleatorios Para Principiantes

Related Posts

Categories

Join Competition

Daniel Morales

Daniel Morales

Daniel Morales

Daniel Morales

Bosques Aleatorios Para Principiantes

Contents Outline

Social Sharing

Oleksii Kharkovyna

Related Posts

Categories

Join Competition

Most Related Articles

Daniel Morales

Daniel Morales

Daniel Morales

Daniel Morales