La ciencia de los datos abarca una variedad de términos. No sólo los principiantes, sino también los profesionales con muchos años de experiencia pueden tropezar con uno u otro término y preguntarse qué es. Nuestra memoria no es perfecta, pero siempre podemos volver atrás y refrescarla. Por esta razón, decidí crear el glosario definitivo para los científicos de datos. Algunos de los conceptos aquí se usan más y otros menos a menudo. Sin embargo, las cosas que probablemente no se usen hoy pueden ser algo que se busque mañana, ¿no es así? Tener una cierta imagen en la mente siempre es beneficioso. ¡Así que empecemos!
Términos de ciencias de la información: Una guía de la A a la Z
Tenga en cuenta que todos los términos están ordenados alfabéticamente, lo que implica la necesidad de tener una comprensión básica. En otros casos, prepárese para absorber un montón de cosas nuevas :)
Algoritms (Algoritmos)
Aunque todos los conceptos están ordenados alfabéticamente, este toma una posición muy lógica. Los algoritmos son la base de todo. Una cosa elemental que compone absolutamente cualquier procedimiento, y un programa de ordenador en particular. Porque la programación es un conjunto de instrucciones que damos a un ordenador para que pueda tomar valores y manipularlos como necesitemos.
Artificial Intelligence (Inteligencia Artificial)
La mente humana puede resolver tareas de diversa complejidad. ¿Qué hay de las máquinas? También están aprendiendo a hacerlo, y esta habilidad se llama Inteligencia Artificial porque se esfuerza por replicar la inteligencia humana. Pero, no reemplazarla! Los sistemas que utilizan esta habilidad se llaman programas de Inteligencia Artificial y suponen el uso de algoritmos de aprendizaje automático, estadística, técnicas de ciencias de datos, etc.
La inteligencia artificial y el aprendizaje automático están relacionados. Sin embargo, el Aprendizaje automático es un subconjunto de la Inteligencia Artificial y no al revés. La Inteligencia Artificial - es la habilidad de las máquinas para aprender, y esta habilidad está en constante evolución. El aprendizaje automático - es sólo un proceso de esta evolución, parte de tecnología, un conjunto de algoritmos. La Inteligencia Artificial tiene una variedad de aplicaciones: reconocimiento de voz, toma de decisiones, traducción de idiomas, clasificación de objetos, etc.
Big Data (Grandes datos)
El Big Data no es acerca de los datos, sino a los sorprendentes progresos y estrategias en los métodos estadísticos y de otro tipo para extraer información de los datos. El Big Data tiene el siguiente principio: cuanto más sabes sobre un tema en particular, más confiablemente puedes lograr un nuevo entendimiento y predecir lo que sucederá en el futuro.
Esto se hace a través de un proceso que incluye la construcción de modelos basados en los datos que podemos recoger, extraer insights de los mismos y simular escenarios futuros, durante los cuales cada vez se ajustan los valores de los puntos de datos.
Este proceso está automatizado - las modernas tecnologías analíticas ejecutarán millones de estas simulaciones, ajustando todas las variables posibles hasta que encuentren un modelo - o idea - que ayude a resolver el problema en el que están trabajando. Las famosas 3 V del Big Data: volumen, velocidad y variedad.
Clasification (Clasificación)
La clasificación es un algoritmo de aprendizaje automático supervisado. ¿Qué significa supervisado? Se llama aprendizaje supervisado porque el proceso de aprendizaje del algoritmo a partir del conjunto de datos de entrenamiento puede considerarse como un profesor supervisando un proceso de aprendizaje. Conocemos las respuestas correctas, el algoritmo hace predicciones de forma iterativa sobre los datos de entrenamiento y es corregido por el profesor.
Bien, así que el aprendizaje supervisado puede ser agrupado en problemas de regresión y clasificación. Un problema de clasificación es cuando la variable de salida es una categoría, como "rojo" o "azul" o "enfermedad" y "no enfermedad". Por ejemplo, puede utilizarse para determinar si un cliente es probable que gaste más de 20 dólares en línea, basándose en su similitud con otros clientes que han gastado esa cantidad anteriormente.
Covariance (Covarianza)
La covarianza es una medida de cómo los cambios en una variable se asocian con los cambios en una segunda variable.
Correlation (Correlación)
Cuando dos conjuntos de datos están fuertemente vinculados entre sí, decimos que tienen una alta correlación. La palabra Correlación está hecha de Co- (que significa "juntos"), y Relación. La Correlación es Positiva cuando los valores aumentan juntos, y es Negativa cuando un valor disminuye a medida que el otro aumenta.
Clustering (Agrupación)
Las técnicas de agrupación tratan de reunir y clasificar conjuntos de puntos en grupos que son "suficientemente similares" o "cercanos" entre sí. "La cercanía" varía dependiendo de cómo se elija medir la distancia. La complejidad aumenta a medida que se añaden más características al espacio del problema.
Data Analysis (Análisis de datos)
Esta disciplina es el hermano pequeño de la ciencia de los datos. El análisis de datos se centra más en responder preguntas sobre el presente y el pasado. Utiliza estadísticas menos complejas y generalmente trata sólo de identificar patrones. Se trata más de procedimientos hechos con datos como la limpieza, la transformación y el modelado. La ciencia de los datos es más amplia que eso, porque se trata de hacer predicciones, extraer conocimientos y otras cosas.
Data Engineering (Ingeniería de datos)
"Un científico puede descubrir una nueva estrella, pero no puede hacer una. Tendría que pedirle a un ingeniero que lo haga por él".
-Gordon Lindsay Glegg
En su corazón, es una especie de híbrido entre un analista de datos y un científico de datos; el ingeniero de datos está típicamente a cargo de la gestión de los flujos de trabajo de datos, tuberías y procesos ETL (Extract, Transform, Load). Por lo tanto, se trata del back end. Los ingenieros de datos construyen sistemas para que los científicos de datos lleven a cabo sus análisis. El científico de datos también puede ser un ingeniero de datos. En grupos más grandes, los ingenieros pueden concentrarse únicamente en acelerar el análisis y mantener los datos bien organizados y faciles de acceder
Data Science (Ciencia de los datos)
Bueno, aquí está lo principal que hizo tanto ruido. Predicciones, insights, manipulaciones con datos, convertir datos desordenados y dispares en material comprensible... todo esto lo hace la ciencia de los datos, la mas genial
¿Cómo es un día en la vida de un científico de datos? Él o ella es responsable de: construír los fundamentos de datos, realizar análisis robustos, hacer experimentos, construir tuberías de aprendizaje automático y productos de datos personalizados, y finalmente obtener una mejor comprensión de los negocios.
Data Visualization (Visualización de datos)
Una parte significativa de la rutina de la ciencia de los datos es visualizr lo que hacen. ¿Entiendes de estadística, algoritmos de aprendizaje de máquinas, SQL, Python? Es genial, si es así. Pero la gran mayoría de los clientes están muy lejos de estos términos, pero aún así requieren saber lo que está pasando.
Infografías, gráficos tradicionales, o incluso cuadros de mando de datos completos - es de lo que se trata la visualización de datos. La capacidad de usarla, y traducir procedimientos complejos en términos simples es un verdadero arte!
Data Exploration (Exploración de datos)
Otra parte del proceso de la ciencia de los datos. Aquí un científico suele hacer preguntas básicas que ayudan a entender el contexto de un conjunto de datos. Explorar = investigar. Lo que se aprende durante la fase de exploración guiará un análisis más profundo más adelante. Además, le ayuda a reconocer cuándo un resultado puede ser sorprendente y justificar una investigación más profunda.
Data Mining (Minería de datos)
El proceso de sacar información accionable de un conjunto de datos y darle un buen uso. Esto incluye todo, desde limpiar y organizar los datos, hasta analizarlos para encontrar patrones y conexiones significativas, y comunicar esas conexiones de manera que ayude a los responsables de la toma de decisiones a mejorar su producto u organización.
Data Warehouse (Almacén de datos)
Un almacén de datos es un sistema que se utiliza para hacer un análisis rápido de las tendencias comerciales utilizando datos de muchas fuentes. Están diseñados para facilitar a la gente la respuesta a preguntas estadísticas importantes sin tener un doctorado en arquitectura de bases de datos.
Decision Tree (Árbol de decisiones)
Tu no puedes ser un cientifico de datos sobresaliente sin árboles. Nuestra tarea es la decisión, y los árboles de decisión son una gran herramienta para crear un modelo de predicción para ella. Como su nombre sugiere, el modelo visual para el proceso de decisión es un árbol. Se utiliza ampliamente en la minería de datos y en el aprendizaje automático.
Un árbol de decisión es una estructura similar a un diagrama de flujo en la que cada nodo interno representa una "prueba" de un atributo (por ejemplo, si al tirar una moneda sale cara o cruz), cada rama representa el resultado de la prueba y cada nodo de hoja representa una etiqueta de clase (decisión tomada después de computar todos los atributos). Los caminos desde la raíz hasta la hoja representan las reglas de clasificación.
EDA (Analisis exploratorio de datos)
El análisis exploratorio de datos es a menudo el primer paso cuando se analizan los conjuntos de datos. Con las técnicas de EDA, los científicos de datos pueden resumir las principales características de un conjunto de datos e informar el desarrollo de modelos más complejos o los pasos lógicos siguientes.
ETL (Extraer, transformar, cargar)
Extract, Transform, Load - ETL es un tipo de integración de datos usado para mezclar datos de múltiples fuentes. A menudo se utiliza para construir un almacén de datos. Un aspecto importante de este almacén de datos es que consolida los datos de múltiples fuentes y los transforma en un formato común y útil. Por ejemplo, ETL normaliza los datos de múltiples departamentos y procesos empresariales para hacerlos estandarizados y consistentes.
GitHub (GitHub)
Un gran centro de conocimiento para programadores y científicos de datos. Proporciona control de acceso y varias características de colaboración, como seguimiento de errores, solicitudes de características, gestión de tareas y wikis para cada proyecto. GitHub ofrece tanto repositorios privados como cuentas gratuitas, que se utilizan comúnmente para alojar proyectos de software de código abierto.
Hyperparameters (Hiperparámetros)
El hiperparámetro es un parámetro cuyo valor se fija antes de que comience el proceso de aprendizaje. En cambio, los valores de otros parámetros se derivan mediante el entrenamiento. Dados estos hiperparámetros, el algoritmo de entrenamiento aprende los parámetros a partir de los datos.
Linear Regression (Regresión lineal)
La Regresión Lineal se utiliza para modelar una relación lineal entre una variable de respuesta continua y escalar y al menos una variable explicativa. La Regresión Lineal puede utilizarse para predecir valoraciones monetarias entre otros casos de uso.
Logistic Regression (Regresión logística)
La Regresión Logística se utiliza para modelar una relación probabilística entre una variable de respuesta binaria y al menos una variable explicativa. El resultado del modelo de Regresión Logística es la probabilidad logarítmica, que puede ser transformada para obtener la probabilidad. La Regresión Logística se puede utilizar para predecir la probabilidad de cancelaciones de clientes entre otros casos de uso.
Machine learning (Aprendizaje automático)
El aprendizaje automático es un conjunto de algoritmos que sólo pueden ser alimentados con datos estructurados para completar una tarea sin ser programados. Todos esos algoritmos construyen un modelo matemático, a partir de un conjunto de datos conocido como "datos de entrenamiento". Hay muchos tipos de técnicas de aprendizaje automático; la mayoría se clasifican como técnicas supervisadas o no supervisadas.
Mientras que la Inteligencia Artificial es una técnica que permite a las máquinas imitar el comportamiento humano, el aprendizaje automático es una técnica utilizada para implementar la Inteligencia Artificial. Es un proceso durante el cual las máquinas (ordenadores) aprenden alimentándolas con datos y permitiéndoles aprender algunos trucos por sí mismas, sin estar programadas explícitamente para ello. Así que, en conjunto, el Aprendizaje Automático es la carne y las patatas de la Inteligencia Artificial.
Lea también:
Cómo Iniciar Un Proyecto De Aprendizaje Automático
Outliers (Valores atípicos)
"La observación que se desvía tanto de otras observaciones como para despertar la sospecha de que fue generada por un mecanismo diferente" - D. M. Hawkins (1980)
Un valor atípico es un elemento de un conjunto de datos que se distingue del resto de los datos. En otras palabras, los valores atípicos son aquellos puntos de datos que se encuentran fuera del patrón general de distribución. Los valores atípicos pueden indicar una variabilidad en la medición, errores experimentales o una novedad.
Overfitting (Sobreajuste)
El sobreajuste se produce cuando un modelo considera demasiada información. Es como pedirle a una persona que lea una frase mientras mira una página a través de un microscopio. Los patrones que permiten la comprensión se pierden en el ruido.
Regression (Regresión)
La regresión es un algoritmo de aprendizaje de máquina supervisado. Resuelve un problema cuando la variable de salida es un valor real, como "dólares" o "peso de un objeto". La regresión tiene como objetivo encontrar la relación entre las variables y para el aprendizaje automático es necesaria para predecir el resultado basado en dicha relación.
Se centra en cómo cambia un valor objetivo a medida que cambian otros valores dentro de un conjunto de datos.
Las formas de regresión más utilizadas son la regresión lineal, la regresión logística, la regresión de Ridge, etc.
Reinforced learning (Aprendizaje reforzado)
Un área de aprendizaje automático no supervisado donde la máquina busca maximizar la recompensa. La máquina, o "agente", aprende a través del ensayo y error, así como la recompensa y el castigo.
Si ha oído hablar de refuerzo positivo y negativo, esos mismos principios se aplican aquí. Los problemas de aprendizaje del refuerzo se explican normalmente en términos de juegos. Tomemos el ajedrez, por ejemplo. El objetivo de la máquina es ganar al ajedrez. Se refuerza positivamente cuando hace movimientos que ganan material, como la captura de un peón, y se refuerza negativamente cuando hace movimientos que pierden material, como la captura de un peón. La combinación de estas recompensas y castigos resulta en autoaprendizaje de máquina que mejora en el ajedrez con el tiempo.
Standar Deviation (Desviación estándar)
La desviación estándar de un conjunto de valores nos ayuda a entender cuán dispersos están esos valores. Esta estadística es más útil que la varianza porque se expresa en las mismas unidades que los propios valores. Matemáticamente, la desviación estándar es la raíz cuadrada de la varianza de un conjunto. A menudo se representa con el símbolo griego sigma, σ.
Supervised learning (Aprendizaje supervisado)
El aprendizaje supervisado es cuando el modelo se entrena en un conjunto de datos etiquetados. El conjunto de datos etiquetados es uno que tiene parámetros de entrada y salida. En este tipo de aprendizaje, tanto el conjunto de datos de entrenamiento como el de validación, se etiquetan como se muestra en las figuras siguientes.
"Es similar a la forma en que un niño podría aprender aritmética de un maestro." - Nikki Castle.
Esto es claramente diferente del aprendizaje no supervisado, que no depende de la guía humana. Un ejemplo de caso de uso para el aprendizaje supervisado podría incluir un científico de datos que entrena un algoritmo para reconocer imágenes de seres humanos femeninos utilizando imágenes correctamente etiquetadas de seres humanos femeninos y sus características.
Underfitting (Subajuste)
El subajuste se produce cuando no se ofrece a un modelo suficiente información. Un ejemplo de insuficiencia sería pedirle a alguien que grafique el cambio de temperatura en un día y dandole solo temperatura “Alta” y “Baja”. En lugar de la curva suave, uno podría esperar, tener sólo información suficiente para dibujar una línea recta.
Unstrured Data (Datos no estructurados)
Cualquier dato que no se ajuste a un modelo de datos predefinido. A menudo estos datos no encajan en la típica estructura de filas y columnas de una base de datos. Las imágenes, los correos electrónicos, los vídeos, el audio y prácticamente cualquier otra cosa que pueda ser difícil de "tabular" pueden constituir ejemplos de datos no estructurados.
Unsupervised learning (Aprendizaje no supervisado)
El aprendizaje supervisado es la técnica que consiste en realizar una tarea proporcionando a los sistemas pautas de capacitación, entrada y salida, mientras que el aprendizaje no supervisado es una técnica de autoaprendizaje en la que el sistema tiene que descubrir por sí mismo las características de la población de entrada y no se utiliza ningún conjunto previo de categorías. El aprendizaje no supervisado se utiliza a menudo para el preprocesamiento de los datos. Por lo general, eso significa comprimirlos de alguna forma que conserve el significado, como con PCA o SVD, antes de alimentarlos a una red neural profunda u otro algoritmo de aprendizaje supervisado.
Variance (Variación)
La varianza de un conjunto de valores mide cuán dispersos están esos valores. Matemáticamente, es la diferencia media entre los valores individuales y la media del conjunto de valores. La raíz cuadrada de la varianza de un conjunto nos da la desviación estándar, que es más intuitiva.
Web Scrappng (Raspado de la red)
Es el proceso de extraer datos del código fuente de un sitio web. Generalmente implica escribir un guión que identificará la información que un usuario quiere y la extraerá en un nuevo archivo para su posterior análisis.
………………………
Espero que este glosario añada un poco de claridad a los términos y destruya cualquier concepto erróneo sobre la ciencia de los datos. Siéntase libre de usarlo como referencia cuando quiera repasar sus conocimientos. Feliz aprendizaje de la ciencia de los datos!
Gracias por leer, mucha suerte, y salud!
¿Inspirado para aprender más sobre la IA, el ML y la ciencia de los datos? Echa un vistazo a mis blogs de
Medium e
Instagram. También bienvenido a visitar mi
Linkedin.