por Monte Zweben y Syed Mahmood de Splice Machine

Apache Hadoop surgió en el escenario tecnológico en el 2006 con la promesa de proporcionar a las organizaciones la capacidad de almacenar un volumen de datos sin precedentes utilizando hardware básico.

Esta promesa no sólo se refería al tamaño de los conjuntos de datos sino también al tipo de datos, como los datos generados por los dispositivos IoT, sensores, servidores y medios sociales que las empresas estaban cada vez más interesadas en analizar. La combinación de volumen, velocidad y variedad de datos se conocía popularmente como Big Data.

El schema-on-read jugó un papel vital en la popularidad de Hadoop. Las empresas pensaron que ya no tenían que preocuparse por el tedioso proceso de definir qué tablas contenían qué datos y cómo se conectaban entre sí, un proceso que llevaba meses y que no se podía ejecutar ni una sola consulta antes de que se completara.

En este valiente nuevo mundo, las empresas podían almacenar tantos datos como pudieran en repositorios basados en Hadoop conocidos como Data Lakes y preocuparse por cómo se analizarán más tarde.

Los Data Lakes comenzaron a aparecer en las empresas. Estos Data Lakes fueron habilitados por las distribuciones comerciales de Big Data - un número de motores de computación independientes de código abierto soportados en una plataforma que impulsaría el data lake para analizar los datos de diferentes maneras.

Y encima de eso, todo esto siendo Código Abierto era gratis probarlo! ¿Qué podría salir mal?

El esquema de lectura (Schema-on-Read) fue un error

Como con tantas cosas en la vida, las características de Hadoop que se pregonaban como sus ventajas también resultaron ser su talón de Aquiles.

Primero, con el schema-on-read levantado, los terabytes de datos estructurados y no estructurados comenzaron a fluir en los lagos de datos. Con el marco y la capacidad de gobierno de datos de Hadoop aún en proceso de definición, se hizo cada vez más difícil para las empresas determinar el contenido de su lago de datos y el linaje de sus datos.

Además, los datos no estaban listos para ser consumidos. Las empresas comenzaron a perder la fe en los datos que estaban en sus lagos de datos y lentamente estos lagos de datos comenzaron a convertirse en pantanos de datos (Data Swamps). La filosofía de "constrúyelo y vendrán" del scheme-on-road fracasó.

La complejidad de Hadoop y los motores de computación en forma de conducto

En segundo lugar, las distribuciones Hadoop proporcionaron varios motores de computación de código abierto como Apache Hive, Apache Spark y Apache Kafka, por nombrar sólo algunos, pero esto resultó ser un caso de "demasiado bueno para ser cierto".

Un ejemplo: una plataforma comercial de Hadoop consistía en 26 de estos motores separados. Estos motores de computación eran complejos de operar y requerían habilidades especializadas para unir los conductos que eran difíciles de encontrar en el mercado.

El enfoque equivocado: El lago de datos Vs El proyecto

En tercer lugar, y lo más importante, los proyectos data lake comenzaron a fracasar porque las empresas dieron prioridad al almacenamiento de todos los datos de la empresa en una ubicación central con el objetivo de poner estos datos a disposición de todos los desarrolladores - un almacén de datos uber si se quiere, en lugar de pensar en cómo los datos impactarían en las aplicaciones.

Como resultado, los clústeres Hadoop se convirtieron a menudo en las puertas de entrada de los conductos de datos empresariales que filtran, procesan y transforman los datos que luego se exportan a otras bases de datos y mercados de datos para la elaboración de informes en sentido descendente y casi nunca encuentran su camino hacia una aplicación empresarial real en la empresa de tejido operativo.

Como resultado, los lagos de datos terminan siendo un conjunto masivo de motores de computación dispares, que operan con cargas de trabajo dispares, todos compartiendo el mismo almacenamiento.

Esto es muy difícil de manejar. El aislamiento de los recursos y las herramientas de gestión en este ecosistema están mejorando, pero todavía tienen un camino por recorrer.

Las empresas, en su mayor parte, no fueron capaces de cambiar su enfoque de utilizar sus lagos de datos como depósitos de datos baratos y pipelines de procesamiento a plataformas que consumen datos y alimentan aplicaciones de misión crítica.

Por ejemplo, Apache Hive y Apache Spark están entre los motores de computación más utilizados para los lagos de datos de Hadoop. Ambos motores se utilizan con fines analíticos, ya sea para procesar consultas de tipo SQL (Hive) o para realizar transformaciones de datos de tipo SQL y construir modelos predictivos (Spark). Estas implementaciones de lagos de datos no se han centrado lo suficiente en cómo utilizar operativamente los datos en las aplicaciones.

Estrategia para el futuro

Por lo tanto, si su organización está preocupada por los recientes acontecimientos en el ecosistema de Hadoop y cada vez más presionada para demostrar el valor de su lago de datos, debería empezar por centrarse primero en las aplicaciones operativas y luego trabajar de nuevo en los datos.

Al centrarse en la modernización de las aplicaciones con datos e inteligencia, terminará con aplicaciones que pueden aprovechar los datos para predecir lo que podría suceder en el futuro basándose en la experiencia y ser proactivos para tomar decisiones en el momento que resulten en resultados empresariales superiores.

A continuación se presentan 5 ingredientes para una estrategia exitosa de modernización de aplicaciones:

Elegir una aplicación para modernizar: En lugar de enfocar sus esfuerzos en centralizar los datos, primero, elija una aplicación que le gustaría modernizar.

El principal candidato para ello es una de las muchas aplicaciones internas y personalizadas que se han quedado atrás en el mercado y que necesitan ser más ágiles, inteligentes y basadas en datos.

Una vez que haya identificado la aplicación que puede ofrecer una ventaja competitiva a su organización, entonces podrá centrarse en la obtención de los datos necesarios para impulsar esa aplicación y en si esos datos pueden estar disponibles desde el lago de datos.
Utilice el SQL de escalado (scale-out SQL) para la modernización de su aplicación: SQL ha sido el caballo de batalla de las cargas de trabajo en la empresa durante varios años y hay cientos de desarrolladores, analistas de negocios y personal de TI en su organización que están completamente familiarizados con SQL.

No incurra en tiempo, gastos y riesgos adicionales al reescribir su aplicación SQL original en una API de NoSQL de bajo nivel.

Seleccione una plataforma que le permita mantener los patrones familiares y la potente funcionalidad de SQL para modernizar la aplicación, pero hágalo en una arquitectura que pueda escalar de forma elástica en una infraestructura económica.

El escalamiento trae el poder de un clúster entero para que se aplique a la computación, haciéndolo mucho más rápido que los viejos sistemas SQL que funcionaban en un sistema centralizado. Con el scale-out se puede añadir más capacidad y quitarla a medida que las cargas de trabajo también cambian.
Adopte una plataforma ACID: El cumplimiento del ACID es el mecanismo a través del cual las transacciones mantienen la integridad de la base de datos y permite a los usuarios realizar acciones como el commit y el rollback.

Se trata de una funcionalidad crítica para potenciar las aplicaciones operativas, ya que garantiza que la base de datos no haga visibles los cambios a los demás hasta que se haya emitido un commit.

Seleccione una plataforma que proporcione capacidad ACID a nivel de transacción individual en la base de datos. De lo contrario, todas estas ramificaciones de consistencia deben ser manejadas en el código de la aplicación.

Todos los sistemas SQL tradicionales cumplían con el ACID. Los lagos de datos descartaron erróneamente esto haciendo que las aplicaciones sean muy difíciles de escribir.
Unificar los motores analíticos: Según un reciente blog de Gartner, históricamente, había buenas razones para separar la infraestructura de TI en componentes operativos (OLTP) y analíticos (OLAP), pero ya no es así.

ETL mata nuestros SLA's con latencia. Solía ocurrir que las cargas de trabajo operacional y analítica interferían entre sí y había que separarlas. Además, las plataformas de datos heredadas funcionaban tan mal que teníamos que transformar el esquema operacional en star-schemas o snowflake-schemas que eran mejores para las cargas de trabajo analítico.

Este ETL ya no es necesario y se puede ejecutar el análisis en la plataforma operativa, a menudo utilizando el esquema operativo. Al implementar esta plataforma se asegurará de que su aplicación se ejecuta en una plataforma que minimiza el movimiento de datos y no contribuye a la latencia de la aplicación.

Esto entrega sus conocimientos, informes y cuadros de mando actuales frente a los datos de ayer o de la semana pasada.
Embeber el machine learning nativo: Una de las principales razones para modernizar su aplicación es inyectar Inteligencia Artificial y Machine Learning en ella para que pueda aprender de la experiencia, adaptarse dinámicamente a los cambios y tomar decisiones en el momento.

Para que su aplicación sea inteligente es fundamental que seleccione una plataforma que tenga incorporado el aprendizaje automático a nivel de base de datos, de modo que los datos actualizados estén siempre disponibles para que los modelos puedan experimentar, entrenar y ejecutar.

Este es fundamentalmente un enfoque diferente al que ha utilizado su lago de datos hasta ahora. Este enfoque ofrece un valor comercial tangible a la línea de negocio más rápido a través de la aplicación (el proyecto) que ahora puede aprovechar el lago de datos.

Este enfoque garantizará que, además de modernizar las aplicaciones que proporcionan a su negocio una ventaja competitiva, también preservará la inversión en su lago de datos.

Si desea saber más sobre las cinco señales de advertencia de que su aplicación se está quedando atrás en los esfuerzos de transformación digital, obtenga una copia del white paper hoy mismo.

Most Related Articles

Big Data

¿Qué es SQLite Y Cómo Instalarlo?

¿Qué es SQLite?Conozca el motor de base de datos de SQLite y cómo instalarlo en su ordenador.En este artículo exploraremos el motor de base de datos más extendido llamado SQLite. Describiremos lo que hace, sus principales usos, y luego explicaremos cómo configurarlo y utilizarlo en tu propio ordenador.¿QUÉ ES SQLITE?SQLite es un motor de base de datos. Es un software que permite a los usuarios interactuar con una base de datos relacional. En SQLite, una base de datos se almacena en un único archivo, un rasgo que la distingue de otros motores de base de datos. Este hecho permite una gran accesibilidad: copiar una base de datos no es más complicado que copiar el archivo que almacena los datos, compartir una base de datos puede significar enviar un archivo adjunto de un correo electrónico.INCONVENIENTES DE SQLITELamentablemente, la portabilidad de SQLite hace que sea una mala elección cuando muchos usuarios diferentes están actualizando una tabla al mismo tiempo (para mantener la integridad de los datos, sólo un usuario puede escribir en el archivo a la vez). También puede requerir algo más de trabajo para garantizar la seguridad de los datos privados debido a las mismas características que hacen accesible SQLite. Además, SQLite no ofrece exactamente la misma funcionalidad que muchos otros sistemas de bases de datos, lo que limita algunas características avanzadas que ofrecen otros sistemas de bases de datos relacionales. Por último, SQLite no valida los tipos de datos. Mientras que muchos otros programas de bases de datos rechazarían los datos que no se ajustan al esquema de una tabla, SQLite permite a los usuarios almacenar datos de cualquier tipo en cualquier columna.SQLite crea esquemas que limitan el tipo de datos en cada columna, pero no los aplica. En el ejemplo que figura a continuación se muestra que la columna id espera almacenar números enteros, la columna name espera almacenar texto y la columna age espera almacenar números enteros:CREATE TABLE celebs ( id INTEGER, name TEXT, age INTEGER );Sin embargo, SQLite no rechazará valores del tipo equivocado. Podríamos insertar accidentalmente los tipos de datos equivocados en las columnas. Almacenar diferentes tipos de datos en la misma columna es un mal hábito que puede provocar errores difíciles de corregir, por lo que es importante ser estricto con el esquema aunque SQLite no lo aplique.USOS DE SQLITEIncluso considerando los inconvenientes, los beneficios de poder acceder y manipular una base de datos sin involucrar un servidor son enormes. SQLite se utiliza en todo el mundo para pruebas, desarrollo y en cualquier otro escenario en el que tenga sentido que la base de datos esté en el mismo disco que el código de la aplicación. Los mantenedores de SQLite lo consideran como una de las piezas de software más replicadas del mundo.CONFIGURAR SQLITELos binarios para SQLite se pueden instalar en la página de descarga de SQLite.WINDOWSPara las máquinas de Windows:Descargue el archivo sqlite-tools-win32-x86-3200100.zip y descomprímalo.Desde tu terminal git-bash, abra el directorio de la carpeta descomprimida con cd ~/Descargas/sqlite-tools-win32-x86-3200100/sqlite-tools-win32-x86-3200100/.Intente ejecutar sqlite con el comando winpty ./sqlite3.exe. Si ese comando abre un prompt de sqlite>, ¡felicidades! Has instalado SQLite.Queremos poder acceder a este comando rápidamente desde otro lugar, así que vamos a crear un alias para el comando. Salga del prompt sqlite> escribiendo Ctrl + C, y en la misma terminal de git-bash sin cambiar de carpeta, ejecutar estos comandos:echo "alias sqlite3=\"winpty ${PWD}/sqlite3.exe\"" >> ~/.bashrcysource ~/.bashrcEl primer comando creará el alias sqlite3 que puedes usar para abrir una base de datos. El segundo comando refrescará tu terminal para que puedas empezar a usar este comando. Intenta escribir el comando sqlite3 newdb.sqlite. Si se le presenta un aviso sqlite>, ha creado con éxito el comando sqlite3 para su terminal. Escriba Ctrl + C para salir. También puede salir escribiendo .exit en el prompt y presionando Enter.MAC OS XPara los Mac, usa el paquete de herramientas sqlite de Mac OS X (x86):Instálalo y descomprímelo.En su terminal, navegue hasta el directorio de la carpeta descomprimida usando cd.Ejecute el comando mv sqlite3 /usr/local/bin/. Esto añadirá el comando sqlite3 a la ruta de su terminal, permitiéndole usar el comando desde cualquier lugar.Intente escribir sqlite3 newdb.sqlite. Si se te presenta un sqlite> prompt, ¡has instalado SQLite! Introduce control + d para salir. También puedes salir escribiendo .exit en el prompt y pulsando return.LINUXEn Ubuntu o distribuciones similares:Abra su terminal y ejecute sudo apt-get install sqlite3. De lo contrario, use los administradores de paquetes de su distribución.Intente escribir el comando sqlite3 newdb.sqlite. Si se le presenta un aviso sqlite>, ha creado con éxito el comando sqlite3 para su terminal. Puede salir escribiendo .exit en el prompt y presionando enter.CONCLUSIÓNHa instalado un software de base de datos y ha abierto una conexión a una base de datos. Ahora tiene todo el poder de SQL a su alcance. Podrá gestionar todos los datos de cualquier aplicación que sueñe con escribir. Felicitaciones!

Daniel Morales

Apr 09, 2020

Data Science

Big Data

La Recopilación De Datos Podría No Ser Tan Fácil Como Parece

Exploración a fondo de los procesos de recopilación de datos.Algunos de mis repositorios más populares en GitHub han sido sobre la recolección de datos, ya sea a través de web scraping o usando una Interfaz de Programación de Aplicaciones (API). Mi enfoque siempre ha sido encontrar un recurso de donde pueda obtener los datos y luego directamente empezar a buscarlos. Después de recopilar los datos, simplemente los guardo, saco conclusiones y eso es todo.¿Pero qué pasa si quieres compartir los datos? ¿Qué pasa si alguien está buscando este conjunto de datos y no sabe cómo hacerlo? ¿Qué pasa si tienen este conjunto de datos pero no saben lo que significa cada columna o dónde buscar si necesitan más información? Estas preguntas surgen porque el intercambio de datos y la facilidad de uso es importante, pero casi nadie intenta hacer un esfuerzo para que sea reproducible y fácilmente accesible.Aquí es donde surgen las mejores prácticas de recopilación de datos. Los metadatos junto con sus datos son casi tan importantes porque sin ellos sus datos podrían ser inútiles. Vamos a explorar en profundidad, lo que esto es y lo que todo el mundo debe hacer para hacer el proceso de recopilación de datos correcto!Lea También: ¿Cómo Construir Su Portafolio Definitivo De Data Science?Photo by Milan Seitler on UnsplashEmpieza por averiguar qué hay que recolectarPhoto by Edho Pratama on UnsplashEl primer paso, como siempre, es buscar los datos que ya existen. Alguien podría haber recogido un dato similar o el mismo que querías recoger para su problema. Si encuentra un dato de ese tipo, tómelo (si lo pone a disposición) y cite adecuadamente su fuente donde y cuando utilice ese dato para cualquier análisis. Eso es todo!Sin embargo, si no encuentras los datos que necesitas, tendrás que recopilarlos tú mismo. Podría ser una lista de páginas de Wikipedia que saques de su sitio web, información de repositorios que quieras coger para tu cuenta GitHub usando la API de GitHub o datos recogidos de un sensor. Las cosas que puedes recolectar son casi ilimitadas.Lea También: 10 Trucos En Pandas Que Hacen Su Trabajo Más Eficiente.Recopilacion de los datosPhoto by Markus Spiske on UnsplashSea lo que sea que decidas recolectar, comienza a recolectar propios tus datos. Puedes usar BeautifulSoup para extraer información de páginas HTML, acceder a APIs según sea necesario usando su documentación o tal vez crear una aplicación para Android que lea los datos de un sensor y los guarde en un archivo CSV.Una vez que tenga los datos que desea, es posible que desee compartir su trabajo con otros. Querrás que los demás entiendan lo que has recopilado, por qué lo has hecho y tal vez utilizar tus datos citando adecuadamente tu trabajo. Entonces se vuelve esencial tener los datos en un formato apropiado que otros puedan entender y usar.Datos sobre sus datos – MetadatosAhora, te diré algo que siempre usamos pero que a menudo pasamos por alto como parte esencial de los datos. Sí, estoy hablando de los metadatos. La información que te dice lo que significa cada columna, cuáles son las unidades de medida, cuándo se recogieron los datos y mucho más.Entendamos la importancia de los metadatos con un ejemplo. El repositorio de la UCI Machine Learning incluye una larga lista de conjuntos de datos que puedes utilizar para tu análisis y predicción. Elijamos el conjunto de datos sobre el cáncer de mama. Así es como se ve el conjunto de datos:Breast Cancer Data Set (Data)— UCI Machine LearningCon sólo mirar los datos y sin información adicional, no podemos averiguar lo que significa cada columna, y mucho menos hacer un análisis de la misma. Pero justo cuando muestro la siguiente imagen que tiene la descripción de la columna, podemos usar el conjunto de datos, extraer información, realizar análisis exploratorios y hacer predicciones.Breast Cancer Data Set (Attributes) — UCI Machine LearningPor eso la información sobre los datos es realmente importante. Este paso esencial puede hacer o deshacer su conjunto de datos.¿Pero qué es lo que debemos recoger?Photo by Phad Pichetbovornkul on UnsplashSi lo piensas, verás que hay muchas cosas que puedes recopilar como metadatos, como la fecha de recopilación, la ubicación, la descripción de la columna y más. Por lo tanto, existe una colección unificada de estándares de metadatos que uno puede elegir de manera que otros puedan obtener información completa. Algunos de los más comunes son los siguientes:Dublin CoreEl Dublin Core incluye una lista de elementos que hay que especificar sobre los datos como la fecha de creación, el creador y otra información.Norma de codificación y transmisión de metadatosLas normas de codificación y transmisión de metadatos (METS) son una norma de metadatos para datos descriptivos y estructurales representada como el eXtensible Markup Language (XML).Organización Internacional de Normalización (ISO)La ISO define una lista de normas que se siguen en todo el mundo. Las normas pueden variar según el uso y la zona. Por ejemplo, para una forma estándar de representar el tiempo - existe la norma ISO 8601 que significa cómo escribir la fecha y la hora en un patrón comúnmente entendido.Hay otros estándares que también existen, pero el uso depende de los datos que se intentan recoger. El punto básico general cuando se recogen metadatos es que si alguien hoy o en algún momento en el futuro, decide trabajar en sus datos, los datos y metadatos deben ser autosuficientes para describirlo todo.Sin embargo, para hacerlo, hay otra información esencial junto con los metadatos: la procedencia.La procedencia incluye información sobre el proceso de recopilación de datos y si se han realizado transformaciones en esos datos. Mientras se recogen los datos, hacemos un seguimiento de cuándo y cómo se recogieron los datos, los dispositivos de medición, el proceso, el recolector de datos, cualquier limitación, y todo lo relacionado con el proceso de procesamiento de datos (si se hizo).ConclusiónEl paquete completo de datos, junto con los metadatos y la procedencia, hace que los datos sean a prueba de futuro en un formato utilizable.

Karim David Barragan

Apr 09, 2020

Data Science

Machine Learning

Big Data

La Pregunta Más Difícil Que Te Han Hecho En Una Entrevista De Ciencia De Datos

Trabajo en una compañía de YCombinator que ha desarrollado un interesante grupo interno de científicos de datos. Es un grupo privado, pero recientemente recibió cierta atención en Twitter y pensamos que podría ayudar a los aspirantes a científicos de datos si publicamos algunas de las conversaciones que hemos estado teniendo allí. Twitter estuvo de acuerdo, así que eso es lo que voy a hacer hoy.La primera conversación que voy a publicar comenzó con una pregunta que uno de nuestros compañeros hizo a la comunidad: ¿Cuál es la pregunta más difícil que te han hecho en una entrevista de ciencia de datos?(He cambiado el nombre del solicitante a continuación, pero algunos de los participantes accedieron amablemente a compartir sus nombres completos y enlaces a sus perfiles en línea).Susan Pan pregunta: ¿Cuál es la pregunta más difícil que has encontrado en una entrevista de ciencia de datos?Compartiré la mía: "¿Cuántos años de experiencia tienes en el lenguaje X?" Esto es realmente difícil de responder: ¿Cuento los años que lo usé en la universidad? ¿Cuento los años que lo usé en mis proyectos de hobby? ¿Cuento los años en que lo usé en mi trabajo, pero sólo durante el 15% de mi tiempo?Una vez decidí responder a esta pregunta preguntándole al entrevistador: "¿Puede explicarlo mejor?" Creo que el entrevistador pensó que estaba loco. Espero escuchar sus preguntas más difíciles y tal vez podamos compartir consejos sobre cómo responderlas.La respuesta de Ray Phan: Aquí está la mía: "Si tuvieras que elegir un problema técnico que fuera el más difícil para ti, explica cuál fué y cómo lo resolviste."La razón por la que esto es engañosamente difícil es que te abre a preguntas a medida que avanzas. Pueden decidir hasta dónde o cuán profundo quieren investigar cada parte de su enfoque. De hecho, esta es una pregunta que hago todo el tiempo cuando entrevisto a alguien. Puedes determinar rápidamente si alguien sabe realmente cómo resolver el problema, o si se ha montado en los hombros de otra persona.Curiosamente, esta es la única pregunta que Elon Musk hace durante las entrevistas. (Fuente: Él me entrevistó personalmente cuando me postulé para el Programa de Piloto Automático de Tesla).Susan: ¡Gracias por compartir! Con esta pregunta, ¿estás poniendo a prueba el enfoque de resolución de problemas de un candidato o su profundidad de comprensión de los conceptos técnicos o una mezcla de ambos?Ray: Mezcla de ambos. Quiero ver lo buenos que son a la hora de abordar un problema relativamente desconocido dado su conjunto de habilidades en ese momento, qué habilidades y enfoques aprendieron a lo largo de todo el proceso, y su capacidad de resolución de problemas para determinar si lo resolvieron con éxito.Lea También: ¿Sus Habilidades De Programación Son Los Suficientemente Buenas Para Un Puesto De Trabajo En Data Science?Por la forma en que responden a mis preguntas de seguimiento, así como por el nivel de detalle que comparten conmigo con respecto a cómo lo resuelven, me da una idea bastante buena sobre si son alguien que puede trabajar de forma independiente, puede trabajar en grupo (ya que me están explicando los conceptos y profundizo más) y si confiaría en esa persona al final del día.Por eso dije que esta pregunta es engañosamente difícil porque me dice casi todo sobre la aptitud de la persona en una sola pregunta.Leo Knauth:Mi problema ahora mismo sería: Podría contarles lo que realmente fue el problema más difícil que enfrenté, pero entonces tendría que admitir que me fue mal en ese momento. Realmente mal. Me doy cuenta de que este es un lugar potencial para mostrar crecimiento, pero al final tendría que admitir primero que inicialmente me caí de cara.Si me entrevistara, ¿apreciarías la honestidad? ¿O me recomendaría que eligiera el segundo problema más difícil que he enfrentado, tal vez uno en el que me haya comportado menos miserablemente?Ray: Me gustaría que lo admitieras y me dijeras por qué. El crecimiento es también algo que busco y si no aprendieras nada de eso, entonces no te contrataría... y si la conversación se corta, ¡pasaría al segundo problema!Leo:¡Gracias! Ciertamente necesito practicar este tipo de preguntas de entrevista.Ray:Parte de mi tutoría que hago con mis pupilos es exactamente esta línea de cuestionamiento. Normalmente lo divido en 4 grupos de entrevistas para asegurarme de que el alumno está preparado.Visualización Ajuste técnico ← La pregunta que mencioné anteriormente va aquí Visión para los negocios Ajuste a nuestra cultura coporativa.Lo que trato de hacer es hacer preguntas que los candidatos no se esperan... ...por lo que les insisto en que no se preparen para mis simulacros de entrevistas. Pero sí, ¡práctica! Tu mentor hará, con suerte, las cosas que acabo de decir.La conversación completa fue un poco más larga que esto, y obtuvo un par de respuestas más. Pero la de Ray era mi favorita, porque la pregunta de la entrevista que da te obliga a establecer tu propio nivel de dificultad. Si eliges un problema técnico demasiado fácil, puedes quedar mal; pero si eliges uno demasiado difícil, puedes estropear tu solución, ¡y también quedar mal! Así que tienes que elegir el problema más difícil que estés seguro de poder resolver, que es el objetivo de la pregunta.También es interesante que esta es la única pregunta que Elon Musk hace durante sus entrevistas. Eso es algo que no sabía. Estoy pensando en publicar más de estas conversaciones de Slack en el futuro. De hecho ya hemos continuado con este hilo aqui. Así que si estás interesado en ver las otras respuestas en esta conversación (o en ver las otras), dame un toque en Twitter y házmelo saber. Mi DM está abierto si tienes alguna pregunta.Suponemos que ya eres un experto en responder las preguntas dificiles de una entrevista de trabajo en data science, que tal si ahora pruebas postulandote a diferentes ofertas y pones en practica lo aprendido? Mira estas ofertas de trabajo en data science.Lea También: Consigue Tu Primer Trabajo Como Científico De Datos.

Julio Bertty

Apr 09, 2020

Big Data

Pandas

¿Cómo Procesar un DataFrame con Millones de Filas en Segundos?

Otra biblioteca de Python para el análisis de datos que deberías conocer - y no, no estoy hablando de Spark o DaskEl análisis de Big Data en Python está teniendo su renacimiento. Todo comenzó con NumPy, que es también uno de los bloques de construcción detrás de la herramienta que estoy presentando en este artículo.Puedes leer más artículos de Data Science en español aquí En 2006, el Big Data era un tema que estaba ganando terreno poco a poco, especialmente con el lanzamiento de Hadoop. Pandas le siguió poco después con sus DataFrames. 2014 fue el año en que Big Data se convirtió en la corriente principal, también Apache Spark fue lanzado ese año. En 2018 llegó Dask y otras librerías para la analítica de datos en Python.Cada mes encuentro una nueva herramienta de Data Analytics, que estoy deseando aprender. Merece la pena invertir una o dos horas en tutoriales, ya que a la larga puede ahorrarte mucho tiempo. También es importante mantenerse en contacto con las últimas tecnologías.Si bien puedes esperar que este artículo sea sobre Dask, estás equivocado. He encontrado otra biblioteca de Python para el análisis de datos que deberías conocer.Al igual que Python, es igual de importante que te hagas con el dominio de SQL. En caso de que no estés familiarizado con él, y tengas algo de dinero de sobra, echa un vistazo a este curso: Master SQL, the core language for Big Data analysis.El análisis de Big Data en Python está teniendo su renacimientoConoce VaexPhoto by Mathew Schwartz on UnsplashVaex es una biblioteca de Python de alto rendimiento para lazy Out-of-Core DataFrames (similar a Pandas), para visualizar y explorar grandes conjuntos de datos tabulares. Puede calcular estadísticas básicas para más de mil millones de filas por segundo. Soporta múltiples visualizaciones que permiten la exploración interactiva de big data. ¿Cuál es la diferencia entre Vaex y Dask?Photo by Stillness InMotion on UnsplashVaex no es similar a Dask, pero sí a los DataFrames de Dask, que están construidos sobre los DataFrames de pandas. Esto significa que Dask hereda los problemas de pandas, como el alto uso de memoria. Este no es el caso de Vaex.Vaex no hace copias de DataFrame por lo que puede procesar DataFrame más grandes en máquinas con menos memoria principal.Tanto Vaex como Dask utilizan el procesamiento "perezoso". La única diferencia es que Vaex calcula el campo cuando es necesario, mientras que con Dask tenemos que utilizar explícitamente la función de cálculo.Los datos deben estar en formato HDF5 o Apache Arrow para aprovechar al máximo las ventajas de Vaex.Puedes leer más artículos de Data Science en español aquí ¿Cómo se instala Vaex?Instalar Vaex es tan sencillo como instalar cualquier otro paquete de Python:pip install vaexVamos a hacer un test drive de Vaex Photo by Eugene Chystiakov on UnsplashVamos a crear un DataFrame de pandas con 1 millón de filas y 1000 columnas para crear un archivo de big data.import vaex import pandas as pd import numpy as np n_rows = 1000000 n_cols = 1000 df = pd.DataFrame(np.random.randint(0, 100, size=(n_rows, n_cols)), columns=['col%d' % i for i in range(n_cols)]) df.head()First few lines in a Pandas Dataframe (image made by author)¿Cuánta memoria principal utiliza este DataFrame?df.info(memory_usage='deep')Guardémoslo en el disco para poder leerlo después con Vaex.file_path = 'big_file.csv' df.to_csv(file_path, index=False)No ganaríamos mucho leyendo todo el CSV directamente con Vaex ya que la velocidad sería similar a la de pandas. Ambos necesitan aproximadamente 85 segundos en mi portátil.Tenemos que convertir el CSV a HDF5 (el Formato de Datos Jerárquicos versión 5) para ver el beneficio con Vaex. Vaex tiene una función para la conversión, que incluso soporta archivos más grandes que la memoria principal mediante la conversión de trozos más pequeños.Si no puedes abrir un archivo grande con pandas, por limitaciones de memoria, puedes convertirlo a HDF5 y procesarlo con Vaex.Puedes leer más artículos de Data Science en español aquí dv = vaex.from_csv(file_path, convert=True, chunk_size=5_000_000)Esta función crea un archivo HDF5 y lo persigue en el disco. ¿Cuál es el tipo de datos de dv?type(dv) # output vaex.hdf5.dataset.Hdf5MemoryMappedAhora, vamos a leer el conjunto de datos de 7,5 GB con Vaex - No necesitaríamos leerlo de nuevo porque ya lo tenemos en la variable dv. Esto es sólo para probar la velocidad.dv = vaex.open('big_file.csv.hdf5')Vaex necesitó menos de 1 segundo para ejecutar el comando anterior. Pero Vaex no leyó realmente el archivo, debido a la carga perezosa, ¿verdad? Vamos a forzar a leerlo calculando una suma de col1.suma = dv.col1.sum() suma # Output # array(49486599)Este me sorprendió mucho. Vaex necesitó menos de 1 segundo para calcular la suma. ¿Cómo es posible? La apertura de estos datos es instantánea, independientemente del tamaño del archivo en el disco. Vaex se limitará a mapear en memoria los datos en lugar de leerlos en memoria. Esta es la forma óptima de trabajar con grandes conjuntos de datos que son mayores que la memoria RAM disponible. Ploteando Vaex también es rápido a la hora de graficar los datos. Dispone de funciones especiales de trazado: plot1d, plot2d y plot2d_contour.dv.plot1d(dv.col2, figsize=(14, 7))Plotting with Vaex (image made by author)Columnas virtuales Vaex crea una columna virtual al añadir una nueva columna, una columna que no ocupa la memoria principal ya que se calcula sobre la marcha.dv['col1_plus_col2'] = dv.col1 + dv.col2 dv['col1_plus_col2']The virtual column in Vaex (image made by author)Filtrado eficiente Vaex no crea copias de DataFrame al filtrar los datos, lo cual es mucho más eficiente en cuanto a la memoria.dvv = dv[dv.col1 > 90] AggregationsLas agregaciones funcionan de forma ligeramente diferente que en pandas, pero lo más importante es que son rapidísimas. Añadamos una columna virtual binaria donde col1 ≥ 50. dv['col1_50'] = dv.col1 >= 50 Vaex combina la agrupación por y la agregación en un solo comando. El siguiente comando agrupa los datos por la columna "col1_50" y calcula la suma de la columna col3.dv_group = dv.groupby(dv['col1_50'], agg=vaex.agg.sum(dv['col3'])) dv_groupAggregations in Vaex (image made by author)JoinsVaex une datos sin hacer copias de memoria, lo que ahorra la memoria principal. Los usuarios de Pandas estarán familiarizados con la función join:dv_join = dv.join(dv_group, on=’col1_50')Puedes leer más artículos de Data Science en español aquí ConclusiónAl final, te preguntarás: ¿Debemos simplemente cambiar de pandas a Vaex? La respuesta es un gran NO. Pandas sigue siendo la mejor herramienta para el análisis de datos en Python. Tiene funciones bien soportadas para las tareas de análisis de datos más comunes. Cuando se trata de archivos más grandes, pandas puede no ser la herramienta más rápida. Este es un gran momento para usar Vaex. Vaex es una herramienta que deberías añadir a tu caja de herramientas de análisis de datos. Cuando trabajes en una tarea de análisis en la que pandas es demasiado lento o simplemente se bloquea, saca Vaex de tu caja de herramientas, filtra las entradas más importantes y continúa el análisis con pandas. Sígueme en Twitter, donde tuiteo regularmente sobre Ciencia de Datos y Aprendizaje Automático

Daniel Morales

Apr 09, 2020

¿Qué Le Pasó A Hadoop? ¿Qué Deberías Hacer Ahora? Los 5 Ingredientes Para Una Estrategia Exitosa De Modernización De Aplicaciones

Contents Outline

Monte Zweben

¿Qué Le Pasó A Hadoop? ¿Qué Deberías Hacer Ahora? Los 5 Ingredientes Para Una Estrategia Exitosa De Modernización De Aplicaciones

Related Posts

Categories

Join Competition

Daniel Morales

Karim David Barragan

Julio Bertty

Daniel Morales

¿Qué Le Pasó A Hadoop? ¿Qué Deberías Hacer Ahora? Los 5 Ingredientes Para Una Estrategia Exitosa De Modernización De Aplicaciones

Contents Outline

Social Sharing

Monte Zweben

Related Posts

Categories

Join Competition

Most Related Articles

Daniel Morales

Karim David Barragan

Julio Bertty

Daniel Morales