Send Feedback

La Recopilación De Datos Podría No Ser Tan Fácil Como Parece

Karan Bhanot
Jun 08, 2020


Exploración a fondo de los procesos de recopilación de datos.

Algunos de mis repositorios más populares en GitHub han sido sobre la recolección de datos, ya sea a través de web scraping o usando una Interfaz de Programación de Aplicaciones (API). Mi enfoque siempre ha sido encontrar un recurso de donde pueda obtener los datos y luego directamente empezar a buscarlos. Después de recopilar los datos, simplemente los guardo, saco conclusiones y eso es todo.

¿Pero qué pasa si quieres compartir los datos? ¿Qué pasa si alguien está buscando este conjunto de datos y no sabe cómo hacerlo? ¿Qué pasa si tienen este conjunto de datos pero no saben lo que significa cada columna o dónde buscar si necesitan más información? Estas preguntas surgen porque el intercambio de datos y la facilidad de uso es importante, pero casi nadie intenta hacer un esfuerzo para que sea reproducible y fácilmente accesible.

Aquí es donde surgen las mejores prácticas de recopilación de datos. Los metadatos junto con sus datos son casi tan importantes porque sin ellos sus datos podrían ser inútiles. Vamos a explorar en profundidad, lo que esto es y lo que todo el mundo debe hacer para hacer el proceso de recopilación de datos correcto!

Lea También: ¿Cómo Construir Su Portafolio Definitivo De Data Science?



Photo by Milan Seitler on Unsplash




Empieza por averiguar qué hay que recolectar


Photo by Edho Pratama on Unsplash


El primer paso, como siempre, es buscar los datos que ya existen. Alguien podría haber recogido un dato similar o el mismo que querías recoger para su problema. Si encuentra un dato de ese tipo, tómelo (si lo pone a disposición) y cite adecuadamente su fuente donde y cuando utilice ese dato para cualquier análisis. Eso es todo!

Sin embargo, si no encuentras los datos que necesitas, tendrás que recopilarlos tú mismo. Podría ser una lista de páginas de Wikipedia que saques de su sitio web, información de repositorios que quieras coger para tu cuenta GitHub usando la API de GitHub o datos recogidos de un sensor. Las cosas que puedes recolectar son casi ilimitadas.

Lea También: 10 Trucos En Pandas Que Hacen Su Trabajo Más Eficiente.


Recopilacion de los datos

Photo by Markus Spiske on Unsplash

Sea lo que sea que decidas recolectar, comienza a recolectar propios tus datos. Puedes usar BeautifulSoup para extraer información de páginas HTML, acceder a APIs según sea necesario usando su documentación o tal vez crear una aplicación para Android que lea los datos de un sensor y los guarde en un archivo CSV.

Una vez que tenga los datos que desea, es posible que desee compartir su trabajo con otros. Querrás que los demás entiendan lo que has recopilado, por qué lo has hecho y tal vez utilizar tus datos citando adecuadamente tu trabajo. Entonces se vuelve esencial tener los datos en un formato apropiado que otros puedan entender y usar.


Datos sobre sus datos – Metadatos

Ahora, te diré algo que siempre usamos pero que a menudo pasamos por alto como parte esencial de los datos. Sí, estoy hablando de los metadatos. La información que te dice lo que significa cada columna, cuáles son las unidades de medida, cuándo se recogieron los datos y mucho más.

Entendamos la importancia de los metadatos con un ejemplo. El repositorio de la UCI Machine Learning incluye una larga lista de conjuntos de datos que puedes utilizar para tu análisis y predicción. Elijamos el conjunto de datos sobre el cáncer de mama. Así es como se ve el conjunto de datos:

Breast Cancer Data Set (Data)— UCI Machine Learning

Con sólo mirar los datos y sin información adicional, no podemos averiguar lo que significa cada columna, y mucho menos hacer un análisis de la misma. Pero justo cuando muestro la siguiente imagen que tiene la descripción de la columna, podemos usar el conjunto de datos, extraer información, realizar análisis exploratorios y hacer predicciones.

Breast Cancer Data Set (Attributes) — UCI Machine Learning

Por eso la información sobre los datos es realmente importante. Este paso esencial puede hacer o deshacer su conjunto de datos.


¿Pero qué es lo que debemos recoger?

Photo by Phad Pichetbovornkul on Unsplash


Si lo piensas, verás que hay muchas cosas que puedes recopilar como metadatos, como la fecha de recopilación, la ubicación, la descripción de la columna y más. Por lo tanto, existe una colección unificada de estándares de metadatos que uno puede elegir de manera que otros puedan obtener información completa. Algunos de los más comunes son los siguientes:

Dublin Core

El Dublin Core incluye una lista de elementos que hay que especificar sobre los datos como la fecha de creación, el creador y otra información.


Norma de codificación y transmisión de metadatos

Las normas de codificación y transmisión de metadatos (METS) son una norma de metadatos para datos descriptivos y estructurales representada como el eXtensible Markup Language (XML).

Organización Internacional de Normalización (ISO)

La ISO define una lista de normas que se siguen en todo el mundo. Las normas pueden variar según el uso y la zona. Por ejemplo, para una forma estándar de representar el tiempo - existe la norma ISO 8601 que significa cómo escribir la fecha y la hora en un patrón comúnmente entendido.

Hay otros estándares que también existen, pero el uso depende de los datos que se intentan recoger. El punto básico general cuando se recogen metadatos es que si alguien hoy o en algún momento en el futuro, decide trabajar en sus datos, los datos y metadatos deben ser autosuficientes para describirlo todo.

Sin embargo, para hacerlo, hay otra información esencial junto con los metadatos: la procedencia.

La procedencia incluye información sobre el proceso de recopilación de datos y si se han realizado transformaciones en esos datos. Mientras se recogen los datos, hacemos un seguimiento de cuándo y cómo se recogieron los datos, los dispositivos de medición, el proceso, el recolector de datos, cualquier limitación, y todo lo relacionado con el proceso de procesamiento de datos (si se hizo).


Conclusión

El paquete completo de datos, junto con los metadatos y la procedencia, hace que los datos sean a prueba de futuro en un formato utilizable.

“La Recopilación De Datos Podría No Ser Tan Fácil Como Parece”
– Karan Bhanot twitter social icon Tweet


Compartir este artículo:

0 Comentarios

Crear un comentario
Ingresar para Comentar
divider graphic

Artículos Relacionados

19

Mejorar El Rendimiento De Un Modelo De Aprendizaje Automático

Diferentes enfoques para el rendimiento del modeloEn el post anterior, exploramos y analizamos un conjunto de datos sobre la pérdida de clientes. L...

Soner Yıldırım
Por Soner Yıldırım
24

Las 5 Principales Razones Para Volverse Cientifico De Datos En 2020

IntroducciónA medida que avanzamos en el año, he visto más y más anuncios para puestos de ciencia de datos, especialmente en LinkedIn, y otros siti...

Matt Przybyla
Por Matt Przybyla
40

Métricas De Evaluación De Modelos En El Aprendizaje Automático

CréditosLos modelos predictivos se han convertido en un asesor de confianza para muchas empresas y por una buena razón. Estos modelos pueden "preve...

Nagesh Singh Chauhan
Por Nagesh Singh Chauhan
arrow-up icon