En La Bolsa De Valores De Nueva York, El Diluvio De Datos Sobrepasa Las Bases De Datos Tradicionales

Tom Groenfeldt
Apr 11, 2020

Contents Outline

En La Bolsa De Valores De Nueva York, El Diluvio De Datos Sobrepasa Las Bases De Datos Tradicionales

Apr 11, 2020 5 minutes read

NYSE y NYSE Technologies, su subsidiaria de tecnología, encontraron que el continuo crecimiento de los datos del mercado de valores, la demanda de más análisis y, gracias a los reguladores, muchos más informes, eran demasiado para su base de datos existente.

NYSE Technologies recibe de cuatro a cinco terabytes de datos al día y los utiliza para hacer análisis complejos, vigilancia del mercado, planificación de capacidad y monitoreo.

La compañía había estado usando una base de datos tradicional, dijo Emile Werr, jefe de desarrollo de productos, NYSE Big Data Group y jefe global de Enterprise Data Architecture e Identity Access Management para NYSE Euronext . El sistema existente no podía manejar la carga de trabajo -- tardaba horas en cargarse y tenía poca velocidad de consulta.

NYSE recurrió a la plataforma Netezza de IBM porque no podía lograr sus objetivos con la tecnología de bases de datos tradicionales, dijo Werr.

"Empezamos hace cinco años y ahora estamos más maduros en la industria con el uso de sistemas MPP (procesamiento paralelo masivo), y hemos mostrado un significativo retorno de la inversión, al poder hacer análisis complejos mientras se gestiona el footprint", dijo Werr.

"La Bolsa de Valores de Nueva York necesita almacenar y analizar siete años de datos históricos y ser capaz de buscar a través de aproximadamente un terabyte de datos por día, lo que equivale a cientos en total", añadió Werr. "El sistema PureData para análisis impulsado por Netezza proporciona la escalabilidad, la simplicidad y el rendimiento críticos para poder analizar nuestros grandes datos y ofrecer resultados ocho horas más rápido que en la solución anterior, que en nuestro mundo es game changer".

El enfoque inicial de la Bolsa de Nueva York fue la vigilancia comercial de los creadores de mercado y las plataformas comerciales de los corredores de bolsa. Una segunda preocupación fue la planificación de la capacidad.

"Los acuerdos de nivel de servicio de la Bolsa de Nueva York son estrictos", dijo Werr. "El sistema debe ser 100 por ciento tolerante a las fallas. Cuando los sistemas cruzan los umbrales de capacidad, la capacidad adicional se activaría automáticamente y el comercio continuaría fluyendo sin interrupciones".

Werr dijo que quedó claro que la tecnología tradicional de bases de datos no haría lo que necesitaba la Bolsa de Valores de Nueva York.

"Los volúmenes de datos extremadamente grandes, las complejidades de integración de datos, la vigilancia del mercado y los requisitos de análisis ad hoc requerían un gran número de recursos informáticos para cuidar el entorno y afinarlo constantemente. Los sistemas se volvieron demasiado complejos y lentos", añadió Werr.

Para ejecutar el análisis, los datos tenían que ser extraídos de la base de datos en aplicaciones como SAS y aplicaciones propietarias de la Bolsa de Valores de Nueva York para realizar los análisis necesarios.

Werr dijo que NYSE Technologies ha descubierto cómo utilizar todos sus activos de datos de una manera eficiente y rentable. La empresa ha ampliado su data wharehouse con una fuente de archivos distribuidos, añadió.

"El Big Data para nosotros son el aumento entre sistemas como Netezza y un conjunto de tecnologías como Hadoop y un sistema de archivos distribuidos y niveles de identificación que orquestan el acceso a los datos. El big data en la Bolsa de Nueva York se trata sobre llevarlos al siguiente nivel y empaquetarlos para que puedan ser lanzados en una organización y aprovechados para que puedan seguir apoyando las innovaciones en big data".

Phil Francisco, vicepresidente de gestión de productos de big data de IBM, dijo que Werr había desarrollado algunas formas interesantes de cargar datos de archivo en Netezza muy rápidamente para que la Bolsa de Nueva York pueda realizar análisis de vigilancia contra los registros de hace unos meses o unos años.

"Típicamente tendrán menos de un año de datos en Netezza pero siempre pueden cargar datos de un archivo". Con los métodos que Werr desarrolló, la Bolsa de Valores de Nueva York puede buscar patrones de largo plazo. Emile fue el arquitecto de eso... cómo usar un data wharehouse de alto rendimiento en torno a la retención de datos".

"La Bolsa de Valores de Nueva York continúa ampliando los límites de alto rendimiento, escalabilidad y fiabilidad", dijo Werr. "La NYSE ha implementado grandes pipelines de red a través de centros de datos y sistemas de comercio.  Podemos mover los datos muy rápidamente.  Los datos necesitan moverse dentro y fuera de los sistemas de análisis (como Netezza) rápidamente.

NYSE Technologies pone sus sistemas a disposición para su compra e instalación detrás de un firewall o como un servicio. El sistema es rápido -- en términos de análisis; no está diseñado para el comercio de alta frecuencia. Se actualiza a intervalos de un minuto, casi en tiempo real en el mundo de la analítica.

Algunos corredores de bolsa piden datos en un momento específico, como el Flash Crash para poder probar sus algoritmos contra él. Mover esos datos a una empresa puede ser costoso, por lo que NYSE Technologies los deja en su centro de datos y las empresas pueden probarlos sin mover los datos del día.

"Muchas firmas quieren obtener datos a pedido mientras los dejan en nuestra empresa", explicó. Los datos pueden ser ofrecidos en bruto o personalizados para hacerlos más fáciles de usar.

Join our private community in Discord

Keep up to date by participating in our global community of data scientists and AI enthusiasts. We discuss the latest developments in data science competitions, new techniques for solving complex challenges, AI and machine learning models, and much more!