Desafío y Antecedentes:
El desafío principal era crear un sistema capaz de ofrecer un monitoreo integral a través de varias fuentes de datos, servicios en la nube y servidores privados, incluyendo colas de mensajes en SQS, Power MTA, AWS SES, integradores SMS y visualización de automatizaciones críticas, entre otros servicios. El sistema necesitaba no solo rastrear el rendimiento y la eficiencia de estos servicios, sino también garantizar una alta seguridad y continuidad operativa para clientes empresariales.
Originalmente, el sistema fue pensado para nuestro monitoreo interno. No obstante, al identificar un problema recurrente de una empresa aseguradora, que presentaba errores en las cargas automáticas de listas de contacto afectando la ejecución de sus automatizaciones, decidimos adaptar el alcance de nuestra solución. Creamos una cuenta de tenant específica para este cliente, permitiéndole monitorear de manera exclusiva sus propios procesos. Este enfoque a medida nos abrió una oportunidad significativa: la implementación de dashboards de monitoreo personalizados y de gran valor agregado para otros clientes enterprise. Entre los procesos críticos manejados para estos clientes, se encuentran procesos críticos como la verificación de pólizas de seguro para ingresos de emergencia en clínicas, generación de documentos para la venta de pólizas de seguros y OTP para transacciones bancarias, todos vitales y con un impacto económico considerable para nuestros clientes empresariales.
Solución Implementada:
El sistema permite a los equipos de Seguridad y Eficiencia Operativa de las organizaciones, reaccionar proactivamente ante situaciones anómalas en los procesos de negocio que mantienen en la plataforma DANAconnect. Esto redunda en la reducción significativa de tiempos de inactividad y asegurando un funcionamiento óptimo. Además, el sistema de monitoreo aprovecha herramientas de registro y análisis de logs, centralizando la recopilación de datos y simplificando el proceso de diagnóstico y solución de problemas.
DANAconnect adoptó un enfoque hybrid-cloud para construir su sistema de monitoreo multi-tenant, integrando herramientas de vanguardia y servicios en la nube:
- AWS CloudWatch: Se utilizó para la recopilación de métricas y datos en tiempo real, proporcionando un seguimiento detallado de actividades críticas en servicios como AWS S3 y SQS.
- Prometheus: Este sistema de monitoreo de código abierto fue crucial para gestionar y analizar registros relacionados con el procesamiento de SMS y otros servicios.
- MySQL en Amazon RDS: Ofreció la capacidad de realizar consultas en tiempo real, asegurando la precisión e integridad de los datos.
- OpenSearch: Permitió la extracción y análisis eficiente de registros de transacciones de SMTP y API, facilitando un análisis detallado y la generación de informes útiles.
- Fluent Bit: Se implementó para la extracción eficiente de registros de múltiples aplicaciones, incluyendo contenedores Docker y pods de Kubernetes en AWS EKS, centralizando esta información en OpenSearch.
- Grafana: Se utilizó como interfaz de usuario amigable para la visualización de datos de diversas fuentes. Grafana proporcionó dashboards intuitivos y en tiempo real, facilitando la interpretación de datos complejos a través de representaciones gráficas como pie charts, time series, bar charts, tablas e histogramas.
Resultados:
El dashboard de monitoreo avanzado de DANAconnect ha demostrado ser una solución innovadora y efectiva. Permite la visualización en tiempo real mediante dashboards interactivos, que incluyen gráficos circulares, series temporales, gráficos de barras, tablas e histogramas. Esta herramienta proporciona a DANAconnect y a sus clientes del sector financiero una visión detallada y un control operativo mejorado.
Impacto en los Clientes:
Los altos ejecutivos de tecnología en empresas financieras han encontrado en este sistema una herramienta invaluable para la supervisión continua y la gestión proactiva de sus operaciones. Las alertas automáticas y la capacidad de análisis de logs han mejorado significativamente la capacidad de reacción ante incidencias, reduciendo el tiempo de inactividad y garantizando un servicio óptimo.
Este caso de estudio destaca cómo DANAconnect, mediante la integración estratégica de tecnologías avanzadas y la utilización de AWS CloudWatch, ha logrado crear un sistema de monitoreo que no solo cumple con las exigencias de seguridad y eficiencia de las empresas financieras enterprise, sino que también proporciona una plataforma intuitiva y altamente funcional para la gestión operativa y la toma de decisiones basada en datos.
Lecciones aprendidas:
Flexibilidad y adaptación: Inicialmente diseñado para uso interno, la adaptabilidad del sistema a las necesidades específicas del cliente ilustró la importancia de soluciones flexibles y escalables. Esto subraya el valor de diseñar sistemas que puedan personalizarse fácilmente para diferentes casos de uso.
Enfoque centrado en el cliente: el desarrollo de cuentas específicas para inquilinos (tenants en inglés) destacó la importancia de un enfoque centrado en el cliente. Adaptar soluciones para enfrentar los desafíos únicos de los clientes puede conducir a servicios más efectivos y apreciados.
Colaboración multifuncional: el éxito del proyecto también fue el resultado de una colaboración efectiva entre diferentes equipos, como desarrollo, operaciones y servicio al cliente. Esto destacó la importancia del trabajo en equipo interdisciplinario para abordar desafíos técnicos complejos y ofrecer soluciones integrales.
Mejora continua y ciclo de retroalimentación: la retroalimentación periódica de los clientes después de implementar los paneles específicos de los inquilinos fue crucial para la mejora continua. Este proceso iterativo de recibir comentarios y actuar en función de ellos garantizó que el sistema cumpliera y superara consistentemente las expectativas del cliente.
Gestión de riesgos y resolución proactiva de problemas: la experiencia también enseñó la importancia de anticipar problemas potenciales y desarrollar soluciones de forma proactiva. Esta mentalidad proactiva ayudó a adaptar rápidamente el sistema a las necesidades específicas del cliente, evitando problemas mayores en el futuro.
Identificación de oportunidades de mercado: Finalmente, el proyecto fue una lección sobre cómo reconocer y aprovechar oportunidades de mercado. El cambio de una herramienta interna a una solución orientada al cliente abrió nuevas vías de negocio, destacando la importancia de estar alerta a las necesidades del mercado y responder a posibles oportunidades de negocio.