REA Group: Un pionero en metadatos activos – Atlan

Activando y Gobernando una Plataforma de Datos en Crecimiento con Atlan

La serie Active Metadata Pioneers presenta a los clientes de Atlan que han completado recientemente una exhaustiva evaluación del mercado de Gestión de Metadatos Activos. ¡Compartir lo aprendido con el próximo líder de datos es el verdadero espíritu de la comunidad de Atlan! Por lo tanto, están aquí para compartir su perspectiva adquirida con esfuerzo sobre un mercado en evolución, qué compone su pila de datos moderna, casos de uso innovadores para metadatos y más.

En esta entrega de la serie, conocemos a Surj Rangi, Arquitecto de Datos en la Nube Empresarial, Piyush Dhir, Líder Técnico Senior, y Danni Garcia, Gerente de Producto, en REA Group, el operador de los principales sitios web de propiedades residenciales y comerciales, servicios de corretaje hipotecario y más. Surj, Piyush y Danni comparten la pila de datos en evolución de REA, sus ambiciones basadas en datos y los criterios y proceso detrás de su elección de Atlan.

Esta entrevista ha sido editada por brevedad y claridad.


¿Podrían contarnos un poco sobre ustedes, sus antecedentes y qué los atrajo hacia Datos y Análisis?

Surj Rangi:

Soy Surj Rangi, Arquitecto en Servicios de Datos, y llevo dos años en REA. Me gradué en TI en el Reino Unido, luego trabajé en varias firmas de consultoría en Datos y Análisis y desarrollé una sólida experiencia en plataformas en la nube y arquitectura de datos. Migré a Australia hace unos siete años, con dos décadas de experiencia en datos en varias industrias como Medios, Telecomunicaciones, Finanzas, Comercio Electrónico y Banca.

Me uní a REA y estaba muy interesado en el rol que se me ofrecía y en el equipo al que me unía. Lo que realmente me atrajo fue trabajar con una empresa con mentalidad startup, emocionada por impulsar y ofrecer resultados. Anteriormente, trabajé con grandes bancos donde hay mucha burocracia y las cosas llevan tiempo, y me emocionó ver cómo funcionan las cosas en un lugar como REA.

Piyush Dhir:

Soy Líder Técnico Senior en REA. Mi trayectoria se remonta a la universidad, cuando estaba terminando mi licenciatura en Ingeniería de Software y necesitaba tomar una decisión sobre qué hacer a continuación.

Comencé como desarrollador de Android en una época en la que parecía que todo el mundo estaba pensando en su próximo proyecto de Android. Fue entonces cuando me topé con SQL Server, aprendiendo cómo hacer modelado operativo al crear algo como una aplicación de frontend. Así fue como di mi primer paso en los datos. Desde entonces, he trabajado en varios tipos de equipos de datos.

Mi primer equipo de datos fue un equipo de Gestión de Datos para una empresa pública en Australia. Comenzaron desde cero, construyendo un ecosistema verde completo para sus datos utilizando los productos de SAP. Pasé cerca de cinco años en ese mundo, luego pasé por varias empresas pequeñas y grandes. Hice un poco de consultoría, trabajé para un banco en el medio, y finalmente llegué a REA.

Cuando me uní a un equipo de datos en 2012, lo que realmente me llamó la atención en ese momento fue que se decía que los datos eran "el nuevo petróleo", y que Datos y Análisis iban a ser lo próximo grande. En aquel entonces, algunas personas empezaron a hacer Aprendizaje Automático y a experimentar con R Studio, pero nunca fue el "pan de cada día" de ninguna empresa, solo una de esas iniciativas de "estrella del norte".

De repente, ahora, diez años después, no solo se ha convertido en el "pan de cada día" de la empresa, sino que también es una oportunidad de monetización para muchas de ellas. Es bueno ver esa transición y ha sido fascinante presenciarla.

Danni Garcia:

Soy Gerente de Producto en Servicios de Datos con una formación específica en estudios de Datos. No siempre he estado en Product. He trabajado en la industria tecnológica desde hace casi una década en muchas áreas y roles diferentes en organizaciones grandes y pequeñas, pero comencé como Analista de Datos.

¿Les importaría describir REA y cómo su equipo de datos apoya a la organización?

Surj:

Creo que es importante saber que REA comenzó en un garaje en Australia a principios y mediados de los años 90, y desde entonces la empresa ha crecido y expandido enormemente en todo el mundo. REA tiene presencia no solo en Australia, sino también en Asia y tiene fuertes lazos con NewsCorp. Comenzamos listando propiedades residenciales, y desde entonces ha crecido hasta incluir propiedades comerciales y terrenos. También hemos realizado muchas fusiones y adquisiciones. Por ejemplo, en Australia, compramos una empresa llamada Mortgage Choice que permite a REA no solo publicitar listados, publicaciones y proporcionar información sobre propiedades a la industria en Australia, sino también ofrecer servicios de corredores hipotecarios.

Entonces, si quieres vender tu propiedad, REA te proporciona el paquete completo. Puedes vender tu propiedad y, si necesitas financiamiento, podemos ayudarte a financiar tu próxima inversión.

Hemos recorrido un largo camino y hemos tenido un equipo de Servicios de Datos durante mucho tiempo. Todo era descentralizado, luego se centralizó. Ahora es un poco híbrido, donde tenemos un equipo de datos centralizado construyendo la plataforma de datos centralizada con capacidades clave para ser utilizadas en toda la organización, con propiedad de datos descentralizada. Estamos tratando de alinearnos con un enfoque de Malla de Datos en términos de cómo construimos nuestras capacidades de plataforma y la adopción de "datos como producto" en toda la organización.

Estamos en multi-nube, tanto en AWS como en GCP, lo que conlleva sus propios desafíos, y hacemos de todo, desde la ingestión de datos, arquitectura orientada a eventos hasta aprendizaje automático. Estamos construyendo activos de datos para compartir con empresas externas en forma de un mercado de datos.

Danni:

Los Servicios de Datos existen para apoyar a todas las líneas internas de negocios en nuestra organización. No somos un equipo operativo, sino uno fundamental, que construye productos y capacidades de datos para ayudar a los equipos a aprovechar con éxito los datos en sus productos. Nuestra misión es facilitar la comprensión, protección y aprovechamiento de los datos de REA.

Piyush:

Agregaría que en los últimos años, REA se ha visto predominantemente a sí misma como un negocio basado en listados. Aún es un negocio de listados, proporcionando la mejor información de listados posible a clientes y consumidores. Pero lo que ha sucedido es que esta rica evolución de datos está ayudando a nuestra empresa a volverse basada en datos. Algunas de las métricas de datos que ves en el sitio web de REA y la aplicación móvil se derivan principalmente del trabajo que la organización ha realizado para hacer crecer nuestra práctica de Datos y Análisis y ML para tomar decisiones mejores.

Tenemos muchos datos valiosos. Actualmente hay muchas iniciativas en marcha para expandir el uso de los datos y, en los próximos dos años, ampliaremos nuestro panorama y obtendremos resultados aún mejores para nuestros clientes y consumidores, comprender, aprovechar y luego mostrar datos a nuestros clientes y sus clientes.

¿Cómo es la estructura de su pila de datos?

Danni:

Tenemos una plataforma de ingestión en tiempo real llamada Hydro que utiliza MSK, que es una plataforma de streaming personalizada. Luego tenemos nuestra plataforma por lotes, que ingiereUtilizando Breeze para procesar datos, construido sobre Airflow. Nuestra solución de lago de datos es BigQuery.

Piyush:

Nos consideramos una empresa de nube múltiple, utilizando tanto AWS como Google Cloud Platform en este momento.

Desde una perspectiva de AWS, la mayoría de nuestras cargas de trabajo de infraestructura se ejecutan allí. Tenemos instancias EC2 y RDS en funcionamiento. Tenemos nuestra propia VPC. Contamos con múltiples balanceadores de carga.

Desde una perspectiva de Datos y Análisis, la mayoría de nuestras cargas de trabajo están en GCP. Actualmente estamos utilizando BigQuery como un concepto de lago de datos, y allí se ejecuta la mayor parte de nuestras cargas de trabajo. Utilizamos SageMaker para ML, y algunos equipos están experimentando con BigQuery ML en el lado de GCP. También tenemos una instancia de Airflow autoadministrada, que es nuestra plataforma de datos.

Actualmente estamos en proceso de configurar nuestra propia arquitectura de eventos impulsada por Kafka, que se encuentra en AWS MSK.

Además, nuestro front end de Tableau se utiliza para informes, por lo tanto, tenemos tanto la versión de escritorio como la de servidor de Tableau en este momento.

¿Por qué buscar una solución de Gestión de Metadatos Activa? ¿Qué faltaba?

Surj:

Tenemos un catálogo de datos de código abierto existente que hemos estado utilizando desde hace algunos años. La adopción no ha sido excelente. A medida que hemos escalado y crecido, nos dimos cuenta de que necesitábamos algo más relevante para la pila de datos moderna, que es la dirección hacia la que nos estamos moviendo.

También hay un impulso más fuerte en nuestra industria hacia una mejor protección de los datos. Almacenamos una gran cantidad de datos personalmente identificables en toda la empresa, y algunas de nuestras estrategias clave en Servicios de Datos son que queremos primero entender los datos, protegerlos, y luego aprovecharlos. Queremos ser capaces de catalogar nuestros datos y comprender cuán dispersos están en nuestros almacenes, diversas plataformas, en lotes y flujos.

Contamos con una gran cantidad de datos, por ejemplo, tenemos más de dos petabytes de datos solo en GCP BigQuery. Queremos poder entender qué datos son, dónde se agrupan y aplicar más rigor a ellos. Contamos con buenos marcos internamente en términos de gobernanza, procesos y políticas, pero queremos tener la pila tecnológica adecuada para ayudarnos a utilizar estos datos.

Danni:

Hubo algunas limitaciones técnicas, ya que nuestro catálogo de datos anterior solo podía admitir BigQuery, pero realmente queríamos respaldar la dirección del negocio en términos de escala y cómo se alinearía más ampliamente con nuestra Visión y Estrategia de Datos.

Nuestra estrategia busca implementar Data Mesh y la mentalidad de 'Datos como Producto' en toda la organización. Cada equipo es dueño de los datos, los aprovecha y tiene la responsabilidad de administrarlos con marcos de gobernanza.

Por lo tanto, para incorporar prácticas de Gobernanza de Datos y este cambio cultural, necesitábamos una herramienta para respaldar los marcos, la estrategia de metadatos y la estrategia de etiquetado. También necesitábamos una solución para centralizar todos nuestros Activos de Datos para que pudiéramos tener visibilidad de dónde se encuentran los datos y cómo se están clasificando, lo que respalda nuestras iniciativas de Privacidad.

Todavía estamos en un viaje de transformación en REA, lo cual es muy emocionante. Un nuevo catálogo de datos fue una verdadera oportunidad para impulsarnos aún más en esa transformación con un nuevo marco de Gobernanza de Datos.

¿Cómo funcionó su proceso de evaluación? ¿Hubo algo destacado?

Surj:

Realizamos una investigación de mercado, consultando a Gartner y revisando las herramientas disponibles en la industria. Podríamos haber seguido utilizando nuestro Catálogo de Datos actual, pero queríamos evaluar una amplia gama de herramientas, incluidas Atlan, Alation y Open Metadata, para cubrir el código abierto frente a la gestión de proveedores.

Sentimos que Atlan cumplía con los criterios de una pila de datos moderna, brindándonos las capacidades que necesitamos, como herramientas de autoservicio, una API abierta e integraciones con una variedad de tecnologías que eran muy importantes para nosotros.

Tuvimos una experiencia abrumadoramente positiva al interactuar con Atlan, especialmente con el equipo de Servicios Profesionales. La confianza que nos dieron en las herramientas cuando pasamos por nuestros casos de uso generó una sensación de fuerte alineación entre REA y Atlan.

Piyush:

Llevamos a cabo un proceso de evaluación en tres fases. Inicialmente, investigamos en el mercado, realizamos nuestra propia investigación para comprender qué empresas podrían adaptarse a nuestros casos de uso.

Una vez que hicimos eso, volvimos y examinamos diferentes aspectos como precios y lo usamos como un mecanismo de filtrado. También evaluamos la hoja de ruta futura de esas empresas para descubrir hacia dónde podría estar yendo cada empresa, que fue nuestro segundo proceso de filtrado. Cuando terminamos de seleccionar nuestras opciones, tuvimos que determinar cuál nos convendría mejor.

Fue entonces cuando realizamos una prueba de valor ligera en la que creamos criterios de evaluación de alto nivel en los que todos los involucrados podían puntuar diferentes capacidades del 1 al 10. El equipo incluía un director de entrega, un gerente de producto, un arquitecto y desarrolladores, solo para obtener una vista integral de la experiencia que todos tendrían con la herramienta. Después de esa puntuación, hicimos una recomendación liviana y la presentamos a nuestros ejecutivos.

Algunos de los aspectos que estábamos considerando en los criterios de evaluación incluían cosas como comprender a qué fuentes de datos podríamos integrarnos, cómo lucía la seguridad y conceptos como la extensibilidad para ser lo suficientemente flexibles como para extender el catálogo de forma programática o a través de API. Como tenemos nuestra plataforma de datos ejecutándose en Airflow, también queríamos comprender cuán bien funcionaba cada opción con eso.

También examinamos las hojas de ruta y nos preguntamos qué podría suceder en el futuro, y si algo como la inversión de Atlan en IA es algo en lo que deberíamos investigar, y otros avances futuros que Atlan u otros proveedores podrían proporcionar. Estábamos tratando de entender los próximos dos o tres años, porque si estamos invirtiendo, lo estamos haciendo con una perspectiva a largo plazo.

Surj:

Si observamos el término "Catálogo de Datos", ha existido durante mucho tiempo. Llevo trabajando más de dos décadas, y he utilizado catálogos de datos durante mucho tiempo, pero la evolución ha sido significativa.

Cuando Piyush, Danni y yo estábamos examinando proveedores, eso es algo en lo que estábamos pensando. ¿Quieres un catálogo de datos tradicional, que probablemente hayamos visto en bancos que tienen una estructura centralizada fuerte y gobernada, o prefieres algo que esté evolucionando con los tiempos y hacia donde se dirige la industria?

Creo que por eso fue bueno escuchar de Atlan, y nos gustó dónde estaban posicionados en esa evolución. Nos gusta que Atlan se integre con una serie de pilas tecnológicas. Por ejemplo, actualmente usamos Great Expectations para calidad de datos, pero estamos considerando Soda o Monte Carlo, y descubrimos que Atlan ya tiene una integración con Soda y Monte Carlo. Estamos encontrando más ejemplos de eso, donde Atlan se está volviendo más relevante.

Por otro lado, cuando estábamos considerando abordar la información personalmente identificable, queríamos poder escanear nuestros conjuntos de datos. Atlan fue bastante claro al decir: "No somos una herramienta de escaneo, ese no es nuestro enfoque". Fue bueno tener esa diferenciación. Cuando examinamos Open Metadata, dijeron que tenían capacidad de escaneo, pero no era tan completa como esperábamos, y ahora sabemos que este caso de uso está en un ámbito diferente.

Es bueno tener esa claridad y saber hacia dónde se dirige Atlan.

¿Cómo planean implementar Atlan para sus usuarios?

Danni:

A menudo, en la implementación de plataformas y herramientas, nos centramos mucho en la tecnología y no nos enfocamos en la experiencia del usuario. Ahí es donde Atlan realmente puede ayudar.

Queremos crear algo tangible, que las personas quieran usar, para impulsar la adopción masiva de la plataforma. Con nuestro catálogo anterior, no tuvimos mucha adopción, por lo que estamos haciendo de eso una métrica de éxito, y una de las grandes características de Atlan es que podemos personalizarlo para satisfacer las necesidades de diferentes personas. ¡Un concepto tradicionalmente no impulsado en el espacio de Gobernanza de Datos!

Salimos al negocio y realizamos un gran ejercicio, entrevistando a nuestros interesados y usuarios potenciales. Ahora entendemos realmente los casos de uso, la escala y lo que nuestros usuarios esperan del Catálogo de Datos. Nuestras personas, como analistas, productores, propietarios y usuarios, recibirán todo el apoyo en la implementación de Atlan, asegurándonos de que su experiencia esté personalizada dentro de la herramienta y puedan comprender y utilizar los datos de manera efectiva para sus funciones.

Fotografía de Nico Smit en Unsplash

¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

Suscríbete para recibir nuestro boletín:

Recent Articles

Related Stories

DEJA UN COMENTARIO

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí