AWS Pi Day 2024: saca provecho de tus datos para impulsar la inteligencia artificial generativa

Hoy es Día de AWS Pi! Únete a nosotros en directo en Twitch a partir de la 1 p. m., hora del Pacífico.

En una fecha como esta, hace 18 años, una empresa minorista de la costa oeste lanzó un servicio de almacenamiento de objetos presentando al mundo el Servicio de almacenamiento simple de Amazon (Amazon S3). En ese momento, no podíamos prever cómo revolucionaría la manera en que las empresas gestionan sus datos en todo el mundo. Avanzamos rápidamente hasta el año 2024, donde cada empresa moderna se ha convertido en una empresa de datos. Hemos dedicado innumerables horas discutiendo cómo los datos pueden impulsar tu transformación digital y cómo la inteligencia artificial generativa (IA) puede abrir nuevas, inesperadas y beneficiosas oportunidades para tu negocio. Nuestras conversaciones han evolucionado para incluir debates sobre el papel de tus propios datos en la creación de aplicaciones de IA generativa diferenciadas.

Con Amazon S3 almacenando más de 350 billones de objetos y exabytes de datos para prácticamente cualquier caso de uso, con un promedio de más de 100 millones de solicitudes por segundo, podría ser el punto de partida ideal para tu viaje hacia la IA generativa. Sin embargo, más allá de la cantidad de datos que poseas o de dónde estén almacenados, la calidad de los mismos es fundamental. Los datos de alta calidad mejoran la precisión y confiabilidad de la respuesta del modelo. En una reciente encuesta a directores de datos (CDO), cerca de la mitad (46 por ciento) de los CDO identificaron la calidad de los datos como uno de los principales desafíos para implementar la IA generativa.

Este año, durante el Día de AWS Pi, celebraremos el aniversario de Amazon S3 analizando cómo el Almacenamiento de AWS, desde los data lakes hasta el almacenamiento de alto rendimiento, ha transformado la estrategia de datos para convertirse en el punto de partida de tus proyectos de IA generativa.

Este evento en directo en línea comenzará a la 1:00 p. m., hora del Pacífico, hoy (14 de marzo de 2024), justo después de la conclusión de AWS Innovate: edición de IA generativa + datos. Se llevará a cabo en directo en el Canal AWS OnAir en Twitch y ofrecerá 4 horas de nuevo contenido educativo de expertos de AWS. No solo aprenderás a aprovechar tus datos y la arquitectura de datos existente para crear y auditar tus propias aplicaciones de IA generativa, sino que también conocerás las últimas innovaciones en almacenamiento de AWS. Como es habitual, el programa estará lleno de demostraciones prácticas que te mostrarán cómo puedes comenzar a utilizar estas tecnologías de inmediato.

Datos para la IA generativa
El volumen de datos está aumentando a un ritmo asombroso, impulsado por la actividad de los consumidores, el análisis empresarial, los sensores de IoT, los registros de los centros de llamadas, los datos geoespaciales, el contenido multimedia y otros factores. Este crecimiento de datos está impulsando la IA generativa. Los modelos fundamentales (FM) se entrenan con conjuntos de datos masivos, a menudo provenientes de fuentes como Common Crawl, que es un repositorio de datos abierto que contiene petabytes de información de páginas web de Internet. Las organizaciones utilizan conjuntos de datos más pequeños y privados para una personalización adicional de las respuestas de FM. Estos modelos personalizados, a su vez, impulsarán aplicaciones de IA más generativas, que generarán más datos para alimentar el ciclo de datos a través de las interacciones con los clientes.

Existen tres iniciativas de datos que puedes comenzar hoy sin importar tu industria, caso de uso o ubicación geográfica.

En primer lugar, utiliza tus datos existentes para diferenciar tus sistemas de IA. La mayoría de las organizaciones disponen de una gran cantidad de datos. Puedes aprovechar estos datos para personalizar los modelos base y adaptarlos a tus necesidades específicas. Algunas técnicas de personalización requieren datos estructurados y otras no. Amazon SageMaker y Amazon Q te ofrecen múltiples soluciones para ajustar o preentrenar una amplia variedad de modelos base existentes. También puedes optar por implementar Amazon Q, tu experto en negocios, para tus clientes o colaboradores y conectarlo a una o más de las 43 fuentes de datos compatibles listas para usar.

Sin embargo, no necesitas crear una nueva infraestructura de datos para aumentar tu capacidad de uso de IA. La IA generativa consume los datos de tu organización al igual que las aplicaciones actuales.

En segundo lugar, asegúrate de que tu arquitectura de datos y tus canales de datos existentes sean compatibles con la IA generativa y continúen cumpliendo tus reglas actuales de acceso, cumplimiento y gobierno de datos. Nuestros clientes han implementado más de 1.000.000 de data lakes en AWS. Tus data lakes, Amazon S3 y tus bases de datos existentes son excelentes puntos de partida para desarrollar tus aplicaciones de IA generativa. Para respaldar la Recuperación-Generación Aumentada (RAG), hemos agregado soporte para almacenamiento y recuperación de vectores en diversos sistemas de bases de datos. El Servicio de Búsqueda Abierta de Amazon podría ser un punto de partida lógico. Asimismo, puedes utilizar pgvector con Amazon Aurora para PostgreSQL y el Servicio de Base de Datos Relacional de Amazon (Amazon RDS) para PostgreSQL. Recientemente también anunciamos el almacenamiento y recuperación de vectores para Amazon MemoryDB para Redis, Amazon Neptune y Amazon DocumentDB (con compatibilidad con MongoDB).

También puedes reutilizar o expandirLos canales de datos existentes en la actualidad incluyen varias tecnologías de transmisión de AWS, como Streaming administrado por Amazon para Apache Kafka (Amazon MSK), Servicio administrado de Amazon para Apache Flink y Kinesis de Amazon, que se utilizan para la preparación de datos en tiempo real en los campos del aprendizaje automático (ML) y la inteligencia artificial (IA) tradicionales. Es posible ampliar estos flujos de trabajo para capturar cambios en los datos y ponerlos a disposición de los modelos de lenguaje natural (LLM) casi en tiempo real mediante la actualización de bases de datos vectoriales, la disponibilidad de estos cambios en la base de conocimiento mediante la ingesta de transmisión nativa de MSK para el Servicio de búsqueda abierta de Amazon, o la actualización de conjuntos de datos de ajuste con la transmisión de datos integrada en Amazon S3 a través de Manguera contra incendios de datos de Amazon Kinesis.

Cuando se trata de la formación de LLM, la velocidad es crucial. Su canal de datos debe ser capaz de enviar datos a numerosos nodos en su grupo de entrenamiento. Para satisfacer sus requisitos de rendimiento, nuestros clientes que tienen su lago de datos en Amazon S3 utilizan una clase de almacenamiento de objetos como Amazon S3 Express en una zona o un servicio de almacenamiento de archivos como Amazon FSx para Lustre. FSx para Lustre proporciona una integración profunda que acelera el procesamiento de datos de objetos a través de una interfaz de archivos de alto rendimiento y familiar.

La buena noticia es que si su infraestructura de datos se construye utilizando servicios de AWS, ya ha recorrido la mayor parte del camino para la ampliación de datos destinados a la IA generativa.

En tercer lugar, es fundamental convertirse en un buen auditor. Toda organización de datos debe prepararse para las regulaciones, el cumplimiento y la moderación de contenido que acompañarán a la IA generativa. Es crucial conocer qué conjuntos de datos se utilizan en el entrenamiento y la personalización, así como comprender cómo el modelo toma decisiones. En un entorno tan dinámico como el de la IA generativa, es necesario anticipar el futuro actuando de manera automatizada para escalar el sistema de inteligencia artificial.

En su arquitectura de datos, se utilizan diferentes servicios de AWS para la auditoría, como AWS CloudTrail, Zona de datos de Amazon, Amazon CloudWatch y Amazon OpenSearch para gobernar y monitorear el uso de datos. Esta capacidad se puede ampliar fácilmente a los sistemas de inteligencia artificial. Al utilizar servicios administrados de AWS para la IA generativa, se incluyen capacidades integradas para la transparencia de los datos. Se han lanzado capacidades de IA generativa con soporte de CloudTrail debido a la importancia que tiene para las empresas contar con un registro de auditoría para sus sistemas de IA. Cada vez que se crea una fuente de datos en Amazon Q, queda registrada en CloudTrail. También se puede utilizar un evento de CloudTrail para rastrear las llamadas a la API realizadas por Código de Amazon Whisperer. Amazon Bedrock ofrece más de 80 eventos de CloudTrail que pueden utilizarse para auditar cómo se emplean los modelos básicos.

Durante la última conferencia de AWS re:Invent, también se presentaron las Barandillas para Amazon Bedrock, que permiten especificar temas a evitar, y Base solo proporcionará a los usuarios respuestas aprobadas a las preguntas que se encuentren en esas categorías restringidas.

Nuevas capacidades recientemente lanzadas
Pi Day también es una ocasión para celebrar la innovación en los servicios de datos y almacenamiento de AWS. A continuación se presentan algunas de las nuevas capacidades anunciadas:

El Conector Amazon S3 para PyTorch ahora es compatible con la capacidad de guardar puntos de control del modelo de PyTorch Lightning directamente en Amazon S3. Los puntos de control del modelo generalmente requieren pausar los trabajos de entrenamiento, por lo que el tiempo necesario para guardar un punto de control afecta directamente los tiempos de entrenamiento del modelo de extremo a extremo. PyTorch Lightning es un marco de código abierto que ofrece una interfaz de alto nivel para el entrenamiento y los puntos de control con PyTorch. Puede obtener más detalles sobre esta nueva integración en la publicación de novedades.

El Almacenamiento en caché de autenticación de Amazon S3 en puestos de avanzada: al almacenar de forma segura los datos de autenticación y autorización para Amazon S3 localmente en el rack de Outposts, esta nueva capacidad elimina los viajes de ida y vuelta a la región principal de AWS para cada solicitud, lo que elimina la variabilidad de latencia introducida por los viajes de red. Puede obtener más información sobre esta capacidad en la publicación de novedades y en esta nueva publicación en el blog de AWS Storage.

El Punto de montaje para el controlador de la interfaz de almacenamiento de contenedores (CSI) de Amazon S3 está disponible para Bottlerocket – Bottlerocket es un sistema operativo gratuito y de código abierto basado en Linux diseñado para contener contenedores. Basado en el Punto de montaje para Amazon S3, el controlador CSI presenta un depósito S3 como un volumen al que pueden acceder los contenedores en Amazon Elastic Kubernetes Service (Amazon EKS) y clústeres de Kubernetes autogestionados. Permite a las aplicaciones acceder a objetos S3 a través de una interfaz de sistema de archivos, logrando un alto rendimiento agregado sin necesidad de modificar ningún código de la aplicación. Para obtener más detalles sobre el controlador CSI para Bottlerocket, consulte la publicación de novedades.

El Amazon Elastic File System (Amazon EFS) mejora el rendimiento por sistema de archivos en un factor de 2: hemos aumentado el límite de rendimiento elástico a 20 GB/s para operaciones de lectura y a 5 GB/s para operaciones de escritura. Esto significa que ahora es posible.Puedes emplear EFS para tareas con un rendimiento aún más alto, como aplicaciones de machine learning, genómica y análisis de datos. Encuentra Más información sobre este aumento del rendimiento en EFS en la publicación Novedades. También hemos implementado otros cambios importantes a principios de este mes.

Amazon S3 Express One Zone Storage Class ahora se integra con Amazon SageMaker – Esto acelera el proceso de entrenamiento de modelos de SageMaker al reducir los tiempos de carga para los datos de entrenamiento, checkpoints y resultados del modelo. Encuentra más detalles sobre esta nueva integración en la publicación Novedades.

Amazon FSx for NetApp ONTAP ha duplicado su capacidad máxima de rendimiento por sistema de archivos, pasando de 36 GB/s a 72 GB/s. Esto amplía la posibilidad de utilizar las capacidades de gestión de datos de ONTAP en una gama más amplia de cargas de trabajo con alto rendimiento. Puedes obtener más información sobre Amazon FSx para NetApp ONTAP en la publicación Novedades.

Qué puedes esperar durante la transmisión en vivo
Exploraremos algunas de estas nuevas funcionalidades durante el programa en vivo de 4 horas de hoy. Mi colega darko recibirá a varios expertos de AWS para demostraciones prácticas, mostrando cómo poner tus datos a trabajar en proyectos de inteligencia artificial generativa. Aquí tienes el horario para hoy, todos los horarios están en Horario del Pacífico (PT) (GMT-8):

Amplía tu arquitectura de datos existente con inteligencia artificial generativa (13:00 – 14:00 horas).
Si ya estás realizando análisis en los data lakes de AWS, estás en el buen camino hacia tu estrategia de datos para la inteligencia artificial generativa.
Acelera el flujo de datos hacia la computación para inteligencia artificial generativa (14:00 – 15:00 horas).
La velocidad es crucial en el flujo de datos para el entrenamiento e inferencia de modelos. Descubre cómo hacemos posible esa aceleración.
Personalización con RAG y ajustes (15:00 – 16:00).
Aprende sobre las últimas técnicas para personalizar los modelos base.
Conviértete en un experto auditor para GenAI (16:00 – 17:00 horas).
Utiliza los servicios de AWS disponibles para alcanzar tus objetivos de cumplimiento normativo.

Únete a nosotros hoy en la Transmisión en vivo del Día de AWS Pi.

¡Esperamos verte allí!

— seb

¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

AWS Pi Day 2024: saca provecho de tus datos para impulsar la inteligencia artificial generativa

¿Nos apoyarás hoy?

Recent Articles

Amazon se adentra en el mercado europeo de 5G con el acuerdo de nube de O2 Telefónica

Google presenta Astra, su primer agente de IA integral

Explorando los Avances de la Inteligencia Artificial y su Relación con la Fantasía

Mejoras en la transferencia de licencias para VMware Cloud Foundation

Guild of Guardians debuta como un RPG móvil híbrido Web3 en las tiendas de aplicaciones

Related Stories

DEJA UN COMENTARIO Cancelar respuesta