1. Fases del Flujo Arquitectónico RAG
A. Fase de Ingesta/Indexación (Preparación de Datos)
Es impornate antes de responder, la solución debe conocer los datos.
- Extracción y Fragmentación (Chunking): Los documentos internos (PDFs, webs, bases de datos) se cargan y se dividen en fragmentos más pequeños y manejables.
- Embeddings (Vectorización): Estos fragmentos se convierten en vectores numéricos (embeddings) mediante un modelo de IA que captura el significado semántico.
- Almacenamiento Vectorial: Los vectores se guardan en una base de datos vectorial (Vector Store), que permite búsquedas rápidas basadas en similitud
B. Fase de Recuperación (Retrieval)
Cuando el usuario hace una pregunta, la solución busca información relevante.
- Consulta del Usuario: La pregunta se convierte en un vector (embedding) igual que los documentos.
- Búsqueda Semántica: El recuperador (Retriever) busca en la base de datos vectorial aquellos fragmentos de información más cercanos semánticamente a la pregunta del usuario.
- Reordenamiento (Reranking - Opcional): Se ordenan los resultados para asegurar que los más relevantes estén al principio.
C. Fase de Generación Aumentada (Generation)
El LLM utiliza la información recuperada para responder.
- Aumento del Prompt: El sistema crea un "prompt" (instrucción) enriquecido que combina la pregunta original del usuario con los fragmentos de información recuperados.
- Generación de Respuesta: El LLM (Gemini, GPT-4, Llama) recibe este prompt enriquecido y genera una respuesta fundamentada únicamente en ese contexto.
2. Componentes Clave de la Arquitectura RAG
- Orquestador: (Ej. LangChain, Semantic Kernel) Coordina el flujo completo, desde recibir la pregunta hasta invocar al buscador y al LLM.
- Base de Conocimiento/Base de Datos Vectorial: (Ej. Pinecone, ChromaDB, Azure AI Search) Almacena los datos y permite búsquedas semánticas.
- Modelo de Embeddings: Convierte texto en vectores.
- LLM (Generador): Modelo de lenguaje que redacta la respuesta final.
3. Ventajas del Enfoque RAG
- Reducción de Alucinaciones: El LLM no inventa, responde basándose en los documentos proporcionados.
- Datos Actualizados: No requiere reentrenar el modelo para conocer la información más reciente; basta con actualizar la base de datos vectorial.
- Seguridad: Permite implementar filtros de seguridad para que los usuarios solo accedan a información para la que tienen permisos.
0 Comentarios