12 min de lectura
PorDiego Carrion·Co-founder, Duotach
Framework de decisiónBase de conocimientoRAGLATAM

RAG para empresas: cuándo conviene y cuándo no

RAG para empresas (Retrieval-Augmented Generation, o generación aumentada por recuperación) es una arquitectura que conecta un modelo de IA con los documentos reales de tu empresa: antes de responder, el sistema busca los fragmentos relevantes en tu información y el modelo genera la respuesta basándose en eso, citando la fuente en vez de inventar. Hasta ahí llegan casi todas las guías. Ninguna te ayuda a decidir si TU caso lo necesita. En Duotach construimos RAG en producción y también resolvimos casos donde hubiera sido gastar de más: este artículo es el framework de decisión que usamos nosotros.

Qué es RAG, en corto (lo único que necesitás saber del pipeline)

El pipeline de un sistema RAG tiene cuatro pasos. Es la técnica detrás de la mayoría de las bases de conocimiento con IA para empresas:

1

Ingestión

Tus documentos (políticas, manuales, contratos, procesos) se dividen en fragmentos.

2

Indexado

Cada fragmento se convierte en un embedding (una representación numérica de su significado) y se guarda en un índice consultable.

3

Recuperación

Cuando alguien pregunta, el sistema busca los fragmentos más relevantes para esa consulta, no todo el corpus.

4

Generación

El modelo de IA recibe la pregunta más los fragmentos recuperados y redacta la respuesta apoyándose en ellos, con referencia a la fuente.

Si querés la explicación larga del mecanismo, la guía de AWS sobre RAG es la referencia canónica. Pero entender el pipeline no es tomar la decisión. La decisión son los cinco criterios que siguen.

Los 5 criterios para decidir si tu empresa necesita RAG

Estos son los criterios que revisamos antes de proponerle RAG a un cliente. Ninguno alcanza solo; la decisión sale de mirar los cinco juntos.

1. Volumen de documentos

Los modelos actuales aceptan mucho contexto directo: los modelos de Anthropic llegan hasta 1 millón de tokens por consulta, según su documentación oficial. Un manual de procedimientos completo, o varios, entran en una sola conversación. Pero esa misma documentación advierte el límite: a medida que crece el contexto, la precisión y la memoria del modelo se degradan (el fenómeno se conoce como context rot). Regla práctica: si tu corpus son decenas de documentos, el contexto directo compite; si son miles de documentos o crece sin techo, la recuperación selectiva deja de ser opcional.

2. Frecuencia de actualización

Un corpus estable (el manual de onboarding que cambia dos veces al año) se puede cargar a mano cada vez que cambia. Un corpus vivo (precios, stock, políticas que se corrigen todas las semanas, actas de reuniones nuevas) necesita un pipeline de ingestión que indexe lo nuevo de forma automática. RAG está diseñado exactamente para eso: actualizás el índice, no el modelo. Si tu información cambia más rápido de lo que alguien puede copiarla y pegarla, ese es un punto para RAG.

3. Trazabilidad de fuentes

Este criterio pesa más de lo que parece, y es el que las guías educacionales suelen saltear. Si cada respuesta necesita una cita verificable ("esto sale de la política de compras, sección 4"), RAG lo da de forma nativa: la respuesta llega con los fragmentos que la respaldan. Para decisiones operativas, compliance, RRHH o cualquier contexto donde "el sistema me lo dijo" no alcanza como justificación, la trazabilidad sola puede justificar RAG aunque el corpus sea chico.

4. Permisos y multiusuario

Si toda la empresa puede ver todos los documentos, cualquier arquitectura sirve. Si finanzas no puede ver lo de RRHH y un externo no puede ver nada de lo interno, necesitás filtrar qué recupera el sistema según quién pregunta. El contexto directo no filtra por usuario: lo que está en el prompt, está para todos. Un índice con metadata de permisos sí. Empresas de 50 empleados para arriba casi siempre caen de este lado.

5. Costo por consulta

La economía es aritmética simple: las API de modelos de IA cobran por token procesado. Mandar un corpus de 500.000 tokens en cada consulta cuesta más de 100 veces lo que cuesta recuperar los 3.000-5.000 tokens relevantes y mandar solo eso. Con 5 consultas por día la diferencia es anecdótica; con cientos de consultas diarias de todo el equipo, el costo por consulta domina la decisión. RAG existe, en parte, porque nadie quiere pagar el corpus completo en cada pregunta.

Regla de decisión: si tu caso marca dos o más criterios del lado de RAG (corpus grande o creciente, actualización frecuente, citas obligatorias, permisos por rol, volumen alto de consultas), RAG se justifica. Si no marca ninguno, casi seguro hay una alternativa más simple y más barata.

Las alternativas que casi nadie te cuenta

Los artículos escritos por vendors de RAG rara vez mencionan que RAG compite contra opciones más simples. Estas son las tres que evaluamos siempre antes de proponer un build.

Contexto directo: la opción cero

Para un corpus chico y estable (decenas de documentos que casi no cambian), la solución honesta es no construir nada: cargás los documentos en el contexto del modelo (un proyecto de Claude, por ejemplo) y listo. Cero infraestructura, cero mantenimiento, resultado inmediato. La evidencia académica respalda esta opción para corpus acotados: la evaluación Long Context vs RAG de arXiv muestra que con contexto suficiente, darle los documentos directo al modelo compite con la recuperación e incluso la supera en preguntas que requieren leer el documento entero. El límite: sin trazabilidad estructurada, sin permisos por usuario, y con el costo y la degradación creciendo junto con el corpus.

Búsqueda tradicional + un agente con herramientas

Existe una postura contrarian en este debate que vale la pena tomar en serio: webvise sostiene que la mayoría de las bases de conocimiento empresariales no necesitan RAG. Su argumento: para un corpus de texto plano de unos cientos de documentos (ellos ponen el umbral cerca de los 1.000), un índice mantenido a mano más comandos de búsqueda simples es más barato de operar y más preciso que un pipeline RAG típico, y hasta conceden que RAG sigue siendo la elección correcta para corpus multimodales, actualización de alta frecuencia y filtrado estricto por metadata.

Nuestra posición, después de construir ambos escenarios: tienen razón a medias. El patrón "búsqueda full-text + un agente que sabe usar herramientas de búsqueda" funciona muy bien para documentación técnica interna curada. Pero el conteo de documentos es solo uno de los cinco criterios. En una empresa mediana real, la trazabilidad y los permisos suelen pesar más que el tamaño del corpus, y ahí el índice manual se queda corto mucho antes de los 1.000 documentos. Además, "mantenido a mano" presupone que alguien lo mantiene, y ese supuesto es justo el que falla en la mayoría de las empresas que conocemos.

Fine-tuning: por qué casi siempre lo descartamos

El fine-tuning (reentrenar el modelo con tus datos) aparece en todas las comparativas y en la práctica casi nunca es la respuesta para conocimiento empresarial, por tres razones:

  • El conocimiento queda congelado en los pesos del modelo. Cambió la política de precios: hay que reentrenar. Con RAG, actualizás un documento en el índice.
  • No hay cita de fuente. El modelo "sabe" la respuesta pero no puede decirte de qué documento salió, así que perdés la trazabilidad completa.
  • Cuesta más y requiere más expertise que cualquiera de las otras opciones, para un resultado peor en este caso de uso.

El fine-tuning sirve para otra cosa: enseñarle a un modelo un estilo, un formato de salida o un comportamiento específico. Para hechos que cambian, no.

Tabla de decisión

CriterioContexto directoBúsqueda + agenteRAG
Volumen que soportaDecenas de docsCientos de docsMiles de docs o más
Actualización frecuenteManual, no escalaRequiere mantenimiento a manoIngestión automática
Trazabilidad de fuentesDébilParcial (devuelve el archivo)Nativa (cita el fragmento)
Permisos por usuarioNoLimitadoSí, por metadata
Costo por consultaAlto si el corpus creceBajoBajo (solo lo relevante)
Complejidad del buildNingunaBajaMedia

Los errores comunes al implementar RAG

Cuando RAG sí se justifica, la implementación es donde se pierde o se gana el proyecto. Estos son los errores que más vemos, en orden de daño:

1.

Indexar documentación desactualizada o duplicada

El error número uno no es técnico: es de contenido. Si el índice tiene tres versiones de la misma política, el sistema recupera basura y responde basura con total confianza. La limpieza del corpus va antes que cualquier decisión de arquitectura.

2.

Chunking ciego

Cortar los documentos por cantidad fija de caracteres, ignorando títulos, secciones y tablas, produce fragmentos que no se entienden solos. La recuperación devuelve pedazos sin contexto y la calidad de respuesta se derrumba.

3.

No medir la calidad del retrieval

Casi todos evalúan la respuesta final y nadie mira qué fragmentos recuperó el sistema. Si la recuperación trae los documentos equivocados, el mejor modelo del mundo responde mal. Se mide por separado.

4.

Elegir la vector database antes que el problema

Empezar el proyecto discutiendo qué base vectorial usar es empezar por el final. Primero el corpus, los permisos y las consultas reales; la infraestructura sale de eso.

5.

Nadie es dueño de la base de conocimiento

Sin un responsable y un proceso de actualización definido, el sistema envejece: seis meses después responde con la información de hace seis meses.

6.

Tratarlo como proyecto de una sola vez

Un RAG se ajusta con consultas reales después del deploy: qué preguntas falla, qué documentos faltan, qué fragmentos se recuperan mal. Sin esa fase de ajuste, queda a mitad de camino.

Si querés el proceso completo de construcción paso a paso (fuentes, estructura, deploy, permisos), lo documentamos en cómo crear una base de conocimiento con IA.

Qué pinta tiene un RAG bien hecho en producción

La teoría se verifica con un caso real. En Ecuador construimos una base de conocimiento con IA sobre AWS para Acatha, una empresa con un problema clásico: documentación dispersa entre archivos, mails y personas, y consultas internas que dependían de que alguien supiera dónde estaba la información.

Lo que quedó funcionando, y por qué cada pieza importa para el framework de este artículo:

  • Un agente que responde en lenguaje natural citando la fuente interna, en vez de inventar. La trazabilidad (criterio 3) no fue un extra: era el requisito que hacía útil al sistema.
  • Todo desplegado sobre AWS, con la información de la empresa en su propia nube. La data no salió a un SaaS de terceros; el sistema corre en la infraestructura del cliente.
  • Claude más embeddings y recuperación como stack: el pipeline RAG de manual, sin piezas exóticas.
  • Implementación por fases: relevamiento de procesos y documentación, automatización de lo repetitivo, montaje de la base de conocimiento, y ajuste con consultas reales antes del traspaso. Esa última fase es el antídoto del error 6.
  • Operado por el equipo del cliente. Documentamos el sistema para que ellos lo mantengan y lo amplíen sin depender de nosotros, que es la respuesta al error 5.

El resultado operativo: consultas internas respondidas 24/7 por el agente y una fuente única de verdad para políticas y procesos, en lugar de perseguir a la persona que sabía dónde estaba el archivo.

De ese proyecto sale nuestro checklist de "RAG bien hecho": respuestas con cita a la fuente, data en la infraestructura del cliente, proceso de actualización definido, y el equipo del cliente operándolo. Si una propuesta de RAG no incluye esas cuatro cosas, falta la mitad del proyecto.

La decisión antes que la arquitectura

El framework completo en tres líneas: RAG se justifica cuando marcás dos o más de los cinco criterios (corpus grande o creciente, actualización frecuente, trazabilidad obligatoria, permisos por rol, volumen alto de consultas). Si no marcás ninguno, contexto directo o búsqueda más agente resuelven lo mismo con menos plata. Y el fine-tuning, para conocimiento empresarial, casi nunca es la respuesta.

¿Estás evaluando esta decisión para tu empresa? La conversación es corta: nos contás qué documentación tenés, quién la consulta y cada cuánto cambia, y te decimos honesto qué arquitectura corresponde, incluso si la respuesta es "no necesitás RAG".

Preguntas Frecuentes

¿Qué es RAG para empresas?+
RAG (generación aumentada por recuperación) es una arquitectura que conecta un modelo de IA con los documentos de tu empresa: ante cada pregunta, el sistema recupera los fragmentos relevantes de tu información real y el modelo responde basándose en ellos, citando la fuente. Es la base técnica de las bases de conocimiento con IA.
¿Cuándo NO conviene usar RAG?+
Cuando el corpus es chico (decenas de documentos), estable, sin permisos por usuario y sin necesidad de citas verificables. En ese escenario, cargar los documentos directo en el contexto del modelo o usar búsqueda tradicional con un agente resuelve lo mismo con cero infraestructura y menor costo.
¿RAG elimina las alucinaciones?+
No las elimina: las reduce y las vuelve auditables. Al obligar al modelo a responder sobre fragmentos recuperados de documentos reales y citar la fuente, cualquier respuesta se puede verificar contra el original. Pero si el índice contiene información desactualizada o el retrieval falla, el sistema responde mal con confianza.
¿Qué diferencia hay entre RAG y fine-tuning?+
RAG busca la información en tus documentos en el momento de la consulta; el fine-tuning reentrena el modelo para que la incorpore en sus pesos. Para conocimiento que cambia, RAG gana: se actualiza editando el índice y mantiene la cita de fuente. El fine-tuning sirve para estilo y formato, no para hechos.
¿Cuánto cuesta implementar RAG en una empresa?+
Depende del scope: cantidad y tipo de fuentes, volumen del corpus, permisos por rol y sobre qué infraestructura se despliega. Por eso cotizamos por scope y no con tarifa plana. Lo que sí es comparable: RAG cuesta más de armar que un setup de contexto directo, y mucho menos por consulta a volumen real de uso.
¿Cuánto tarda implementarse un RAG?+
Se implementa por fases, no de una vez: relevamiento de fuentes y documentación, montaje del pipeline de indexado y recuperación, y una fase de ajuste con consultas reales del equipo antes del traspaso. El plazo total depende del estado del corpus: la limpieza de la documentación suele llevar más tiempo que el pipeline.