Búsqueda Híbrida: Combinando Vectorial y Palabras Clave en Sistemas de IA

Concepto clave: La búsqueda híbrida combina búsqueda semántica vectorial y búsqueda por palabras clave (BM25 o TF-IDF) en un sistema unificado, aprovechando las fortalezas de cada enfoque para obtener una recuperación de información superior a la de cualquiera de los dos métodos por separado.

Qué es la Búsqueda Híbrida

La búsqueda híbrida nace de la observación de que la búsqueda vectorial y la búsqueda por palabras clave son complementarias: cada una es superior en escenarios donde la otra falla.

La búsqueda vectorial es excelente para encontrar documentos semánticamente relacionados aunque usen vocabulario diferente al de la consulta. Es ideal para preguntas en lenguaje natural, sinónimos y búsquedas conceptuales. Pero puede devolver resultados irrelevantes cuando la consulta contiene términos técnicos muy específicos, siglas o nombres propios que el modelo de embeddings no representa con precisión.

La búsqueda por palabras clave es precisa para términos exactos: números de referencia, nombres de productos, siglas, cláusulas contractuales específicas. Pero falla completamente cuando la consulta usa sinónimos o cuando el usuario no sabe exactamente las palabras que usa el documento.

La búsqueda híbrida combina ambas mediante técnicas de fusión de rankings como Reciprocal Rank Fusion (RRF), produciendo resultados que capturan tanto la similitud semántica como la coincidencia exacta de términos.

Cómo Funciona la Búsqueda Híbrida

  1. La consulta del usuario se procesa simultáneamente por dos motores: el motor vectorial (que vectoriza la consulta y busca por similitud) y el motor de palabras clave (que aplica BM25 o similar).

  2. Cada motor devuelve sus N resultados con sus puntuaciones respectivas.

  3. Un algoritmo de fusión (típicamente RRF) combina los dos rankings en uno solo, ponderando los resultados que aparecen bien posicionados en ambas listas.

  4. Los resultados fusionados se entregan al LLM como contexto para la generación de la respuesta.

Por Qué la Búsqueda Híbrida es Superior en Contextos Empresariales

Los documentos empresariales combinan lenguaje técnico preciso (números de artículo, referencias normativas, nombres de productos) con lenguaje natural descriptivo. Ningún motor por separado es óptimo para este tipo de contenido mixto.

Ejemplo: Un usuario busca "problemas de entrega del pedido 2024-ES-7823". La búsqueda vectorial puede encontrar documentos sobre problemas de logística y entregas, pero puede no recuperar el pedido específico si el número no está bien representado en los embeddings. La búsqueda por palabras clave encontrará exactamente ese número de pedido, pero puede perderse documentos relacionados que describen el problema de forma diferente.

Knowlee implementa búsqueda híbrida en su capa de recuperación de información, asegurando que los agentes encuentren tanto el contexto semántico relevante como los datos exactos necesarios para ejecutar sus tareas con precisión.

Preguntas Frecuentes

¿La búsqueda híbrida es más lenta que cada método por separado? Ligeramente, porque ejecuta dos búsquedas en paralelo y aplica el paso de fusión. En la práctica, la latencia añadida es milisegundos, imperceptible para el usuario. La mejora en relevancia de los resultados supera con creces el coste en latencia.

¿Cómo se ajusta el peso relativo entre la búsqueda vectorial y la búsqueda por palabras clave? Con RRF no se necesita ajuste manual de pesos, ya que el algoritmo es intrínsecamente robusto a las diferencias de escala entre los dos sistemas. Para otros métodos de fusión (suma ponderada), el ajuste óptimo depende del dominio y típicamente se determina con un conjunto de evaluación.

¿La búsqueda híbrida requiere infraestructura adicional? Requiere ambos componentes: una base de datos vectorial y un motor de búsqueda por texto completo. Muchas bases de datos modernas (Elasticsearch, Weaviate, MongoDB Atlas) ofrecen ambas capacidades en el mismo sistema, simplificando la arquitectura.