Búsqueda multimodal con CLIP y bases de datos vectoriales
Durante décadas, la búsqueda se ha basado en la coincidencia de palabras clave basada en texto, complementada por sistemas como TF-IDF y BM25. Si bien es eficaz, este paradigma falla al tratar con el tipo de datos más común de la web: medios visuales. Los usuarios quieren buscar conimágenes y