Introduction

Une équipe collaborative de Stanford et Google DeepMind a publié une recherche sur MM-RAG (Multimodal Retrieval-Augmented Generation), un framework qui gère de manière transparente la récupération à travers texte, images, tableaux et graphiques au sein d'un seul système.

Le défi multimodal

Les systèmes RAG traditionnels se concentrent sur le texte, mais les documents du monde réel contiennent :

Des images et diagrammes
Des tableaux et feuilles de calcul
Des graphiques et courbes
Des mises en page mixtes

Les approches existantes ignorent soit le contenu non-textuel, soit traitent chaque modalité séparément, conduisant à une compréhension fragmentée.

Architecture MM-RAG

Espace d'embedding unifié

MM-RAG utilise des encodeurs basés sur CLIP pour projeter toutes les modalités dans un espace d'embedding partagé :

Texte → Encodeur texte →
Images → Encodeur vision →  [Espace partagé 1024-dim] → Base vectorielle
Tableaux → Encodeur tableau →

Récupération cross-modale

Le système peut récupérer :

Du texte pour des requêtes textuelles (RAG standard)
Des images pour des questions visuelles
Des tableaux pour des requêtes de données
Des résultats mixtes pour des requêtes complexes

Exemple de requête : "Montrez-moi le diagramme d'architecture et expliquez le flux d'authentification"

Récupère :

Diagramme d'architecture (image)
Section authentification (texte)
Tableau des endpoints API (données structurées)

Fusion multimodale

Le contenu multimodal récupéré est traité par GPT-4V ou Gemini Pro Vision :

DEVELOPERpython
# Pseudocode
query = "Compare Q3 revenue across regions"

# Retrieve mixed modalities
results = mm_rag.retrieve(query, k=5)
# Returns: [chart_image, revenue_table, text_analysis]

# Generate answer using multimodal LLM
answer = gpt4v.generate(
    text_prompt=query,
    images=[r for r in results if r.type == 'image'],
    tables=[r for r in results if r.type == 'table'],
    context=[r for r in results if r.type == 'text']
)

Résultats de benchmark

Testé sur le nouveau benchmark MixedQA créé (10K questions à travers modalités) :

Type de requête	Baseline	MM-RAG	Amélioration
Texte seul	78.2%	79.1%	+1.2%
Image seule	45.3%	74.8%	+65.1%
Tableau seul	52.1%	81.3%	+56.0%
Mixte	31.2%	68.7%	+120.2%
Global	51.7%	75.9%	+46.8%

Innovations clés

Découpage conscient de la mise en page

MM-RAG préserve la mise en page du document pendant le découpage :

Conserve les images avec leurs légendes
Maintient la structure des tableaux
Préserve les références aux figures

Routage de modalité

Détermine automatiquement quelles modalités récupérer en fonction de la requête :

DEVELOPERpython
query_intent = analyze_query(query)

if query_intent.needs_visual:
    retrieve_images = True

if query_intent.needs_data:
    retrieve_tables = True

# Always retrieve text as context
retrieve_text = True

Reranking cross-modal

Après récupération, un reranker cross-modal évalue la pertinence :

Pertinence texte-vers-image
Pertinence tableau-vers-requête
Cohérence globale des résultats mixtes

Applications

MM-RAG excelle dans :

Recherche scientifique

Récupérer des figures d'articles
Répondre à des questions sur des résultats expérimentaux
Comparer des données à travers études

Business Intelligence

Interroger des tableaux de bord et rapports
Extraire des insights de graphiques
Analyser des données tabulaires

Documentation technique

Trouver des diagrammes pertinents
Comprendre l'architecture à partir de visuels
Connecter les explications textuelles avec les illustrations

Éducation

Matériel d'apprentissage visuel
Q&A interactif sur manuels
Explications basées sur diagrammes

Considérations d'implémentation

Coûts computationnels

Le traitement des images et tableaux est coûteux :

Encodage d'images : 10x plus lent que le texte
Analyse de tableaux : 5x plus lent que le texte
LLMs multimodaux : 2-3x plus chers

Besoins en stockage

L'embedding de toutes les modalités augmente le stockage :

Texte : 768-1536 dimensions
Images : 512-1024 dimensions + image originale
Tableaux : Représentation structurée + embeddings

Estimation : augmentation de stockage de 3-5x vs. RAG texte seul

Dépendances de qualité

La qualité de MM-RAG dépend de :

La précision OCR pour les documents scannés
La qualité de l'extraction de tableaux
La résolution et clarté des images
Les capacités du LLM multimodal

Publication open source

L'équipe a publié :

Le framework MM-RAG (licence Apache 2.0)
Le dataset benchmark MixedQA
Des encodeurs cross-modaux pré-entraînés
Des scripts d'évaluation

Disponible sur : github.com/stanford-futuredata/mm-rag

Adoption industrielle

Les premiers utilisateurs incluent :

Des plateformes de documentation technique
Des outils d'analyse de documents juridiques
Des moteurs de recherche de littérature scientifique
Des fournisseurs de business intelligence

Limitations

Les limitations actuelles incluent :

Vidéo pas encore supportée
Traitement audio limité
Défis de performance en temps réel
Besoins en ressources élevés

Travaux futurs

Améliorations prévues :

Récupération de frames vidéo
Intégration de transcription audio
Réduction de la charge computationnelle
Meilleure gestion des mises en page complexes

Conclusion

MM-RAG représente une étape significative vers de véritables assistants IA multimodaux capables de comprendre et raisonner à travers tous les types de contenu dans les documents, pas seulement le texte. À mesure que les LLMs multimodaux s'améliorent, des systèmes comme MM-RAG deviendront de plus en plus pratiques pour des applications réelles.

Percée dans le RAG multimodal : nouveau framework pour le texte, images et tableaux