Percée dans le RAG multimodal : nouveau framework pour le texte, images et tableaux
Les chercheurs de Stanford et DeepMind présentent MM-RAG, un framework unifié pour la récupération et le raisonnement multimodal avec 65% d'amélioration de précision.
Introduction
Une équipe collaborative de Stanford et Google DeepMind a publié une recherche sur MM-RAG (Multimodal Retrieval-Augmented Generation), un framework qui gère de manière transparente la récupération à travers texte, images, tableaux et graphiques au sein d'un seul système.
Le défi multimodal
Les systèmes RAG traditionnels se concentrent sur le texte, mais les documents du monde réel contiennent :
- Des images et diagrammes
- Des tableaux et feuilles de calcul
- Des graphiques et courbes
- Des mises en page mixtes
Les approches existantes ignorent soit le contenu non-textuel, soit traitent chaque modalité séparément, conduisant à une compréhension fragmentée.
Architecture MM-RAG
Espace d'embedding unifié
MM-RAG utilise des encodeurs basés sur CLIP pour projeter toutes les modalités dans un espace d'embedding partagé :
Texte → Encodeur texte →
Images → Encodeur vision → [Espace partagé 1024-dim] → Base vectorielle
Tableaux → Encodeur tableau →
Récupération cross-modale
Le système peut récupérer :
- Du texte pour des requêtes textuelles (RAG standard)
- Des images pour des questions visuelles
- Des tableaux pour des requêtes de données
- Des résultats mixtes pour des requêtes complexes
Exemple de requête : "Montrez-moi le diagramme d'architecture et expliquez le flux d'authentification"
Récupère :
- Diagramme d'architecture (image)
- Section authentification (texte)
- Tableau des endpoints API (données structurées)
Fusion multimodale
Le contenu multimodal récupéré est traité par GPT-4V ou Gemini Pro Vision :
DEVELOPERpython# Pseudocode query = "Compare Q3 revenue across regions" # Retrieve mixed modalities results = mm_rag.retrieve(query, k=5) # Returns: [chart_image, revenue_table, text_analysis] # Generate answer using multimodal LLM answer = gpt4v.generate( text_prompt=query, images=[r for r in results if r.type == 'image'], tables=[r for r in results if r.type == 'table'], context=[r for r in results if r.type == 'text'] )
Résultats de benchmark
Testé sur le nouveau benchmark MixedQA créé (10K questions à travers modalités) :
| Type de requête | Baseline | MM-RAG | Amélioration |
|---|---|---|---|
| Texte seul | 78.2% | 79.1% | +1.2% |
| Image seule | 45.3% | 74.8% | +65.1% |
| Tableau seul | 52.1% | 81.3% | +56.0% |
| Mixte | 31.2% | 68.7% | +120.2% |
| Global | 51.7% | 75.9% | +46.8% |
Innovations clés
Découpage conscient de la mise en page
MM-RAG préserve la mise en page du document pendant le découpage :
- Conserve les images avec leurs légendes
- Maintient la structure des tableaux
- Préserve les références aux figures
Routage de modalité
Détermine automatiquement quelles modalités récupérer en fonction de la requête :
DEVELOPERpythonquery_intent = analyze_query(query) if query_intent.needs_visual: retrieve_images = True if query_intent.needs_data: retrieve_tables = True # Always retrieve text as context retrieve_text = True
Reranking cross-modal
Après récupération, un reranker cross-modal évalue la pertinence :
- Pertinence texte-vers-image
- Pertinence tableau-vers-requête
- Cohérence globale des résultats mixtes
Applications
MM-RAG excelle dans :
Recherche scientifique
- Récupérer des figures d'articles
- Répondre à des questions sur des résultats expérimentaux
- Comparer des données à travers études
Business Intelligence
- Interroger des tableaux de bord et rapports
- Extraire des insights de graphiques
- Analyser des données tabulaires
Documentation technique
- Trouver des diagrammes pertinents
- Comprendre l'architecture à partir de visuels
- Connecter les explications textuelles avec les illustrations
Éducation
- Matériel d'apprentissage visuel
- Q&A interactif sur manuels
- Explications basées sur diagrammes
Considérations d'implémentation
Coûts computationnels
Le traitement des images et tableaux est coûteux :
- Encodage d'images : 10x plus lent que le texte
- Analyse de tableaux : 5x plus lent que le texte
- LLMs multimodaux : 2-3x plus chers
Besoins en stockage
L'embedding de toutes les modalités augmente le stockage :
- Texte : 768-1536 dimensions
- Images : 512-1024 dimensions + image originale
- Tableaux : Représentation structurée + embeddings
Estimation : augmentation de stockage de 3-5x vs. RAG texte seul
Dépendances de qualité
La qualité de MM-RAG dépend de :
- La précision OCR pour les documents scannés
- La qualité de l'extraction de tableaux
- La résolution et clarté des images
- Les capacités du LLM multimodal
Publication open source
L'équipe a publié :
- Le framework MM-RAG (licence Apache 2.0)
- Le dataset benchmark MixedQA
- Des encodeurs cross-modaux pré-entraînés
- Des scripts d'évaluation
Disponible sur : github.com/stanford-futuredata/mm-rag
Adoption industrielle
Les premiers utilisateurs incluent :
- Des plateformes de documentation technique
- Des outils d'analyse de documents juridiques
- Des moteurs de recherche de littérature scientifique
- Des fournisseurs de business intelligence
Limitations
Les limitations actuelles incluent :
- Vidéo pas encore supportée
- Traitement audio limité
- Défis de performance en temps réel
- Besoins en ressources élevés
Travaux futurs
Améliorations prévues :
- Récupération de frames vidéo
- Intégration de transcription audio
- Réduction de la charge computationnelle
- Meilleure gestion des mises en page complexes
Conclusion
MM-RAG représente une étape significative vers de véritables assistants IA multimodaux capables de comprendre et raisonner à travers tous les types de contenu dans les documents, pas seulement le texte. À mesure que les LLMs multimodaux s'améliorent, des systèmes comme MM-RAG deviendront de plus en plus pratiques pour des applications réelles.
Tags
Articles connexes
Microsoft Research introduit GraphRAG : combinaison des graphes de connaissances avec le RAG
Microsoft Research dévoile GraphRAG, une nouvelle approche qui combine le RAG avec les graphes de connaissances pour améliorer la compréhension contextuelle
Percée de décomposition de requête : DecomposeRAG gère les questions complexes 50% mieux
Les chercheurs d'UC Berkeley introduisent DecomposeRAG, un framework de décomposition de requête automatisé qui améliore significativement les réponses aux questions multi-sauts.
Évaluation automatique du RAG : nouveau framework atteint 95% de corrélation avec les jugements humains
Google Research introduit AutoRAGEval, un framework d'évaluation automatisé qui évalue fiablement la qualité du RAG sans annotation humaine.