GPT-4 Vision dépassé ? Découvrez les alternatives open source de LLaVA 1.5 qui vont vous épater !

Une alternative open source à GPT-4 Vision

L’intelligence artificielle générative a connu une évolution rapide avec l’émergence des modèles langage multimodaux (LMM), tels que GPT-4 Vision d’OpenAI. Cependant, l’aspect fermé et commercial de certaines de ces technologies peut limiter leur adoption universelle. C’est dans ce contexte que la communauté open source propose une alternative prometteuse avec LLaVA 1.5.

Le fonctionnement des LMM

Les LMM utilisent une architecture multicouche qui combine un modèle pré-entraîné pour le traitement des éléments visuels, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, et un connecteur multimodal pour relier la vision et le langage. La formation des LMM se fait en deux étapes : une première phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus est très gourmand en ressources computationnelles et nécessite une base de données riche et précise.

Les avantages de LLaVA 1.5

LLaVA 1.5 utilise le modèle CLIP pour le traitement visuel et Vicuna pour le langage. Contrairement au modèle original, LLaVA, qui exploitait les versions texte de ChatGPT et GPT-4, LLaVA 1.5 connecte le modèle de langage et l’encodeur visuel à l’aide d’un perceptron multicouche (MLP). Cette mise à jour a permis d’enrichir la base de données d’entraînement avec des questions-réponses visuelles, totalisant environ 600 000 exemples. LLaVA 1.5 a ainsi surpassé d’autres LMM open source sur 11 des 12 benchmarks multimodaux.

L’avenir des LMM open source

LLaVA 1.5 offre des résultats prometteurs, même avec un budget limité, grâce à sa démonstration accessible en ligne. Cependant, il convient de noter que l’utilisation des données générées par ChatGPT est limitée à des fins non commerciales. Malgré cette limitation, LLaVA 1.5 ouvre la voie à l’avenir des LMM open source en termes de rentabilité, d’évolutivité dans la génération de données d’entraînement et d’efficacité dans l’ajustement des instructions visuelles. Ce modèle représente ainsi un prélude aux futures innovations de l’intelligence artificielle.

LLaVA 1.5 marque le début d’une nouvelle ère pour les LMM open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un avenir où la technologie générative d’IA sera à la portée de tous, révélant ainsi le potentiel illimité de l’intelligence artificielle.