Visão GPT-4 desatualizada? Descubra as alternativas open source do LLaVA 1.5 que vão surpreender você!
Uma alternativa de código aberto ao GPT-4 Vision
A inteligência artificial generativa teve uma rápida evolução com o surgimento de modelos de linguagem multimodais (LMMs), como o GPT-4 Vision da OpenAI. No entanto, o aspecto fechado e comercial de algumas destas tecnologias pode limitar a sua adopção universal. É neste contexto que a comunidade open source oferece uma alternativa promissora com o LLaVA 1.5.
Como funcionam os LMMs
Os LMMs usam uma arquitetura multicamadas que combina um modelo pré-treinado para processar elementos visuais, um modelo de linguagem grande (LLM) para compreender e responder às instruções do usuário e um conector multimodal para vincular visão e linguagem. O treinamento dos LMMs é feito em duas etapas: uma fase inicial de alinhamento entre visão e linguagem, seguida de ajuste fino para responder às solicitações visuais. Este processo é muito intensivo em termos computacionais e requer um banco de dados rico e preciso.
As vantagens do LLaVA 1.5
LLaVA 1.5 utiliza o modelo CLIP para processamento visual e Vicuna para linguagem. Ao contrário do modelo original, LLaVA, que aproveitou as versões de texto do ChatGPT e GPT-4, o LLaVA 1.5 conecta o modelo de linguagem e o codificador visual usando um perceptron multicamadas (MLP). Esta atualização enriqueceu o banco de dados de treinamento com perguntas e respostas visuais, totalizando aproximadamente 600 mil exemplos. O LLaVA 1.5 superou, portanto, outros LMMs de código aberto em 11 dos 12 benchmarks multimodais.
O futuro dos LMMs de código aberto
O LLaVA 1.5 oferece resultados promissores, mesmo com um orçamento limitado, graças à sua demonstração online acessível. No entanto, importa referir que a utilização dos dados gerados pelo ChatGPT está limitada a fins não comerciais. Apesar desta limitação, o LLaVA 1.5 abre caminho para o futuro dos LMMs de código aberto em termos de relação custo-benefício, escalabilidade na geração de dados de treinamento e eficiência no ajuste de instruções visuais. Este modelo representa, portanto, um prelúdio para futuras inovações em inteligência artificial.
LLaVA 1.5 marca o início de uma nova era para LMMs de código aberto. Ao antecipar modelos mais eficientes e acessíveis, podemos imaginar um futuro onde a tecnologia generativa de IA estará ao alcance de todos, revelando o potencial ilimitado da inteligência artificial.
You May Also Like
Análise de Cédric Annicette em Waxoo.fr
Outubro 2, 2024
Newegg usa inteligência artificial para resumir avaliações de clientes
Outubro 2, 2024