Growth Hacking Experts » GTP4title_li=人工智能新闻title_li=拉瓦1.5 » GPT-4 Vision 过时了吗?发现 LLaVA 1.5 的开源替代品,这会让您惊叹不已!
GTP4,  人工智能新闻,  拉瓦1.5

GPT-4 Vision 过时了吗?发现 LLaVA 1.5 的开源替代品,这会让您惊叹不已!

GPT-4 Vision 的开源替代品

随着 OpenAI 的 GPT-4 Vision 等多模态语言模型 (LMM) 的出现,生成式人工智能得到了快速发展。然而,其中一些技术的封闭性和商业性可能会限制它们的普遍采用。正是在这种背景下,开源社区提供了一个有前途的替代方案 LLaVA 1.5。

LMM 的工作原理

LMM 使用多层架构,结合了用于处理视觉元素的预训练模型、用于理解和响应用户指令的大型语言模型 (LLM) 以及用于链接视觉和语言的多模式连接器。 LMM 的训练分两个阶段完成:视觉和语言之间对齐的初始阶段,然后进行微调以响应视觉请求。这个过程的计算量非常大,需要丰富而精确的数据库。

LLaVA 1.5的优点

LLaVA 1.5 使用 CLIP 模型进行视觉处理,使用 Vicuna 进行语言处理。与利用 ChatGPT 和 GPT-4 文本版本的原始模型 LLaVA 不同,LLaVA 1.5 使用多层感知器 (MLP) 连接语言模型和视觉编码器。此次更新通过可视化问题和答案丰富了培训数据库,总计约 600,000 个示例。因此,LLaVA 1.5 在 12 个多模式基准测试中的 11 个上优于其他开源 LMM。

开源 LMM 的未来

由于其易于访问的在线演示,LLaVA 1.5 即使在预算有限的情况下也能提供有希望的结果。但需要注意的是,ChatGPT 生成的数据的使用仅限于非商业目的。尽管存在这一限制,LLaVA 1.5 在成本效益、生成训练数据的可扩展性以及调整视觉指令的效率方面为开源 LMM 的未来铺平了道路。因此,这个模型代表了人工智能未来创新的前奏。

LLaVA 1.5 标志着开源 LMM 新时代的开始。通过预期更高效、更易于使用的模型,我们可以设想一个未来,每个人都可以使用生成式人工智能技术,从而揭示人工智能的无限潜力。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注