热门

Valley-Eagle-7B

1年前发布 14 00

Valley-Eagle-7B是由字节跳动开发的多模态大型模型，旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，并在OpenCompass测试中展现出与同规模模型相比的卓越性能。Valley-Eagle-7B结合了LargeMLP和ConvAdapter构建投影器，并引入了VisionEn...

收录时间：

2025-05-29

打开网站手机查看

文案写作 # 图像识别 # 多模态 # 大型模型 # 文本处理 # 视频分析

Valley-Eagle-7B

Valley-Eagle-7B

Valley-Eagle-7B是由字节跳动开发的多模态大型模型，旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，并在OpenCompass测试中展现出与同规模模型相比的卓越性能。Valley-Eagle-7B结合了LargeMLP和ConvAdapter构建投影器，并引入了VisionEncoder，以增强模型在极端场景下的性能。

数据统计

相关导航

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型（MLLM），它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型采用'ViT-MLP-LLM'架构，集成了新增量预训练的InternViT与多种预训练语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能，包括图像和视频理解、多语言理解等。

voyage-multimodal-3

Voyage AI推出的voyage-multimodal-3是一款多模态嵌入模型，它能够将文本和图像（包括PDF、幻灯片、表格等的截图）进行向量化处理，并捕捉关键视觉特征，从而提高文档检索的准确性。这一技术的进步，对于知识库中包含视觉和文本的丰富信息的RAG和语义搜索具有重要意义。voyage-multimodal-3在多模态检索任务中平均提高了19.63%的检索准确率，相较于其他模型表现出色。

InternVL2_5-2B

InternVL 2.5 是一个先进的多模态大型语言模型系列，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，维持了其核心模型架构。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，例如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5 支持多图像和视频数据，具备动态高分辨率训练方法，能够在处理多模态数据时提供更好的性能。

Pixtral Large

Pixtral Large是Mistral AI推出的一款前沿级多模态AI模型，基于Mistral Large 2构建，具备领先的图像理解能力，能够理解文档、图表和自然图像，同时保持Mistral Large 2在文本理解方面的领先地位。该模型在多模态基准测试中表现优异，特别是在MathVista、ChartQA和DocVQA等测试中超越了其他模型。Pixtral Large在MM-MT-Bench测试中也展现了竞争力，超越了包括Claude-3.5 Sonnet在内的多个模型。该模型适用于研究和教育用途的Mistral Research License (MRL)，以及适用于商业用途的Mistral Commercial License。

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

Magma-8B

Magma-8B 是微软开发的一款多模态 AI 基础模型，专为研究多模态 AI 代理而设计。它结合了文本和图像输入，能够生成文本输出，并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干，并结合 CLIP-ConvNeXt-XXLarge 视觉编码器，支持从无标签视频数据中学习时空关系，具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色，特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具，推动了虚拟和现实环境中复杂交互的研究。

Pretty Prompt

Pretty Prompt是一个帮助用户将任何文本转化为高效提示的工具。它能够提升人工智能的准确性，节省时间，适用于各种AI交互场景。Pretty Prompt背后的技术优势，让用户能够在一键操作下得到所需的输出，从而提高工作效率。

Chonkie

Chonkie是一个为检索增强型生成（RAG）应用设计的文本分块库，它轻量级、快速，并且易于使用。该库提供了多种文本分块方法，支持多种分词器，并且具有高性能。Chonkie的主要优点包括丰富的功能、易用性、快速处理速度、广泛的支持和轻量级的设计。它适用于需要高效处理文本数据的开发者和研究人员，特别是在自然语言处理和机器学习领域。Chonkie是开源的，遵循MIT许可证，可以免费使用。

暂无评论

您必须登录才能参与评论！

none

暂无评论...