热门

InternVL2_5-1B

1年前发布 15 00

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM)，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，保持了其核心模型架构。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型(LLMs)，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器...

收录时间：

2025-06-02

打开网站手机查看

文案写作 # 图像识别 # 多模态 # 大型语言模型 # 文本理解 # 机器学习

InternVL2_5-1B

InternVL2_5-1B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM)，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，保持了其核心模型架构。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型(LLMs)，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5支持多图像和视频数据，通过动态高分辨率训练方法，增强了模型处理多模态数据的能力。

数据统计

相关导航

HuatuoGPT-o1-8B

HuatuoGPT-o1-8B 是一个专为高级医疗推理设计的医疗领域大型语言模型（LLM）。它在提供最终响应之前会生成一个复杂的思考过程，反映并完善其推理过程。该模型基于LLaMA-3.1-8B构建，支持英文，并且采用'thinks-before-it-answers'的方法，输出格式包括推理过程和最终响应。此模型在医疗领域具有重要意义，因为它能够处理复杂的医疗问题并提供深思熟虑的答案，这对于提高医疗决策的质量和效率至关重要。

voyage-multimodal-3

Voyage AI推出的voyage-multimodal-3是一款多模态嵌入模型，它能够将文本和图像（包括PDF、幻灯片、表格等的截图）进行向量化处理，并捕捉关键视觉特征，从而提高文档检索的准确性。这一技术的进步，对于知识库中包含视觉和文本的丰富信息的RAG和语义搜索具有重要意义。voyage-multimodal-3在多模态检索任务中平均提高了19.63%的检索准确率，相较于其他模型表现出色。

dolmino-mix-1124

DOLMino dataset mix for OLMo2 stage 2 annealing training是一个混合了多种高质数据的数据集，用于在OLMo2模型训练的第二阶段。这个数据集包含了网页页面、STEM论文、百科全书等多种类型的数据，旨在提升模型在文本生成任务中的表现。它的重要性在于为开发更智能、更准确的自然语言处理模型提供了丰富的训练资源。

ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入，并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景，如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可，由Fixie.ai开发。

Ollama OCR for web

ollama-ocr是一个基于ollama的光学字符识别（OCR）模型，能够从图像中提取文本。它利用先进的视觉语言模型，如LLaVA、Llama 3.2 Vision和MiniCPM-V 2.6，提供高精度的文本识别。该模型对于需要从图片中获取文本信息的场景非常有用，如文档扫描、图像内容分析等。它开源免费，易于集成到各种项目中。

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型（MLLM），它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型采用'ViT-MLP-LLM'架构，集成了新增量预训练的InternViT与多种预训练语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能，包括图像和视频理解、多语言理解等。

Llama-3.1-Tulu-3-70B

Llama-3.1-Tulu-3-70B是Tülu3模型家族中的一员，专为现代后训练技术提供全面的指南。该模型不仅在聊天任务上表现出色，还在MATH、GSM8K和IFEval等多种任务上展现出了卓越的性能。作为一个开源模型，它允许研究人员和开发者访问和使用其数据和代码，以推动自然语言处理技术的发展。

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

暂无评论

您必须登录才能参与评论！

none

暂无评论...