DeepSeek-VL2-Tiny

1年前发布 15 00

DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型,相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解、视觉定位等多项任务中展现出卓越的能力。DeepSeek-VL2由三种变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSe...

收录时间:
2025-05-29
DeepSeek-VL2-TinyDeepSeek-VL2-Tiny

DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型,相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解、视觉定位等多项任务中展现出卓越的能力。DeepSeek-VL2由三种变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下,与现有的开源密集型和基于MoE的模型相比,达到了竞争性或最先进的性能。

一丢导航 - 上一丢,不易丢

数据统计

相关导航

Qwen2.5-VL

Qwen2.5-VL

Qwen2.5-VL 是 Qwen 团队推出的最新旗舰视觉语言模型,是视觉语言模型领域的重要进步。它不仅能够识别常见物体,还能分析图像中的文字、图表、图标等复杂内容,并支持对长视频的理解和事件定位。该模型在多个基准测试中表现出色,尤其在文档理解和视觉代理任务中具有显著优势,展现了强大的视觉理解和推理能力。其主要优点包括高效的多模态理解、强大的长视频处理能力以及灵活的工具调用能力,适用于多种应用场景。
SigLIP2

SigLIP2

SigLIP2 是谷歌开发的多语言视觉语言编码器,具有改进的语义理解、定位和密集特征。它支持零样本图像分类,能够通过文本描述直接对图像进行分类,无需额外训练。该模型在多语言场景下表现出色,适用于多种视觉语言任务。其主要优点包括高效的语言图像对齐能力、支持多种分辨率和动态分辨率调整,以及强大的跨语言泛化能力。SigLIP2 的推出为多语言视觉任务提供了新的解决方案,尤其适合需要快速部署和多语言支持的场景。
VideoLLaMA3

VideoLLaMA3

VideoLLaMA3是由DAMO-NLP-SG团队开发的前沿多模态基础模型,专注于图像和视频理解。该模型基于Qwen2.5架构,结合了先进的视觉编码器(如SigLip)和强大的语言生成能力,能够处理复杂的视觉和语言任务。其主要优点包括高效的时空建模能力、强大的多模态融合能力以及对大规模数据的优化训练。该模型适用于需要深度视频理解的应用场景,如视频内容分析、视觉问答等,具有广泛的研究和商业应用潜力。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...