热门

InternVL2_5-26B-MPO

1年前发布 13 00

InternVL2_5-26B-MPO是一个多模态大型语言模型（MLLM），它在InternVL2.5的基础上，通过混合偏好优化（Mixed Preference Optimization, MPO）进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据，广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内...

收录时间：

2025-05-29

打开网站手机查看

智能聊天机器人 # 图像描述 # 多模态 # 大型语言模型 # 混合偏好优化 # 视觉问答

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO是一个多模态大型语言模型（MLLM），它在InternVL2.5的基础上，通过混合偏好优化（Mixed Preference Optimization, MPO）进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据，广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内容紧密相关的文本，推动了多模态人工智能的边界。产品背景信息包括其在多模态任务中的卓越性能，以及在OpenCompass Learderboard中的评估结果。该模型为研究者和开发者提供了强大的工具，以探索和实现多模态人工智能的潜力。

数据统计

相关导航

岩芯数智

岩芯数智是一家专注于人工智能领域的公司，提供多种智能模型服务，包括Yan模型和Dolphin模型。Yan模型是国产化的大模型，支持多模态，承诺为用户提供训练周期短、数据集需求小、性价比更高的服务，帮助各产业链快速、低成本向智能化转型。Dolphin模型则提供智能对话、文章生成、文案摘要等功能，支持私域模型微调，以满足不同行业的需求。

DeepSeek-VL2-Small

DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等多种任务上展现出卓越的能力。DeepSeek-VL2由三种变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有10亿、28亿和45亿激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集型和基于MoE的模型相比，达到了竞争性或最先进的性能。

Coding-Tutor

Coding-Tutor是一个基于大型语言模型（LLM）的编程辅导工具，旨在通过对话式交互帮助学习者提升编程能力。它通过Trace-and-Verify（Traver）工作流，结合知识追踪和逐轮验证，解决编程辅导中的关键挑战。该工具不仅适用于编程教育，还可扩展到其他任务辅导场景，帮助根据学习者的知识水平调整教学内容。项目开源，支持社区贡献。

DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型，基于 Llama-70B 架构并通过强化学习进行优化。该模型在推理、对话和多语言任务中表现出色，支持多种应用场景，包括代码生成、数学推理和自然语言处理。其主要优点是高效的推理能力和对复杂问题的解决能力，同时支持开源和商业使用。该模型适用于需要高性能语言生成和推理能力的企业和研究机构。

DeepSeek-VL2

DeepSeek-VL2是一系列大型Mixture-of-Experts视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等任务上展现出卓越的能力。DeepSeek-VL2包含三个变体：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集和MoE基础模型相比，达到了竞争性或最先进的性能。

2233.ai

2233.ai是一个提供即买即用人工智能对话服务的网站。用户无需注册账号即可购买并使用服务，享受原生的ChatGPT Plus或Claude Pro体验。该平台强调个人隐私保护，每位用户的对话记录独立存储，确保私密安全。此外，2233.ai承诺无网络限制或封号问题，用户可以随时随地接入服务。价格方面，2233.ai提供的服务价格不到ChatGPT Plus订阅的一半，让更多人能够以更优惠的价格享受到先进的人工智能技术。

OmAgent.com

OmAgent是一个多模态原生代理框架，用于智能设备等。它采用分治算法高效解决复杂任务，能预处理长视频并以类似人类的精度进行问答，还能基于用户请求和可选天气条件提供个性化服装建议等。目前官网未明确显示价格，但从功能来看，主要面向需要高效任务处理和智能交互的用户群体，如开发者、企业等。

SlowFast-LLaVA

SlowFast-LLaVA是一个无需训练的多模态大型语言模型，专为视频理解和推理设计。它无需在任何数据上进行微调，就能在多种视频问答任务和基准测试中达到与最先进视频大型语言模型相当甚至更好的性能。

暂无评论

您必须登录才能参与评论！

none

暂无评论...