热门

Skywork-o1-Open-PRM-Qwen-2.5-7B

1年前发布 15 00

Skywork-o1-Open-PRM-Qwen-2.5-7B是由昆仑科技Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。这个模型系列不仅在输出中展现出天生的思考、规划和反思能力，而且在标准基准测试中显示出推理技能的显著提升。它代表了AI能力的战略进步，将一个原本较弱的基础模型推向了推理任务的最新技术（SOT...

收录时间：

2025-05-30

打开网站手机查看

代码辅助 # AI推理 # 代码评估 # 多语言支持 # 机器学习 # 自然语言处理

Skywork-o1-Open-PRM-Qwen-2.5-7B

Skywork-o1-Open-PRM-Qwen-2.5-7B

Skywork-o1-Open-PRM-Qwen-2.5-7B是由昆仑科技Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。这个模型系列不仅在输出中展现出天生的思考、规划和反思能力，而且在标准基准测试中显示出推理技能的显著提升。它代表了AI能力的战略进步，将一个原本较弱的基础模型推向了推理任务的最新技术（SOTA）。

数据统计

相关导航

YuLan-Mini

YuLan-Mini是由中国人民大学AI Box团队开发的一款轻量级语言模型，具有2.4亿参数，尽管仅使用1.08T的预训练数据，但其性能可与使用更多数据训练的行业领先模型相媲美。该模型特别擅长数学和代码领域，为了促进可复现性，团队将开源相关的预训练资源。

Ministral-8B-Instruct-2410

Ministral-8B-Instruct-2410是由Mistral AI团队开发的一款大型语言模型，专为本地智能、设备端计算和边缘使用场景设计。该模型在类似的大小模型中表现优异，支持128k上下文窗口和交错滑动窗口注意力机制，能够在多语言和代码数据上进行训练，支持函数调用，词汇量达到131k。Ministral-8B-Instruct-2410模型在各种基准测试中表现出色，包括知识与常识、代码与数学以及多语言支持等方面。该模型在聊天/竞技场（gpt-4o判断）中的性能尤为突出，能够处理复杂的对话和任务。

Sonus-1

Sonus-1是Sonus AI推出的一系列大型语言模型（LLMs），旨在推动人工智能的边界。这些模型以其高性能和多应用场景的多功能性而设计，包括Sonus-1 Mini、Sonus-1 Air、Sonus-1 Pro和Sonus-1 Pro (w/ Reasoning)等不同版本，以满足不同需求。Sonus-1 Pro (w/ Reasoning)在多个基准测试中表现突出，特别是在推理和数学问题上，展现了其超越其他专有模型的能力。Sonus AI致力于开发高性能、可负担、可靠且注重隐私的大型语言模型。

Bakery

Bakery是一个专注于开源AI模型的微调与变现的在线平台，为AI初创企业、机器学习工程师和研究人员提供了一个便捷的工具，使他们能够轻松地对AI模型进行微调，并在市场中进行变现。该平台的主要优点在于其简单易用的界面和强大的功能，用户可以快速创建或上传数据集，微调模型设置，并在市场中进行变现。Bakery的背景信息表明，它旨在推动开源AI技术的发展，并为开发者提供更多的商业机会。虽然具体的定价信息未在页面中明确展示，但其定位是为AI领域的专业人士提供一个高效的工具。

bRAG-langchain

bRAG-langchain是一个开源项目，专注于Retrieval-Augmented Generation (RAG)技术的研究与应用。RAG是一种结合了检索和生成的AI技术，通过检索相关文档并生成回答，为用户提供更准确、更丰富的信息。该项目提供了从基础到高级的RAG实现指南，帮助开发者快速上手并构建自己的RAG应用。其主要优点是开源、灵活且易于扩展，适合各种需要自然语言处理和信息检索的应用场景。

github-assistant

GitHub Assistant 是一款创新的编程辅助工具，它利用自然语言处理技术，使用户能够通过简单的语言问题来探索和理解GitHub上的各种代码仓库。该工具的主要优点在于其易用性和高效性，用户无需具备复杂的编程知识即可快速获取所需信息。产品由 assistant-ui 和 relta 共同开发，旨在为开发者提供一个更加便捷和直观的代码探索方式。GitHub Assistant 的定位是为编程人员提供一个强大的辅助工具，帮助他们更好地理解和利用开源代码资源。

Agentless

Agentless是一种无需代理的自动解决软件开发问题的方法。它通过定位、修复和补丁验证三个阶段来解决每个问题。Agentless利用分层过程定位故障到特定文件、相关类或函数，以及细粒度的编辑位置。然后，Agentless根据编辑位置采样多个候选补丁，并选择回归测试来运行，生成额外的复现测试以复现原始错误，并使用测试结果重新排名所有剩余补丁，以选择一个提交。Agentless是目前在SWE-bench lite上表现最佳的开源方法，具有82个修复（27.3%的解决率），平均每问题成本0.34美元。

FullStack Bench

FullStack Bench是一个多语言的全栈编程基准测试，涵盖了广泛的应用领域和16种编程语言的3K测试样本，显著推动了代码语言模型在现实世界代码开发场景中的相关能力。该产品代表了编程语言模型在全栈开发领域的应用，其重要性在于能够评估和提升模型在实际编程任务中的表现，对于开发者和AI研究者来说都是一个宝贵的资源。

暂无评论

您必须登录才能参与评论！

none

暂无评论...