Llama-3.1-Tulu-3-70B-DPO

1年前发布 17 00

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分,专为现代后训练技术提供全面指南。该模型家族旨在除了聊天之外的多种任务上实现最先进的性能,如MATH、GSM8K和IFEval。它是基于公开可用的、合成的和人为创建的数据集训练的模型,主要使用英语,并遵循Llama 3.1社区许可协议。

收录时间:
2025-05-29
Llama-3.1-Tulu-3-70B-DPOLlama-3.1-Tulu-3-70B-DPO

Llama-3.1-Tulu-3-70B-DPO是Tülu3模型家族的一部分,专为现代后训练技术提供全面指南。该模型家族旨在除了聊天之外的多种任务上实现最先进的性能,如MATH、GSM8K和IFEval。它是基于公开可用的、合成的和人为创建的数据集训练的模型,主要使用英语,并遵循Llama 3.1社区许可协议。

一丢导航 - 上一丢,不易丢

数据统计

相关导航

EXAONE-3.5-7.8B-Instruct-AWQ

EXAONE-3.5-7.8B-Instruct-AWQ

EXAONE 3.5是LG AI Research开发的一系列指令调优的双语(英语和韩语)生成模型,参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理,并在真实世界用例和长上下文理解方面展现出最先进的性能,同时在与最近发布的类似大小模型相比的一般领域中保持竞争力。EXAONE 3.5模型包括:1) 2.4B模型,优化用于小型或资源受限设备的部署;2) 7.8B模型,与前代模型大小相匹配,但提供改进的性能;3) 32B模型,提供强大的性能。
Eurus-2-7B-PRIME

Eurus-2-7B-PRIME

PRIME-RL/Eurus-2-7B-PRIME是一个基于PRIME方法训练的7B参数的语言模型,旨在通过在线强化学习提升语言模型的推理能力。该模型从Eurus-2-7B-SFT开始训练,利用Eurus-2-RL-Data数据集进行强化学习。PRIME方法通过隐式奖励机制,使模型在生成过程中更加注重推理过程,而不仅仅是结果。该模型在多项推理基准测试中表现出色,相较于其SFT版本平均提升了16.7%。其主要优点包括高效的推理能力提升、较低的数据和模型资源需求,以及在数学和编程任务中的优异表现。该模型适用于需要复杂推理能力的场景,如编程问题解答和数学问题求解。
Aquila-VL-2B-llava-qwen

Aquila-VL-2B-llava-qwen

Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型(VLM),选用Qwen2.5-1.5B-instruct模型作为语言模型(LLM),并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练,包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源,旨在推动多模态性能的发展,特别是在图像和文本的结合处理方面。
Chat.com

Chat.com

ChatGPT是由OpenAI训练的对话生成模型,能够以对话形式与人互动,回答后续问题,承认错误,挑战错误的前提,并拒绝不适当的请求。OpenAI日前买下了http://chat.com域名,该域名已经指向了ChatGPT。ChatGPT它是InstructGPT的姊妹模型,后者被训练以遵循提示中的指令并提供详细的回答。ChatGPT代表了自然语言处理技术的最新进展,其重要性在于能够提供更加自然和人性化的交互体验。产品背景信息包括其在2022年11月30日的发布,以及在研究预览期间免费提供给用户使用。
Qwen2-VL-7B

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频,为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外,Qwen2-VL还支持多语言,除了英语和中文,还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE),增强了其多模态处理能力。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...