SmolLM2-1.7B

1年前发布 12 00

SmolLM2是一系列轻量级的语言模型,包含135M、360M和1.7B参数的版本。这些模型能够在保持轻量级的同时解决广泛的任务,特别适合在设备上运行。1.7B版本的模型在指令遵循、知识、推理和数学方面相较于前代SmolLM1-1.7B有显著进步。它使用包括FineWeb-Edu、DCLM、The Stack等多个数据集进行了训练,并且通...

收录时间:
2025-05-29
SmolLM2-1.7BSmolLM2-1.7B

SmolLM2是一系列轻量级的语言模型,包含135M、360M和1.7B参数的版本。这些模型能够在保持轻量级的同时解决广泛的任务,特别适合在设备上运行。1.7B版本的模型在指令遵循、知识、推理和数学方面相较于前代SmolLM1-1.7B有显著进步。它使用包括FineWeb-Edu、DCLM、The Stack等多个数据集进行了训练,并且通过使用UltraFeedback进行了直接偏好优化(DPO)。该模型还支持文本重写、总结和功能调用等任务。

一丢导航 - 上一丢,不易丢

数据统计

相关导航

Llama-3.1-Tulu-3-8B-DPO

Llama-3.1-Tulu-3-8B-DPO

Llama-3.1-Tulu-3-8B-DPO是Tülu3模型家族中的一员,专注于指令遵循,提供完全开源的数据、代码和配方,旨在作为现代后训练技术的全面指南。该模型专为聊天以外的多样化任务设计,如MATH、GSM8K和IFEval,以达到最先进的性能。模型主要优点包括开源数据和代码、支持多种任务、以及优秀的性能。产品背景信息显示,该模型由Allen AI研究所开发,遵循Llama 3.1社区许可协议,适用于研究和教育用途。
SmolVLM2

SmolVLM2

SmolVLM2 是一种轻量级的视频语言模型,旨在通过分析视频内容生成相关的文本描述或视频亮点。该模型具有高效性、低资源消耗的特点,适合在多种设备上运行,包括移动设备和桌面客户端。其主要优点是能够快速处理视频数据并生成高质量的文本输出,为视频内容创作、视频分析和教育等领域提供了强大的技术支持。该模型由 Hugging Face 团队开发,定位为高效、轻量化的视频处理工具,目前处于实验阶段,用户可以免费试用。
Aquila-VL-2B-llava-qwen

Aquila-VL-2B-llava-qwen

Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型(VLM),选用Qwen2.5-1.5B-instruct模型作为语言模型(LLM),并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练,包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源,旨在推动多模态性能的发展,特别是在图像和文本的结合处理方面。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...