热门

INTELLECT-1-Instruct

1年前发布 12 00

INTELLECT-1-Instruct是一个由Prime Intellect训练的10亿参数语言模型，从零开始在1万亿个英文文本和代码token上进行训练。该模型支持文本生成，并且具有分布式训练的能力，能够在不可靠的、全球分布的工作者上进行高性能训练。它使用了DiLoCo算法进行训练，并利用自定义的int8 all-reduce内核来减...

收录时间：

2025-06-02

打开网站手机查看

文案写作 # 分布式训练 # 大规模参数 # 文本生成 # 自然语言处理

INTELLECT-1-Instruct

INTELLECT-1-Instruct

INTELLECT-1-Instruct是一个由Prime Intellect训练的10亿参数语言模型，从零开始在1万亿个英文文本和代码token上进行训练。该模型支持文本生成，并且具有分布式训练的能力，能够在不可靠的、全球分布的工作者上进行高性能训练。它使用了DiLoCo算法进行训练，并利用自定义的int8 all-reduce内核来减少通信负载，显著降低了通信开销。这个模型的背景信息显示，它是由30个独立的社区贡献者提供计算支持，并在3个大洲的14个并发节点上进行训练。

数据统计

相关导航

EXAONE-3.5-2.4B-Instruct-GGUF

EXAONE-3.5-2.4B-Instruct-GGUF是由LG AI Research开发的一系列双语（英语和韩语）指令调优的生成型模型，参数范围从2.4B到32B。这些模型支持长达32K令牌的长上下文处理，并在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与近期发布的类似大小模型相比，在通用领域保持竞争力。该模型的重要性在于其优化了在小型或资源受限设备上的部署，同时提供了强大的性能。

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

olmOCR-7B-0225-preview

olmOCR-7B-0225-preview 是由 Allen Institute for AI 开发的先进文档识别模型，旨在通过高效的图像处理和文本生成技术，将文档图像快速转换为可编辑的纯文本。该模型基于 Qwen2-VL-7B-Instruct 微调，结合了强大的视觉和语言处理能力，适用于大规模文档处理任务。其主要优点包括高效处理能力、高精度文本识别以及灵活的提示生成方式。该模型适用于研究和教育用途，遵循 Apache 2.0 许可证，强调负责任的使用。

Aya Expanse-8b

Aya Expanse是一个具有高级多语言能力的开放权重研究模型。它专注于将高性能的预训练模型与Cohere For AI一年的研究成果相结合，包括数据套利、多语言偏好训练、安全调整和模型合并。该模型是一个强大的多语言大型语言模型，服务于23种语言，包括阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。

kg-gen

kg-gen 是一个基于人工智能的工具，能够从普通文本中提取知识图谱。它支持处理小到单句话、大到长篇文档的文本输入，并且可以处理对话格式的消息。该工具利用先进的语言模型和结构化输出技术，能够帮助用户快速构建知识图谱，适用于自然语言处理、知识管理以及模型训练等领域。kg-gen 提供了灵活的接口和多种功能，旨在简化知识图谱的生成过程，提高效率。

InternVL2_5-38B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化（MPO）构建。该系列模型在多模态任务中表现出色，能够处理图像、文本和视频数据，并生成高质量的文本响应。模型采用'ViT-MLP-LLM'范式，通过像素unshuffle操作和动态分辨率策略优化视觉处理能力。此外，模型还引入了多图像和视频数据的支持，进一步扩展了其应用场景。InternVL2.5-MPO在多模态能力评估中超越了多个基准模型，证明了其在多模态领域的领先地位。

MaskGCT TTS Demo

MaskGCT TTS Demo 是一个基于MaskGCT模型的文本到语音（TTS）演示，由Hugging Face平台上的amphion提供。该模型利用深度学习技术，将文本转换为自然流畅的语音，适用于多种语言和场景。MaskGCT模型因其高效的语音合成能力和对多种语言的支持而受到关注。它不仅可以提高语音识别和合成的准确性，还能在不同的应用场景中提供个性化的语音服务。目前，该产品在Hugging Face平台上提供免费试用，具体价格和定位信息需进一步了解。

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外，Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

暂无评论

您必须登录才能参与评论！

none

暂无评论...