Argmax WhisperKit
WhisperKit由Argmax公司推出,是一个基于Whisper项目的推理工具包,它允许在iOS和macOS应用程序中进行语音识别和转录。该项目的目标是收集开发者反馈,并在几周内发布一个稳定的候选版本,以加速设备上推理的生产化。
Open-MAGVIT2是由腾讯ARC实验室开源的一个自回归图像生成模型系列,包含从300M到1.5B不同规模的模型。该项目复现了Google的MAGVIT-v2分词器,实现了在ImageNet 256×256数据集上达到1.17 rFID的先进重建性能。通过引入不对称分词技术,将大词汇表分解为不同大小的子词汇表,并引入’下一个子标记预测’来增强子标记间的交互,以提高生成质量。所有模型和代码均已开源,旨在推动自回归视觉生成领域的创新和创造力。