热门

Transcribro

1年前发布 12 00

Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用，它使用whisper.cpp来运行OpenAI Whisper系列模型，并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘，允许用户通过语音进行文字输入，并且可以被其他应用显式使用，或者设置为用户选择的语音转文字应用，部分应用...

收录时间：

2025-05-29

打开网站手机查看

语音处理 # android # 开源 # 语音识别 # 键盘 # 隐私保护

Transcribro

Transcribro

Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用，它使用whisper.cpp来运行OpenAI Whisper系列模型，并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘，允许用户通过语音进行文字输入，并且可以被其他应用显式使用，或者设置为用户选择的语音转文字应用，部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案，避免了云端处理可能带来的隐私泄露问题。该应用是开源的，用户可以自由地查看、修改和分发代码。

数据统计

相关导航

EMOVA

EMOVA（EMotionally Omni-present Voice Assistant）是一个多模态语言模型，它能够进行端到端的语音处理，同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器，实现了情感丰富的多模态对话，并在视觉-语言和语音基准测试中达到了最先进的性能。

Omi AI

OMI APP是一个任务驱动的个性化AI助手，旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本，提供提醒、建议等功能，同时注重用户隐私。

OpenVoiceChat

OpenVoiceChat是一个开源项目，旨在提供一个与大型语言模型（LLM）进行自然语音对话的平台。它支持多种语音识别（STT）、文本到语音（TTS）和LLM模型，允许用户通过语音与AI进行交互。项目采用Apache-2.0许可，强调开放性和易用性，目标是成为封闭商业实现的开源替代品。

AI-Powered Meeting Summarizer

AI-Powered Meeting Summarizer是一个基于Gradio的网站应用，能够将会议录音转换为文本，并使用whisper.cpp进行音频到文本的转换，以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。

FireRedASR-AED-L

FireRedASR-AED-L 是一个开源的工业级自动语音识别模型，专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器架构，支持普通话、中文方言和英语等多种语言。它在公共普通话语音识别基准测试中达到了新的最高水平，并且在歌唱歌词识别方面表现出色。该模型的主要优点包括高性能、低延迟和广泛的适用性，适用于各种语音交互场景。其开源特性使得开发者可以自由地使用和修改代码，进一步推动语音识别技术的发展。

kokoro-onnx

kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音（TTS）项目。它支持英语，并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能，并提供多种声音选择，包括耳语。模型轻量级，约为300MB（量化后约为80MB）。该项目在GitHub上开源，采用MIT许可证，方便开发者集成和使用。

WeST

WeST是一个开源的语音识别转录模型，以300行代码的简洁形式，基于大型语言模型（LLM）实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成，其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1，旨在通过简化的代码实现高效的语音识别功能。

whisper-ner-v1

Whisper-NER是一个创新的模型，它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别（NER），能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别（ASR）和NER下游任务的强大基础模型，并且可以在特定数据集上进行微调以提高性能。

暂无评论

您必须登录才能参与评论！

none

暂无评论...