Whisper – 本地语音转文字工具,支持 GPU、支持实时语音转换[Windows]

Whisper 是一个由 OpenAI 训练并开源的神经网络,在英语语音识别方面的稳健性和准确性接近人类水平。whisper.cpp 项目是将 Whisper 移植到 C/C++ 中,而今天介绍的 Const-me/Whisper 项目则是 whisper.cpp 在 Windows 上的实现,并增加了显卡的支持,使得速度大幅提升。@appinn

Whisper - 本地语音转文字工具,支持 GPU、支持实时语音转换[Windows]

来自发现频道,@JoeCubber 同学推荐:https://meta.appinn.net/t/topic/41478

语音转录工具,类似青小蛙之前推的buzz,但是使用GPU速度更快

Buzz 是青小蛙在去年 11 月推荐的一个工具:Buzz – 开源、可离线的实时语音转文字工具,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。

下载 Whisper 模型

而 Const-me 的这个名为 Whisper 的项目,目前仅提供 Windows 版本,使用简单,需要先下载模型:

开发者推荐 ggml-medium.bin,因为一直在使用这个模型进行测试,1.53 GB 大小。

使用 Whisper

在 Model Path 里面选择你下载的模型,然后选择 GPU 就能进入软件了。

Whisper - 本地语音转文字工具,支持 GPU、支持实时语音转换[Windows] 1

之后,就可以选择通过麦克风实时转换,或者使用音频文件比如 MP3 来转换为文字了:

Whisper - 本地语音转文字工具,支持 GPU、支持实时语音转换[Windows] 2

青小蛙随便测试了一个极客湾的视频(仅下载了音频),效果如下:

Whisper - 本地语音转文字工具,支持 GPU、支持实时语音转换[Windows] 3

准确度很高,基本上比较满意。

由于是在虚拟机中测试,显卡性能有限,所以时间不具有参考性。

不过,开发者的测试是在装有 GeForce 1080Ti GPU 的台式电脑上,中型模型,3 分 24 秒语音使用 PyTorch 和 CUDA 转录需要 45 秒,但使用这个和 DirectCompute 只需要 19 秒。而 @JoeCubber 同学测试的是 11:31 分钟的音频,耗时1分26秒完成。

当然,你需要有显卡。

实在是没想到,挖矿之后,显卡又有了用武之地。

获取


原文:https://www.appinn.com/const-me-whisper/

3 条留言

  1. cherub0507 2023/12/03 回复
  2. 奶白的雪 2024/02/16 回复
  3. 奶白的雪 2024/02/16 回复

写留言