AI个人学习
和实操指南

CrisperWhisper:精确的逐字语音转录工具

综合介绍

CrisperWhisper 是一个基于 OpenAI Whisper 的高级语音识别工具,专注于快速、精确和逐字的语音转录。它能够提供精确的单词级时间戳,甚至在语音填充和停顿的情况下也能准确记录。CrisperWhisper 通过调整标记器和自定义注意力损失来提高时间戳的精度,并减少转录幻觉,确保每个发音的单词都被准确记录。

 

论文總結

CrisperWhisper 是一款改進版的 Whisper 語音識別模型,通過調整 tokenizer 和使用動態時間扭曲(DTW)算法,實現了更精確的詞級時間戳記,並能夠提供更細緻的語音轉錄,增強對語音中暫停和填詞事件的檢測能力,並降低虛幻(hallucinations)的產生。

摘要

CrisperWhisper 是基於 Whisper 模型的一項改進,旨在提供更精確的詞級時間戳記和更細緻的語音轉錄。該模型通過調整 Whisper 的 tokenizer,使得 DTW 算法能夠更準確地對齊音頻片段與詞語,從而提高了時間戳記的精確度。這項技術對於捕捉所有發音的語音轉錄特別有用,這對於臨床評估語音、分析語言規劃過程以及識別認知負荷指標非常重要。CrisperWhisper 還通過訓練和對抗噪音的方法,提高了對單一聲音源的關注度和噪音適應性,並且在多個基準數據集上進行了測試,展示了其在語音識別、詞段分割、填詞事件檢測以及降低虛幻內容方面的優異性能。此外,該模型的代碼和一個具有準確詞級時間戳記的合成數據集已經開源。

觀點

  • 改進的 Tokenizer:CrisperWhisper 通過移除 tokenizer 中的多餘空格,並對特定詞語(如 "uh" 和 "um")進行重新標記,使得 DTW 算法能夠更準確地對齊音頻片段與詞語,從而提高了時間戳記的精確度。
  • 對抗噪音的技術:模型通過訓練時加入噪音和多聲音源的數據,提高了對噪音的適應性,並且通過引入空白的訓練樣本來減少虛幻內容的產生。
  • 優異的性能:CrisperWhisper 在多個基準數據集上進行了測試,包括 AMI Meeting Corpus、TED-LIUM 和 LibriSpeech,並在這些數據集上展示了優異的詞級時間戳記和語音識別性能。
  • 開源代碼和數據集:該模型的代碼和一個合成的語音數據集已經開源,這有助於研究人員和開發者進一步研究和改進語音識別技術。
  • 虛幻內容的降低:CrisperWhisper 通過精確的時間戳記和對虛幻內容的特定處理,有效降低了虛幻內容的產生,這對於提高語音識別系統的可靠性特別重要。

 

 

功能列表

  • 精确的单词级时间戳:即使在语音填充和停顿的情况下,也能提供精确的时间戳。
  • 逐字转录:逐字记录每个发音的单词,包括填充词如“嗯”和“啊”。
  • 填充词检测:检测并准确转录填充词。
  • 幻觉减轻:减少转录幻觉,提高准确性。
  • 开源代码:代码公开,便于用户查看和使用。

 

 

使用帮助

安装流程

  1. 环境准备
    • 确保已安装 Python 3.7 及以上版本。
    • 安装必要的依赖库:pip install -r requirements.txt
  2. 下载代码
    • 克隆 GitHub 仓库:git clone https://github.com/nyrahealth/CrisperWhisper.git
  3. 运行应用
    • 进入项目目录:cd CrisperWhisper
    • 运行应用:python app.py

使用指南

  1. 基本使用
    • 打开应用后,上传需要转录的音频文件。
    • 选择转录模式(逐字转录或标准转录)。
    • 点击“开始转录”按钮,等待转录完成。
  2. 高级功能
    • 时间戳调整:在设置中可以调整时间戳的精度。
    • 填充词检测:开启或关闭填充词检测功能。
    • 导出结果:转录完成后,可以将结果导出为文本文件或其他格式。
  3. 常见问题
    • 转录不准确:确保音频质量良好,避免背景噪音。
    • 时间戳不精确:尝试调整时间戳设置,或使用更高质量的音频文件。

示例

  1. 逐字转录示例
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    时间戳:[0:00:01] 嗯,[0:00:02] 我,[0:00:03] 觉得,[0:00:04] 这个,[0:00:05] 项目,[0:00:06] 非常,[0:00:07] 有趣。
    
  2. 填充词检测示例
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    填充词:[0:00:01] 嗯
    
AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » CrisperWhisper:精确的逐字语音转录工具
分享到

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们