综合介绍
PDF2Audio 是一个开源项目,旨在将 PDF 文件转换为音频内容,如播客、讲座和摘要。该工具利用 OpenAI 的 GPT 模型进行文本生成和文本到语音转换,用户可以上传多个 PDF 文件,选择不同的指令模板(如播客、讲座、摘要等),并自定义文本生成和音频模型。PDF2Audio 提供了多种语音选择,并允许用户通过编辑草稿和提供反馈来迭代改进音频内容。
推荐相关项目:NotebookLM:知识笔记检索阅读,多类文档生成语音对话播客
功能列表
- 上传多个 PDF 文件
- 选择不同的指令模板(播客、讲座、摘要等)
- 自定义文本生成和音频模型
- 选择不同的语音
- 通过编辑草稿和提供反馈迭代改进音频内容
- 支持在本地安装和使用
PDF2Audio 操作界面
PDF2Audio 的操作界面很简洁,操作步骤如下:
1.上传一个或多个 PDF 文件
2.选择所需的指令模板
3.如有需要,可自定义指令模板
4.点击 “生成音频” 按钮以创建音频内容
使用帮助
在线体验
https://huggingface.co/spaces/lamm-mit/PDF2Audio
https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb
本地安装流程
- 克隆仓库:在终端中运行以下命令克隆 PDF2Audio 仓库:
git clone https://github.com/lamm-mit/PDF2Audio.git cd PDF2Audio
- 安装 Miniconda:如果尚未安装 Miniconda,请从 Miniconda 网站下载安装程序,并按照操作系统的安装说明进行安装。验证安装是否成功:
conda --version
- 创建 Conda 环境:在终端中运行以下命令创建新的 Conda 环境:
conda create -n pdf2audio python=3.9 conda activate pdf2audio
- 安装依赖项:在终端中运行以下命令安装所需的依赖项:
pip install -r requirements.txt
- 设置 OpenAI API 密钥:在项目根目录中创建一个
.env
文件,并添加你的 OpenAI API 密钥:OPENAI_API_KEY=your_api_key_here
使用流程
- 运行应用程序:确保你在项目目录中,并且 Conda 环境已激活:
conda activate pdf2audio python app.py
- 打开浏览器:在终端中会提供一个 URL,通常是
http://localhost:7860
,在浏览器中打开该 URL。 - 上传 PDF 文件:使用 Gradio 界面上传一个或多个 PDF 文件。
- 选择指令模板:选择你想要的指令模板(如播客、讲座、摘要等)。
- 自定义指令:根据需要自定义指令。
- 生成音频:点击“生成音频”按钮,创建你的音频内容。
注意事项
- 该应用需要 OpenAI API 密钥才能运行。
- 你可以通过编辑草稿和提供具体或总体反馈来迭代改进音频内容。