综合介绍
Mad Professor(暴躁的教授读论文) 是一个开源的 AI 学术工具,专为研究人员和学生设计,旨在简化学术论文的阅读和分析。它集成了 PDF 处理、AI 翻译、RAG 检索、AI 问答和语音交互等功能。用户可以导入 PDF 论文,工具会自动提取内容、翻译并生成结构化文本,支持中英文对照阅读。Mad Professor 通过智能问答和语音交互,帮助用户快速理解论文内容。它还提供分屏界面,左侧显示论文,右侧展示 AI 对话,方便用户边读边问。
功能列表
- PDF 内容提取与结构化:自动从 PDF 论文中提取文本,生成结构化内容,支持多篇论文批量处理。
- AI 翻译与中英文对照:将论文内容翻译为中文或英文,提供对照阅读模式。
- RAG 检索系统:基于向量检索技术,快速提取论文中的关键信息和上下文。
- AI 智能问答:支持用户通过文字或语音提问,AI 提供精准的论文相关解答。
- 语音交互与 TTS:内置语音输入识别和文本转语音功能,模拟教授式对话。
- 分屏交互界面:左侧显示论文内容,右侧为 AI 问答区域,操作直观。
- 批量文件处理:支持将多篇 PDF 放入
data
文件夹,自动检测并批量处理。 - 异步任务管理:通过线程管理优化性能,支持并发任务处理。
使用帮助
安装流程
Mad Professor 是一个 Python 开发的开源项目,需在本地环境中安装运行。以下是详细的安装步骤:
- 克隆项目代码
在终端运行以下命令,从 GitHub 克隆项目:git clone https://github.com/LYiHub/mad-professor-public.git cd mad-professor-public
- 安装 Python 环境
确保系统中安装了 Python 3.8 或以上版本。推荐使用虚拟环境:python -m venv venv source venv/bin/activate # Windows 用户运行 venv\Scripts\activate
- 安装依赖
项目依赖包括 MiniMax 的语音服务和其他 Python 库。运行以下命令安装:pip install -r requirements.txt
确保
requirements.txt
文件包含所有必要的库,如PyPDF2
、numpy
等。 - 配置 MiniMax 语音服务
Mad Professor 使用 MiniMax 的 TTS(文本转语音)服务,需配置语音 ID:- 访问 MiniMax 官方文档:<https://platform.minimaxi.com/document/Voice Cloning>
- 创建或使用现有的
voice_id
。 - 修改
TTS_manager.py
文件中的build_tts_stream_body
方法,将voice_id
参数替换为你的 ID。例如:body = json.dumps({ "model": "speech-02-turbo", "text": text, "stream": True, "voice_setting": { "voice_id": "your_voice_id_here", "speed": 1, "vol": 1, "pitch": 0, "emotion": mapped_emotion }, "audio_setting": { "sample_rate": 32000, "bitrate": 128000, "format": "pcm", "channel": 1 } })
- 准备论文文件
将需要处理的 PDF 论文放入项目根目录下的data
文件夹。程序会自动检测并批量处理这些文件。 - 运行程序
启动主程序:python AI_professor_UI.py
程序运行后,会打开一个图形界面,显示论文内容和 AI 交互区域。
使用方法
导入和处理论文
- 将 PDF 文件放入
data
文件夹。 - 启动程序后,工具会自动扫描
data
文件夹,提取 PDF 内容并生成结构化文本。 - 提取结果显示在界面左侧,支持中英文对照模式。点击界面上的“翻译”按钮,可切换语言。
AI 问答与语音交互
- 在界面右侧的问答区域,输入文字或使用麦克风提问。例如:“这篇论文的研究方法是什么?”
- 如果使用语音输入,确保麦克风设备正常。若指示灯未变黄,尝试更换输入设备。
- AI 会分析论文内容并给出精准回答。点击“语音播放”按钮,答案将以 TTS 形式朗读。
- 语音输出的音量、语速和音调可在
TTS_manager.py
中调整。
分屏界面操作
- 左侧显示论文原文或翻译内容,可滚动查看。
- 右侧为 AI 对话窗口,支持实时问答。
- 界面支持 Markdown 渲染,AI 回答以清晰的消息气泡形式展示。
批量处理
- 若需处理多篇论文,将所有 PDF 文件放入
data
文件夹。 - 程序会逐一处理未解析的文件,生成结构化内容并存储在本地。
注意事项
- 确保网络连接稳定,MiniMax 的 TTS 服务需要联网。
- 检查
data
文件夹权限,确保程序可读写。 - 如果语音输入失败,检查麦克风设置或更换设备。
- 项目为开源软件,建议查看 GitHub 上的最新文档以获取更新。
应用场景
- 学术研究
研究人员可使用 Mad Professor 快速阅读和理解复杂论文。工具的 AI 问答功能能解答专业问题,如研究方法、实验设计等,节省查阅时间。 - 学生学习
学生可通过中英文对照模式阅读外文论文,语音交互功能帮助理解术语和概念,适合初学者。 - 论文综述撰写
研究团队可批量处理多篇论文,提取关键信息,生成综述素材,提高写作效率。 - 跨语言协作
国际研究团队可利用翻译功能,快速将论文内容转换为目标语言,促进沟通。
QA
- Mad Professor 支持哪些文件格式?
目前仅支持 PDF 格式的论文文件。确保 PDF 文件为可提取文本的格式,非扫描件。 - 如何解决语音输入失败的问题?
检查麦克风是否正常工作。若指示灯未变黄,尝试更换输入设备或检查系统音频设置。 - 是否需要付费使用 MiniMax 的语音服务?
MiniMax 提供免费和付费的语音服务。建议查看官方文档确认voice_id
的使用权限。 - 可以离线使用吗?
PDF 处理和 AI 问答可离线运行,但语音交互和翻译功能需联网。