AI个人学习
和实操指南
TRAE

CleverBee:开源AI研究助手,生成引证研究报告

综合介绍

CleverBee 是一个开源的 AI 研究助手,托管在 GitHub 上,由 SureScaleAI 开发。它通过大语言模型(如 Gemini 和 Claude)结合网页浏览技术,帮助用户快速收集、分析和总结信息,生成带引证的研究报告。用户可以轻松获取网页、PDF、YouTube 视频或学术资源的精准内容。CleverBee 支持云端和本地模型,适合学术研究、商业分析等场景。它的界面基于 Chainlit,操作简单直观,配置灵活,适合个人和研究团队使用。

CleverBee:开源AI研究助手,生成引证研究报告-1


 

功能列表

  • 支持多种大语言模型,包括 Gemini、Claude 和本地 GGUF 模型。
  • 自动化网页浏览,提取 HTML 内容并清洗为结构化数据。
  • 生成带引证的研究报告,包含来源引用和限制说明。
  • 支持 YouTube 视频字幕提取、PDF 解析和 PubMed 学术搜索。
  • 提供实时令牌使用量和成本追踪,优化资源管理。
  • 通过 config.yaml 文件自定义模型、浏览器行为和研究工具。
  • 集成 Chainlit 交互式界面,方便用户输入查询和查看结果。
  • 使用 SQLite 数据库的 NormalizingCache 缓存,提升性能并降低成本。

 

使用帮助

安装流程

CleverBee 的安装过程简单,通过 GitHub 仓库提供详细指导。以下是具体步骤:

  1. 克隆仓库
    打开终端,运行以下命令克隆 CleverBee 仓库:

    git clone https://github.com/SureScaleAI/cleverbee.git
    cd cleverbee
  1. 运行安装脚本
    执行安装脚本以配置环境:

    bash setup.sh
    

    该脚本会自动完成以下任务:

    • 检查必要依赖(如 python3jqyq 和 cmake)。
    • 创建 Python 虚拟环境 (venv/)。
    • 安装 requirements.txt 中的 Python 依赖。
    • 检测硬件,询问是否启用本地模型(推荐 NVIDIA GPU,显存 ≥ 24GB)。
    • 如果选择本地模型,安装 llama-cpp-python 并启用 CUDA 加速(适用于 NVIDIA GPU)。
    • 提示用户登录 Hugging Face(若使用本地模型)。
    • 帮助配置主要推理模型和总结模型,更新 config.yaml
    • 下载选定的本地 GGUF 模型(若适用)。
  2. 配置 API 密钥
    如果使用云模型(如 Gemini 或 Claude),需提供 API 密钥。安装脚本会检查模型选择并指导用户将密钥添加到 .env 文件:

    • Anthropic API 密钥:从 Anthropic 控制台获取,适用于 Claude 模型。
    • Google Gemini API 密钥:从 Google AI Studio 获取,适用于 Gemini 模型。
      密钥添加后,需重启应用以生效。用户可随时编辑 .env 文件更新密钥。
  3. 启动应用
    安装完成后,运行以下命令启动 CleverBee:

    bash run.sh
    

    这将启动 Chainlit 交互式界面,用户可通过浏览器访问。

系统要求

  • 操作系统:支持 macOS(Intel 和 Apple Silicon,需 Rosetta 2)和 Linux。
  • 硬件:云模型无需高性能硬件;本地模型推荐 NVIDIA GPU(显存 ≥ 24GB)。
  • 依赖:确保安装 python3gitjqcmake 和 node。macOS 用户可通过 Homebrew 安装:
    brew install python cmake git jq node
    

使用方法

CleverBee 的核心功能是生成带引证的研究报告。以下是详细操作流程:

  1. 启动界面
    运行 run.sh 后,浏览器会打开 Chainlit 界面。用户可在此输入研究问题或主题,例如“量子计算的最新进展”或“可持续能源的经济影响”。
  2. 输入查询
    在界面输入框中输入问题。CleverBee 会自动规划研究路径,调用网页浏览工具、YouTube 字幕提取或学术搜索模块收集信息。用户可实时查看研究进度。
  3. 查看报告
    研究完成后,CleverBee 生成包含以下内容的报告:

    • 综合总结:基于收集的信息生成简洁结论。
    • 来源引证:列出所有参考资料的链接或出处。
    • 限制说明:说明 AI 可能存在的局限性,提醒用户核查来源。
    • 令牌使用量:显示模型调用过程中的资源消耗。
  4. 自定义配置
    用户可编辑 config.yaml 文件调整设置,例如:

    • 更改主要推理模型(推荐 Gemini 2.5 Pro)。
    • 设置代理行为(如网页浏览深度)。
    • 调整令牌限制或缓存策略。
      配置文档位于 https://cleverb.ee/docs
  5. 特色功能操作
    • YouTube 字幕提取:输入 YouTube 视频链接,CleverBee 自动提取字幕并整合到报告中,适合分析讲座或访谈。
    • PDF 解析:上传 PDF 文件,CleverBee 提取文本并总结关键内容,适用于学术论文或报告。
    • PubMed 搜索:输入医学相关主题,CleverBee 从 PubMed 数据库检索权威文献。
    • 实时成本追踪:界面显示每次查询的令牌消耗,帮助用户优化预算。

注意事项

  • 本地模型对硬件要求较高,推荐云模型以获得最佳性能。
  • 始终核查报告中的来源,AI 可能出现幻觉。
  • 项目为非商业用途,遵循 GNU Affero 许可证。

 

应用场景

  1. 学术研究
    学生或研究人员可使用 CleverBee 快速收集学术论文、网页文章和视频资料,生成引证齐全的文献综述。例如,研究“人工智能伦理”时,CleverBee 可从 PubMed 和学术网站提取相关文献。
  2. 商业分析
    企业用户可分析市场趋势或竞争对手信息。例如,输入“2025年电动车市场预测”,CleverBee 会浏览行业报告和新闻,生成数据驱动的总结。
  3. 个人学习
    普通用户可探索复杂话题,如“区块链技术的应用”。CleverBee 提供多角度资料,包括 YouTube 教程和权威文章,帮助用户全面理解。

 

QA

  1. CleverBee 支持哪些模型?
    支持 Gemini、Claude 和本地 GGUF 模型(如 Deepseek R1、Llama)。云模型性能更稳定,本地模型适合隐私需求。
  2. 如何降低运行成本?
    使用 NormalizingCache 缓存减少重复查询。选择 Gemini 2.5 Flash 等低成本模型,并通过界面监控令牌使用量。
  3. 报告是否可靠?
    报告基于真实来源并提供引证,但 AI 可能有幻觉。建议用户核查关键信息。
  4. 是否需要编程经验?
    无需编程经验。安装脚本自动化配置,Chainlit 界面操作简单。
未经允许不得转载:首席AI分享圈 » CleverBee:开源AI研究助手,生成引证研究报告
zh_CN简体中文