Google 旗下的 AI 笔记工具 NotebookLM 近期获得更新,其发展路径日益清晰,正朝着成为一款重要的个人知识管理和生产力工具迈进。最新的进展包括对中文等多种语言的音频播报支持,以及即将推出的移动应用程序。
NotebookLM 自去年发布以来,凭借其将用户上传的文档、网页链接或文本笔记转化为结构化信息的能力受到关注。其功能集包括内容摘要、自动生成时间线和交互式思维导图等。
然而,该工具中最引人注目的功能之一是“音频概览”( Audio Overviews )。该功能允许用户上传多种来源的资料(如文本、网页、PDF甚至视频记录), NotebookLM 能将其转换成一段模拟播客对话的音频。这段音频通常包含模拟的主持人进行提问和引导,以及代表不同信息观点的“嘉宾”进行回答和讨论,形成具有一定互动感和情绪起伏的听觉体验。据称,这项功能在 NotebookLM 用户中非常受欢迎。
此前的版本中,音频概览功能主要支持英文,这限制了其在中文用户群体中的实用性。近日, Google 宣布 Audio Overviews 功能已扩展支持超过 50 种语言,中文(包括简体和繁体)位列其中。用户只需在设置菜单的“输出语言”选项中选择中文即可启用。
在设置中选择输出语言即可生成对应语种的音频
为了检验中文音频功能的实际效果,可以进行一项简单测试。例如,上传英国广播公司( BBC )对奥斯卡获奖导演 赵婷 的英文视频记录,以及一些关于中国导演 邵艺辉 的中文采访文本。
系统处理几分钟后,可以生成一段约 8 分钟的中文播客。在内容层面, AI 对两位导演的资料进行了有效的整合与对比,梳理了 赵婷 在好莱坞的经历、创作理念,以及 邵艺辉 对女性题材、两性关系的探讨和工作方式。播客的 AI 主持人(通常设定为一男一女)声音听起来相对自然流畅,带有自然的停顿和口语化表达,使得对话感较为真实。其语音合成质量相较于一些基础的文本转语音(TTS)服务,如微信读书的“听书”功能,显得更为生动。
这项多语言能力意味着用户可以处理来自不同语种的信息源。例如,对于不懂日语的用户,可以通过上传有关 宫崎骏 的日文新闻报道,利用 NotebookLM 生成中文音频播客,快速把握核心内容。
处理不同语言来源的资料并生成指定语言的音频
NotebookLM 的核心优势在于其信息处理方式。该工具目前基于 Google 的 Gemini 1.5 Flash 模型,这是一个轻量级但功能强大的模型,支持处理高达 200MB 的上传文件和约 50 万个 token 的上下文窗口。
至关重要的是, NotebookLM 的设计理念强调“基于来源的回答”(source-grounded answers)。这意味着它的回答和生成的内容严格限制在用户上传的资料范围内,并能提供明确的引用来源,方便用户核查。这一特性使其与许多可能产生“幻觉”或编造信息的大语言模型助手形成对比,对于需要精确信息梳理和知识管理的用户而言,实用性更强。它旨在辅助用户理解和组织信息,而不是取代用户的思考流程或提供未经证实的内容。
目前, NotebookLM 主要通过网页浏览器访问。虽然移动设备浏览器也能打开,但用户体验并不理想。为解决这一问题, Google 已确认正在开发 NotebookLM 的原生移动应用程序。 Android 版本的应用已在 Google Play 商店开放预注册,而 iOS 版本也已在 App Store 上架预注册信息。预计这两款应用将在即将举行的 Google I/O 大会(预计 5 月 20 日左右)上正式发布。
移动应用的推出将显著提升 NotebookLM 的可访问性和便利性,用户可以随时随地整理笔记、生成摘要或收听音频概览。据称,移动应用将包含网页版的大部分功能,并可能增加与 AI 主持人进行对话互动的新功能。
不过,值得注意的是,并非所有功能都会免费提供。类似音频概览这样的高级功能,未来可能需要用户订阅 Gemini Advanced 服务(目前定价为每月 20 美元)才能无限制使用。免费用户或许能获得有限次数的试用机会,但这可能会限制其作为日常重度使用工具的普及度。移动应用的具体功能划分和收费策略,还有待 Google 在正式发布时进一步明确。