AI个人学习
和实操指南

Reader API:网页内容提取工具,HTML转换为Markdown格式

综合介绍

 

Jina AI的Reader项目是一个开源工具(Reader 开源地址),可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM)的输入格式,支持动态流模式和图片读取等功能。

用户可以轻松获取网页的核心内容,并将其转换为干净、适合LLM处理的文本。该工具不仅支持网页文本,还能处理图像和PDF文件,自动添加必要的标签和格式化,以便LLM更有效地理解和处理内容。项目使用Node v18及Firebase CLI运行,以Apache 2.0授权协议提供。

 

Reader API:网页内容提取工具,HTML转换为Markdown格式-1

 

 

功能列表

  • 网页内容提取:将任何URL转换为LLM友好的文本格式。
  • 图像识别:自动为网页中的图像生成描述标签。
  • PDF阅读:支持从任意URL读取PDF文件,并转换为适合LLM的文本。
  • 搜索功能:通过在查询前添加前缀“s.jina.ai”,从网络中获取最新信息并转换为LLM友好的格式。
  • 高并发性和可靠性:提供高可访问性和可靠性,支持大量并发请求。

 

 

使用帮助

安装与使用

Jina AI Reader 无需安装,用户只需在URL前添加前缀“r.jina.ai”即可。例如,要将URL“https://en.wikipedia.org/wiki/Artificial_intelligence”转换为LLM友好的输入格式,只需使用以下URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

同样,若要进行网络搜索并获取LLM友好的结果,可以在查询前添加前缀“s.jina.ai”,例如:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

功能操作流程

  1. 网页内容提取
    • 在浏览器中输入带有前缀的URL,例如“https://r.jina.ai/https://example.com”。
    • 按下回车键,Jina AI Reader 将自动提取网页内容并转换为LLM友好的文本格式。
    • 提取的内容将显示在浏览器中,用户可以直接复制或进一步处理。
  2. 图像识别
    • 在提取网页内容时,Jina AI Reader 会自动为网页中的图像生成描述标签。
    • 这些标签将作为图像的alt属性,方便LLM在处理时理解图像内容。
  3. PDF阅读
    • 输入带有前缀的PDF URL,例如“https://r.jina.ai/https://example.com/document.pdf”。
    • Jina AI Reader 将自动读取PDF内容并转换为LLM友好的文本格式。
    • 转换后的内容将显示在浏览器中,用户可以直接复制或进一步处理。
  4. 搜索功能
    • 在查询前添加前缀“s.jina.ai”,例如“https://s.jina.ai/your+query”。
    • 按下回车键,Jina AI Reader 将从网络中获取最新信息,并转换为LLM友好的文本格式。
    • 搜索结果将显示在浏览器中,用户可以直接复制或进一步处理。

高级设置

  • 图像描述标签:默认情况下,图像描述标签功能是关闭的。用户可以通过在请求头中设置“x-with-generated-alt: true”来开启此功能。
  • 代理和Cookie:用户可以通过请求头设置代理和Cookie,以便在特定环境下使用Jina AI Reader。

 

流模式
要在内容可用时对其进行处理,请将请求标头设置为流模式。这可以最大限度地缩短收到第一个字节所需的时间。curl 中的示例:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

 

 

推荐另一款html转markdown工具

首席AI分享圈此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“首席AI分享圈”或者“Looks-AI”或者微信扫描右侧二维码都可以关注本站微信公众号。

AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » Reader API:网页内容提取工具,HTML转换为Markdown格式
分享到

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们