
自动解析PDF内容并提取文字与表格的开源服务
综合介绍 它能自动分析PDF文档的布局,识别页面中的文字、标题、图片、表格、公式等元素,并判断它们的正确顺序。工具支持OCR功能,可以把扫描PDF转为可搜索文本。它基于Docker运行,提供两种模型:视觉模型(Vis...
综合介绍 它能自动分析PDF文档的布局,识别页面中的文字、标题、图片、表格、公式等元素,并判断它们的正确顺序。工具支持OCR功能,可以把扫描PDF转为可搜索文本。它基于Docker运行,提供两种模型:视觉模型(Vis...
综合介绍 Dolphin 是由 DataoceanAI 和清华大学合作开发的一个开源模型,专注于亚洲语言的语音识别和语言识别。它支持东亚、南亚、东南亚及中东地区的 40 种语言,以及 22 种中国方言。模型基于超过 21 万小时的...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 AstrBot 是一个开源的聊天机器人开发框架,它支持 QQ、Telegram、微信等多种消息平台,并能轻松接入 OpenAI、DeepSeek、Google Gemini 等大语言模型(LLM)。这个框架提供插件系统、可视化管理面板和多...
综合介绍 WeClone 是一个开源项目,它通过微信聊天记录和语音消息,结合大语言模型和语音合成技术,让用户创建个性化的数字分身。项目能分析用户的聊天习惯来训练模型,还可以用少量语音样本生成逼真的声音克隆。...
综合介绍 DiffPortrait360 是一个开源项目,隶属于 CVPR 2025 论文《DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis》。它能从单张人像照片生成前后一致的 360 度头部视图,支持真实人...
综合介绍 mcp-ui 是一个开源项目,由开发者 machaojin1917939763 创建,基于 Model Context Protocol(MCP)协议打造,是一款支持 Web 和桌面环境的智能聊天应用。MCP 是 Anthropic 推出的开放协议,能让 AI 模型...
综合介绍 Comp AI 是一个开源平台,由 Comp AI, Inc. 开发,总部位于美国旧金山。它帮助企业通过自动化工具快速完成 SOC 2、ISO 27001 和 GDPR 等合规要求,目标是几周内完成准备,而非几个月。平台定位为 Drata ...
综合介绍 RolmOCR 是由 Reducto AI 团队开发的一款开源光学字符识别(OCR)工具,基于 Qwen2.5-VL-7B 视觉语言模型。它能从图片和 PDF 文件中提取文字,速度比同类工具 olmOCR 更快,内存占用更低。RolmOCR 不依...
综合介绍 KrillinAI 是一个开源的视频处理工具,专注于用人工智能帮助用户翻译视频并自动配音。它能从视频下载开始,一直到生成适配不同平台的成品,全程只需几次点击。开发者在 GitHub 上提供了免费代码,用户可...
综合介绍 AiryLark 是一个开源的文档处理与翻译工具,托管在 GitHub 上,由开发者 wizd 基于 Next.js 框架打造。它支持多种文件格式(如 PDF、Word、TXT、Markdown)的输入和处理,同时提供智能翻译功能。用户可...
综合介绍 Zola 是一个免费且开源的 AI 聊天应用,由开发者 Julien Thibeaut(GitHub 用户名 ibelick)开发,托管在 GitHub 上。它最大的特点是支持多种 AI 模型,比如 OpenAI 和 Mistral,让用户可以自由选择不同...
综合介绍 DeepResearcher 是由上海交通大学 GAIR-NLP 团队开发的开源项目。它是一个基于大型语言模型(LLM)的智能研究工具,通过强化学习(RL)在真实网络环境中进行端到端训练。项目旨在帮助用户高效完成复杂研...
综合介绍 AnimeGamer 是腾讯 ARC 实验室推出的一个开源工具。用户可以用简单的语言指令,比如“宗介开紫色车兜风”,生成动漫视频,还能让不同动漫角色互动,比如《魔女宅急便》的琪琪和《天空之城》的帕祖见面。它...
综合介绍 Lumina-mGPT-2.0 是由上海人工智能实验室(Shanghai AI Laboratory)、香港中文大学(CUHK)等机构联合开发的开源项目,托管于 GitHub,由 Alpha-VLLM 团队维护。它是一个独立的自动回归模型,从零开始...
综合介绍 Agent S 是由 Simular AI 开发的开源框架,让智能体通过图形用户界面(GUI)像人类一样操作电脑。它使用多模态大语言模型和经验学习技术,能完成浏览网页、编辑文档、使用软件等任务。项目在 GitHub 上...
综合介绍 BabelDOC 是一个开源工具,专门用来把 PDF 文档翻译成双语对照格式。它由 funstory-ai 团队开发,托管在 GitHub 上,主要服务于需要处理外语文档的用户,比如研究人员、学生和技术人员。BabelDOC 支持将...
综合介绍 Text2Voice 是一个开源工具,基于硅基流动 API 提供文本转语音功能,最大的特点是带有简洁的图形用户界面(GUI)。它由开发者 Sheldon Lee 在 GitHub 上创建,让用户可以通过界面轻松把文字变成语音。项...
综合介绍 FreeAI 是一个基于 Pollinations.AI API 的开源 AI 应用平台,提供免费且无限制的 AI 聊天助手、图像生成和语音合成服务。这个项目由开发者 Azad-sl 在 GitHub 上创建,核心特点是使用纯 HTML 文件开发...
综合介绍 Open WebUI Artifacts Overhaul 是基于 Open WebUI 的一个分支项目,由开发者 Nick Tonjum 开发。它是一个开源工具,专注于提升 AI 生成代码和展示的功能。用户可以通过它让 AI 生成代码,并在界面上直...