🚀邀请体验：中国首家 AI IDE 智能编程软件 Trae 中文版下载，不限量使用 DeepSeek-R1 和 Doubao-pro!

共 16 篇文章

标签：视觉目标检测

Find My Kids：通过人脸识别和WhatsApp通知的儿童安全监控工具

综合介绍 Find My Kids 是一个开源项目，托管在 GitHub 上，由开发者 Tomer Klein 创建。它结合了 DeepFace 人脸识别技术和 WhatsApp Green API，旨在帮助家长通过 WhatsApp 群组监控孩子的安全。用户可以在群组...

2025-04-22AI工具 AI开源项目视觉目标检测

YOLOE：实时视频检测和分割物体的开源工具

综合介绍 YOLOE 是清华大学软件学院多媒体智能组（THU-MIG）开发的一个开源项目，全称“You Only Look Once Eye”。它基于 PyTorch 框架，属于 YOLO 系列的扩展，能实时检测和分割任何物体。项目托管在 GitHub 上，...

2025-04-02AI工具 AI开源项目 AI抠图改背景视觉目标检测

Trae中文版首发邀请下载：注册后不限量使用DeepSeek-R1！

开启 Builder 智能编程模式，无限量使用 DeepSeek-R1 和 DeepSeek-V3 ，对比海外版体验更加流畅。只需输入中文指令，不懂编程的小白也可以零门槛编写自己的应用。

2025-04-29

SegAnyMo：从视频中自动分割任意运动物体的开源工具

综合介绍 SegAnyMo 是一个开源项目，由加州大学伯克利分校和北京大学的研究团队开发，包括 Nan Huang 等成员。这个工具专注于视频处理，能自动识别和分割视频中任意运动的物体，比如人、动物或车辆。它结合了 TAP...

2025-04-02AI工具 AI开源项目 AI抠图改背景视觉目标检测

RF-DETR：实时视觉对象检测开源模型

综合介绍 RF-DETR 是 Roboflow 团队开发的一个开源对象检测模型。它基于 Transformer 架构，核心特点是实时高效。模型在微软 COCO 数据集上首次实现超过 60 AP 的实时检测，同时在 RF100-VL 基准测试中表现突出，...

2025-03-25AI工具 AI开源项目视觉目标检测

HumanOmni：分析人类视频情感和动作的多模态大模型

综合介绍 HumanOmni 是由 HumanMLLM 团队开发的一个开源多模态大模型，托管在 GitHub 上。它专注于分析人类视频，能同时处理画面和声音，帮助理解情感、动作和对话内容。项目用了 240 万个以人为中心的视频片段和...

2025-03-18AI工具 AI开源项目视觉目标检测

Vision Agent：解决多种视觉目标检测任务的视觉智能体

综合介绍 Vision Agent 是由 LandingAI（吴恩达团队）开发的一个开源项目，托管在 GitHub 上，旨在帮助用户快速生成解决计算机视觉任务的代码。它利用先进的代理框架和多模态模型，通过简单的提示即可生成高效的...

2025-02-28AI工具 AI开源项目视觉目标检测

MakeSense：免费使用的图像标注工具，提升计算机视觉项目效率

综合介绍 Make Sense 是一个免费的在线图像标注工具，旨在帮助用户快速为计算机视觉项目准备数据集。它无需复杂安装，只需打开浏览器访问即可使用，支持多种操作系统，非常适合小型深度学习项目。用户可以通过它...

2025-02-24AI工具 AI开源项目视觉目标检测

YOLOv12：实时图像和视频目标检测的开源工具

综合介绍 YOLOv12 是由 GitHub 用户 sunsmarterjie 开发的一个开源项目，专注于实时目标检测技术。该项目基于 YOLO（You Only Look Once）系列框架，引入注意力机制优化传统卷积神经网络（CNN）的性能，不仅在检...

2025-02-23AI工具 AI开源项目视觉目标检测

VLM-R1：通过自然语言定位图像目标的视觉语言模型

综合介绍 VLM-R1 是由 Om AI Lab 开发的一个开源视觉语言模型项目，托管在 GitHub 上。该项目基于 DeepSeek 的 R1 方法，结合 Qwen2.5-VL 模型，通过强化学习（R1）和监督微调（SFT）技术，显著提升了模型在视觉...

2025-02-23AI工具 AI开源项目视觉目标检测

HealthGPT：支持医学图像分析与诊断问答的医疗大模型

综合介绍 HealthGPT 是一个先进的医疗大视觉语言模型，旨在通过异构知识适应实现统一的医学视觉理解和生成功能。该项目的目标是将医学视觉理解和生成能力集成到一个统一的自回归框架中，显著提升了医疗图像处理的...

2025-02-20AI工具 AI开源项目视觉目标检测

MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

综合介绍 MedRAX是一个专为胸部X光片（CXR）分析设计的先进AI智能体。它集成了最先进的CXR分析工具和多模态大语言模型，能够动态处理复杂的医学查询，而无需额外训练。MedRAX通过其模块化设计和强大的技术基础，...

2025-02-10AI工具 AI开源项目智能体应用视觉目标检测

Agentic Object Detection：无需标注和训练的视觉目标检测工具

综合介绍 Agentic Object Detection 是由 Landing AI 推出的先进目标检测工具。该工具通过文本提示进行检测，无需进行数据标注和模型训练，极大地简化了传统目标检测的流程。用户只需上传图像并输入检测提示，AI ...

2025-02-08AI工具视觉目标检测

CogVLM2：开源多模态模型，支持视频理解与多轮对话

综合介绍 CogVLM2 是由清华大学数据挖掘研究组（THUDM）开发的开源多模态模型，基于 Llama3-8B 架构，旨在提供与 GPT-4V 相当甚至更优的性能。该模型支持图像理解、多轮对话以及视频理解，能够处理长达 8K 的内容...

2025-02-08AI工具 AI开源项目视觉目标检测

Gaze-LLE: 视频中人物注视目标预测工具

综合介绍 Gaze-LLE是一款基于大规模学习编码器的注视目标预测工具。该项目由Fiona Ryan、Ajay Bati、Sangmin Lee、Daniel Bolya、Judy Hoffman和James M. Rehg开发，旨在通过预训练的视觉基础模型（如DINOv2）实...

2025-01-24AI工具 AI开源项目视觉目标检测

视频分析工具（Video Analyzer）：分析视频内容并生成详细描述

综合介绍视频分析工具（Video Analyzer）是一个综合性的视频分析工具，结合了计算机视觉、音频转录和自然语言处理技术，能够生成详细的视频内容描述。该工具通过提取视频中的关键帧，转录音频内容，并生成自然语...

2025-01-20AI工具 AI开源项目视觉目标检测

Twelve Labs：理解视频内容的多模态AI解决方案，视频搜索、生成、嵌入API服务

综合介绍 Twelve Labs是一家专注于视频理解的多模态AI公司，致力于通过先进的AI技术帮助用户理解和处理大量视频内容。其核心技术包括视频搜索、生成和嵌入，能够从视频中提取关键特征，如动作、对象、屏幕文本、...

2025-01-05AI工具 AI开放服务视觉目标检测