Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife
Total de 1020 artigos

Tags: ai projetos de código aberto Página 52

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)-首席AI分享圈

ChatTTS: um modelo de geração de fala que imita a voz de uma pessoa real falando (pacote de aceleração de um clique do ChatTTS)

Introdução geral O ChatTTS é um modelo de fala generativo projetado para cenários de diálogo. Ele gera fala natural e expressiva, suporta vários idiomas e vários falantes e é adequado para diálogos interativos. O modelo vai além do grande, prevendo e controlando recursos prosódicos de granulação fina, como risos, pausas e interjeições...

MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪-首席AI分享圈

MoneyPrinterPlus: ferramenta de IA para gerar vídeos curtos com um clique, mixagem em lote gratuita

Introdução abrangente O MoneyPrinterPlus é um projeto de código aberto que visa gerar e misturar todos os tipos de vídeos curtos com um clique por meio da tecnologia de IA e publicá-los automaticamente em várias plataformas de vídeo, como Jieyin, Shutterbugs, Xiaohongshu e Video Number. A ferramenta oferece suporte a modelos de voz locais e baseados em nuvem, incluindo chatTTS, fasterwhisper, G...

Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序-首席AI分享圈

Chatbot UI: um aplicativo de bate-papo com IA de código aberto que imita a interface e a funcionalidade do ChatGPT

Introdução geral O Chatbot UI é um projeto de código aberto criado para ajudar os desenvolvedores a criar interfaces de conversação personalizadas e inteligentes. O projeto fornece uma série de componentes de interface e recursos interativos que podem ser facilmente integrados ao sistema de Chatbot existente para oferecer aos usuários uma experiência de diálogo mais suave e inteligente.

GLIGEN GUI:精确控制图像元素位置,基于ComfyUI的直观图形界面-首席AI分享圈

GUI GLIGEN: controle preciso da posição dos elementos da imagem, interface gráfica intuitiva baseada no ComfyUI

Introdução geral O GLIGEN GUI é uma interface gráfica intuitiva baseada no ComfyUI, projetada para simplificar o uso do modelo GLIGEN, um novo modelo de texto para imagem que permite a especificação precisa da posição dos objetos em uma imagem. Com o GLIGEN GUI, o usuário é solicitado a desenhar caixas e inserir texto...

Easy Voice Toolkit:本地部署的AI语音工具箱-首席AI分享圈

Easy Voice Toolkit: kit de ferramentas de voz com IA para implantação local

Introdução abrangente O Easy-Voice-Toolkit é um kit de ferramentas multifuncional baseado no Open Source Speech Project que oferece uma ampla variedade de ferramentas de áudio automatizadas para reconhecimento de fala, transcrição de fala, conversão de fala, criação de conjuntos de dados e treinamento de modelos. Os usuários podem usar essas ferramentas de forma seletiva ou sequencial, conforme necessário...

FaceFusion:视频换脸增强工具|语音同步视频嘴型动作-首席AI分享圈

FaceFusion: Ferramenta de aprimoramento de troca de rosto em vídeo | Movimentos de boca em vídeo com sincronização de voz

Introdução geral O FaceFusion é uma plataforma de nuvem de última geração com recursos integrados de troca e aprimoramento facial que otimiza o processo de troca de imagem para vídeo e imagem para imagem com 5 modelos profissionais para garantir um resultado impecável. Além disso, ele executa o aprimoramento facial com 7 modelos, usando 3 modelos diferentes para...

Kotaemon:简单部署的开源多模态文档问答工具-首席AI分享圈

Kotaemon: uma ferramenta de questionário de documentos multimodais de código aberto simples de implantar

Introdução geral O Kotaemon é uma ferramenta de perguntas e respostas de documentos de código aberto projetada para fornecer aos usuários finais e desenvolvedores recursos de perguntas e respostas com base no Retrieval Augmented Generation (RAG). Desenvolvido pela Cinnamon, o projeto oferece suporte a vários provedores de API LLM (por exemplo, OpenAI, AzureOpenAI, Cohere etc.), bem como a...

HivisionIDPhotos:开源智能AI证件照制作工具-首席AI分享圈

HivisionIDPhotos: ferramenta de código aberto para a criação de IDs com fotos inteligentes com IA

Introdução abrangente O HivisionIDPhotos é uma ferramenta de produção de fotos de documentos com IA leve e de código aberto, capaz de identificar de forma inteligente a cena da foto do usuário e a codificação, para gerar uma foto de documento padrão de acordo com uma variedade de especificações. A ferramenta suporta cor e tamanho de fundo personalizados e, no futuro, também introduzirá a função de beleza e mudança inteligente de trajes formais. Com...

Marker:快速将PDF转换为Markdown的开源工具-首席AI分享圈

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Introdução geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos. O Marker é capaz de remover conteúdo redundante, como cabeçalhos e rodapés, formatar tabelas e...

SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人-首席AI分享圈

SadTalker: Faça as fotos falarem | Áudio de sincronização de boca | Vídeo de sincronização de boca sintetizado | Pessoas digitais gratuitas

Introdução geral O SadTalker é uma ferramenta de código aberto que combina fotos de retratos únicos e arquivos de áudio para criar vídeos realistas de cabeças falantes para uma ampla variedade de cenários, como mensagens personalizadas, conteúdo educacional e muito mais. O uso revolucionário de tecnologias de modelagem 3D, como ExpNet e PoseVAE, é excelente para capturar as facetas sutis...

VideoReTalking:音频驱动的嘴唇同步和视频编辑系统-首席AI分享圈

VideoReTalking: sincronização labial acionada por áudio e sistema de edição de vídeo

Introdução geral O VideoReTalking é um sistema inovador que permite aos usuários gerar vídeos faciais sincronizados com os lábios com base no áudio de entrada, produzindo vídeos de saída de alta qualidade e sincronizados com os lábios, mesmo com emoções diferentes. O sistema divide esse objetivo em três tarefas sucessivas: geração de vídeos faciais com expressões típicas...

MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步-首席AI分享圈

MuseV+Muse Talk: Estrutura completa de geração de vídeo humano digital | Retrato para vídeo | Pose para vídeo | Sincronização labial

Introdução geral O MuseV é um projeto público no GitHub que tem como objetivo permitir a geração de vídeos de avatar com duração ilimitada e alta fidelidade. Ele se baseia na tecnologia de difusão e oferece Image2Video, Text2Image2Video, Video2Video e muitos outros recursos. Fornece estrutura de modelo, casos de uso, início rápido...

Unstructured:开源预处理非结构化文档,无结构数据处理的利器-首席AI分享圈

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

Introdução abrangente O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de modelo de linguagem grande (LLM), para fornecer suporte. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de modelo de linguagem grande (LLM) para fornecer suporte.

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Introdução geral magic-html é uma biblioteca Python projetada para simplificar o processo de extração do conteúdo da região do corpo do HTML. Seja lidando com estruturas complexas de HTML ou com páginas da Web simples, essa biblioteca tem como objetivo fornecer uma interface conveniente e eficiente para os usuários. Ela oferece suporte à extração multimodal, extração de vários layouts...

WebPilot:智能网页信息处理工具,网页内容抓取免费API-首席AI分享圈

WebPilot: ferramenta inteligente de processamento de informações da Web, API gratuita para captura de conteúdo da Web

WebPilot Introdução geral O Webpilot é um "assistente da Web" gratuito e de código aberto que permite que você se comunique livremente com qualquer página da Web ou execute tarefas automatizadas. Em vez de alternar entre páginas ou copiar e colar, basta selecionar o texto ou digitar comandos, e o Webpilot fornecerá informações em tempo real e tarefas inteligentes...

DB-GPT:构建AI原生数据应用开发框架,集成多模型管理与智能数据处理-首席AI分享圈

DB-GPT: criação de uma estrutura de desenvolvimento de aplicativos de dados nativos de IA, integrando gerenciamento de vários modelos e processamento inteligente de dados

Introdução abrangente O DB-GPT é uma estrutura de desenvolvimento de aplicativos de dados nativos de IA de código aberto criada usando AWEL (Agentic Workflow Expression Language) e tecnologias de corpo inteligente. O projeto tem como objetivo criar uma infraestrutura no campo de modelos grandes por meio do desenvolvimento de vários recursos técnicos, incluindo um sistema de gerenciamento de vários modelos (SMMF),...

DreamTalk:使用一张头像图片即可生成表情丰富的说话视频-首席AI分享圈

DreamTalk: Gere vídeos de conversação expressivos com uma única imagem de avatar!

DreamTalk Introdução abrangente O DreamTalk é uma estrutura de geração de talking head de expressão orientada por modelo de difusão, desenvolvida em conjunto pela Universidade de Tsinghua, pelo Grupo Alibaba e pela Universidade de Ciência e Tecnologia de Huazhong. Ele consiste principalmente em três partes: uma rede de redução de ruído, um especialista em lábios com reconhecimento de estilo e um preditor de estilo, e é capaz de gerar uma variedade de entradas de áudio com base em...

InstantID:上传一张图片,迁移人像特征来生成不同风格图片-首席AI分享圈

InstantID: carregue uma imagem e migre os recursos de retrato para gerar diferentes estilos de imagens

Introdução abrangente O InstantID é uma tecnologia avançada voltada para a geração de imagens com estilos ou poses personalizados em segundos, garantindo um alto nível de fidelidade com o uso de uma única imagem de identificação de referência. A tecnologia usa uma solução baseada em modelo de difusão, integrando imagens faciais, imagens de...

pt_BRPortuguês do Brasil