Aprendizagem pessoal com IA
e orientação prática
TRAE
Total de 1020 artigos

Tags: ai projetos de código aberto Página 29

Midscene.js:用AI驱动浏览器自动化测试的开源插件-首席AI分享圈

Midscene.js: um plug-in de código aberto que impulsiona os testes de automação do navegador com IA

Introdução geral O Midscene.js é uma ferramenta de automação de navegador com tecnologia de IA capaz de controlar páginas da Web, executar asserções e extrair dados por meio de comandos de linguagem natural. Ele é compatível com extensões do Chrome, SDKs JavaScript e scripts YAML, simplificando o processo de criação e manutenção de testes de interface do usuário. Aproveitando a grande variedade multimodal ...

视频分析工具(Video Analyzer):分析视频内容并生成详细描述-首席AI分享圈

Video Analyzer: analisa o conteúdo do vídeo e gera descrições detalhadas

O Comprehensive Introduction Video Analyzer é uma ferramenta abrangente de análise de vídeo que combina visão computacional, transcrição de áudio e técnicas de processamento de linguagem natural para gerar descrições detalhadas do conteúdo do vídeo. A ferramenta faz isso extraindo quadros-chave do vídeo, transcrevendo o conteúdo de áudio e gerando descrições de linguagem natural...

Unsloth:高效微调和训练大语言模型的开源工具-首席AI分享圈

Unsloth: uma ferramenta de código aberto para ajuste fino e treinamento eficientes de modelos de linguagem grandes

Introdução abrangente O Unsloth é um projeto de código aberto criado para fornecer ferramentas eficientes para o ajuste fino e o treinamento de grandes modelos de linguagem (LLMs). O projeto oferece suporte a uma ampla variedade de modelos conhecidos, incluindo Llama, Mistral, Phi e Gemma, etc. Os principais recursos do Unsloth são a capacidade de reduzir significativamente o uso da memória e acelerar o treinamento...

MaxKB:开箱即用的AI知识库问答系统,适合智能客服和企业内部知识库-首席AI分享圈

MaxKB: sistema de perguntas e respostas com base de conhecimento de IA pronto para uso para atendimento inteligente ao cliente e base de conhecimento interna

Introdução abrangente O MaxKB (Max Knowledge Base) é um sistema de Q&A de base de conhecimento de código aberto baseado em grandes modelos de linguagem e RAG (Retrieval Augmented Generation). O sistema é amplamente utilizado no atendimento inteligente ao cliente, na base de conhecimento interna da empresa, na pesquisa e educação acadêmicas e em outros cenários.

OmniThink:生成高质量长文的写作框架,搜索外部知识后反思并逐步构建知识树-首席AI分享圈

OmniThink: uma estrutura de redação para gerar ensaios longos de alta qualidade, buscando conhecimento externo e, em seguida, refletindo sobre ele e criando uma árvore de conhecimento passo a passo

Introdução abrangente O OmniThink é uma estrutura inovadora de escrita automática projetada para gerar artigos longos e de alta qualidade, imitando a expansão iterativa e a reflexão dos processos cognitivos humanos. A estrutura se concentra em ampliar os limites do conhecimento e gerar informações ricas e profundas. O OmniThink gera artigos criando esboços e...

OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)-首席AI分享圈

Agentes em tempo real da OpenAI: um aplicativo de interação de fala corporal multiinteligente (exemplo da OpenAI)

Introdução geral O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como a API em tempo real do OpenAI pode ser usada para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo...

SynthLight:对肖像图像进行自然光照渲染(未发布)-首席AI分享圈

SynthLight: renderização de luz natural de imagens de retrato (não publicado)

Descrição geral O SynthLight é uma ferramenta de reiluminação de retratos baseada em um modelo de difusão. Ela aprende a renderizar novamente imagens sintéticas de rostos para obter ajustes de efeitos de iluminação em fotos de retratos reais. A ferramenta usa um mecanismo de renderização física para gerar conjuntos de dados que simulam transformações de iluminação sob diferentes condições de iluminação.

1-2-1-MNVTON:高效图像、视频中人物虚拟试穿服装(待开放)-首席AI分享圈

1-2-1-MNVTON: Imagens eficientes, experimentação virtual de roupas por pessoas em vídeos (a serem abertos)

Introdução geral 1-2-1 - O MNVTON é um projeto de código aberto baseado no GitHub que tem como objetivo obter um teste virtual eficiente por meio da tecnologia "Modality-specific Normalization for Virtual Try-On" (MNVTON). O projeto resolve o problema do alto custo computacional das técnicas tradicionais de teste virtual, fornecendo ...

Kokoro-ONNX: ferramenta eficiente de conversão de texto em fala com suporte a vários idiomas e várias vozes

Introdução geral O Kokoro-ONNX é uma ferramenta de conversão de texto em fala (TTS) de código aberto baseada no tempo de execução do ONNX. Desenvolvido por thewh1teagle, o projeto tem como objetivo fornecer soluções eficientes e rápidas de síntese de fala. O Kokoro-ONNX é compatível com vários idiomas, inclusive inglês, e planeja oferecer suporte a francês, japonês, coreano...

Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR-首席AI分享圈

Zerox: PDF, DOCX, conversão de imagem para Markdown, OCR de alta precisão de modelo visual

Introdução abrangente O Zerox é um projeto de código aberto desenvolvido para converter PDF, DOCX, imagens e outros documentos em formato Markdown por meio de modelos visuais. O projeto foi desenvolvido pela equipe getomni-ai e oferece uma solução simples e eficiente de OCR (reconhecimento óptico de caracteres). O Zerox é compatível com as linguagens de programação Node e Python, ...

Charla:基于终端的极简AI聊天工具,本地集成Ollama后端-首席AI分享圈

Charla: uma ferramenta minimalista de bate-papo com IA baseada em endpoint com integração nativa ao back-end do Ollama

Descrição geral O Charla é um aplicativo de bate-papo baseado em endpoint projetado para dialogar com modelos de idioma nativo. O aplicativo se integra ao back-end do Ollama, oferece suporte ao diálogo com reconhecimento de contexto e salva as sessões de bate-papo como arquivos Markdown. Os usuários podem iniciar e ativar o aplicativo por meio de operações simples de linha de comando...

MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块-首席AI分享圈

MiniRAG: estrutura de geração aprimorada de recuperação simplificada, índice de gráfico de entidades, recordação de blocos de texto relevantes

Introdução abrangente O MiniRAG é uma estrutura extremamente simples do Retrieval Augmented Generation (RAG) que visa permitir um bom desempenho do RAG mesmo para modelos pequenos por meio de indexação de gráficos heterogêneos e recuperação leve com aprimoramento de topologia. Ele foi desenvolvido pelo Laboratório de Ciência de Dados da Universidade de Hong Kong (HKUDS) e se concentra na solução do Modelo de Linguagem Pequena (SLM)...

Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力-首席AI分享圈

Omni-RGPT: um grande modelo multimodal para compreensão em nível de região de imagens e vídeos para aprimorar a análise de conteúdo visual

Introdução abrangente O Omni-RGPT é um modelo multimodal de linguagem ampla projetado para permitir a compreensão de imagens e vídeos em nível de região. Ao introduzir a técnica Token Mark, o Omni-RGPT é capaz de destacar regiões-alvo no espaço de recursos visuais e incorporar esses tokens diretamente por meio de dicas de região (por exemplo, caixas ou máscaras), ao mesmo tempo em que...

百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流-首席AI分享圈

Bailing: um assistente de diálogo de voz de código aberto de baixa latência para conversação e comunicação naturais

Introdução abrangente O Bailing (Bailing) é um assistente de diálogo de voz de código aberto projetado para se envolver em conversas naturais com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelagem de linguagem ampla (LLM) e síntese de fala (TTS) para obter uma fala semelhante à do GPT-4o...

元界AI:开源版AI数字人克隆与短视频生成工具-首席AI分享圈

Metaverse AI: versão de código aberto da ferramenta de geração de vídeos curtos e clonagem digital de humanos por IA

Introdução abrangente O Metaverse AI (versão de código aberto) é um projeto hospedado no GitHub, desenvolvido pela equipe da libn-net. Ele pode clonar imagens e vozes humanas digitais por meio da tecnologia de IA para gerar vídeos curtos e também suporta dublagem e legendagem. A ferramenta está disponível para Windows, Web, H5 e pequenas...

WikiChat:使用维基百科数据检索知识的聊天工具-首席AI分享圈

WikiChat: uma ferramenta de bate-papo para recuperar conhecimento usando dados da Wikipédia

Introdução geral O WikiChat é um chatbot experimental desenvolvido na Universidade de Stanford com o objetivo de aprimorar a factualidade de modelos de linguagem grandes, recuperando dados da Wikipédia. Grandes modelos de linguagem (como o ChatGPT e o GPT-4) tendem a cometer erros ao lidar com informações atualizadas ou tópicos menos populares.

OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式-首席AI分享圈

OpenAI Edge TTS: API gratuita de conversão de texto em fala usando o Edge TTS, compatível com os formatos OpenAI

Introdução geral O OpenAI Edge TTS é um projeto de código aberto que fornece uma API de conversão de texto em fala (TTS) nativa compatível com o OpenAI. O projeto usa o serviço de conversão de texto em fala on-line do Microsoft Edge para permitir que os usuários gerem uma saída de fala de alta qualidade.

AIEvo:创建多智能体协作应用的高效框架-首席AI分享圈

AIEvo: uma estrutura eficiente para a criação de aplicativos colaborativos multiinteligentes

Introdução geral AIEvo é a estrutura multiagente de código aberto do Ant Group, projetada para criar aplicativos multiagentes com eficiência. A estrutura segue rigorosamente o gráfico de tarefas SOP para melhorar a taxa de sucesso da execução de tarefas complexas e, por meio de mecanismos de feedback e monitoramento, garante alta flexibilidade e escalabilidade.

pt_BRPortuguês do Brasil