Introdução geral O Midscene.js é uma ferramenta de automação de navegador com tecnologia de IA capaz de controlar páginas da Web, executar asserções e extrair dados por meio de comandos de linguagem natural. Ele é compatível com extensões do Chrome, SDKs JavaScript e scripts YAML, simplificando o processo de criação e manutenção de testes de interface do usuário. Aproveitando a grande variedade multimodal ...
O Comprehensive Introduction Video Analyzer é uma ferramenta abrangente de análise de vídeo que combina visão computacional, transcrição de áudio e técnicas de processamento de linguagem natural para gerar descrições detalhadas do conteúdo do vídeo. A ferramenta faz isso extraindo quadros-chave do vídeo, transcrevendo o conteúdo de áudio e gerando descrições de linguagem natural...
Habilite o modo de programação inteligente Builder, uso ilimitado do DeepSeek-R1 e DeepSeek-V3, experiência mais suave do que a versão internacional. Basta digitar os comandos chineses, sem conhecimento de programação, para escrever seus próprios aplicativos.
Introdução abrangente O Unsloth é um projeto de código aberto criado para fornecer ferramentas eficientes para o ajuste fino e o treinamento de grandes modelos de linguagem (LLMs). O projeto oferece suporte a uma ampla variedade de modelos conhecidos, incluindo Llama, Mistral, Phi e Gemma, etc. Os principais recursos do Unsloth são a capacidade de reduzir significativamente o uso da memória e acelerar o treinamento...
Introdução abrangente O MaxKB (Max Knowledge Base) é um sistema de Q&A de base de conhecimento de código aberto baseado em grandes modelos de linguagem e RAG (Retrieval Augmented Generation). O sistema é amplamente utilizado no atendimento inteligente ao cliente, na base de conhecimento interna da empresa, na pesquisa e educação acadêmicas e em outros cenários.
Introdução abrangente O OmniThink é uma estrutura inovadora de escrita automática projetada para gerar artigos longos e de alta qualidade, imitando a expansão iterativa e a reflexão dos processos cognitivos humanos. A estrutura se concentra em ampliar os limites do conhecimento e gerar informações ricas e profundas. O OmniThink gera artigos criando esboços e...
Introdução geral O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como a API em tempo real do OpenAI pode ser usada para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo...
Introdução geral O DeepFace é uma biblioteca Python leve para reconhecimento facial e análise de atributos faciais (incluindo idade, gênero, emoção e etnia). Ela integra vários modelos avançados de reconhecimento facial, como VGG-Face, FaceNet, OpenFace, DeepFace, DeepID, ArcFace, Dlib, SFace...
Descrição geral O SynthLight é uma ferramenta de reiluminação de retratos baseada em um modelo de difusão. Ela aprende a renderizar novamente imagens sintéticas de rostos para obter ajustes de efeitos de iluminação em fotos de retratos reais. A ferramenta usa um mecanismo de renderização física para gerar conjuntos de dados que simulam transformações de iluminação sob diferentes condições de iluminação.
Introdução geral 1-2-1 - O MNVTON é um projeto de código aberto baseado no GitHub que tem como objetivo obter um teste virtual eficiente por meio da tecnologia "Modality-specific Normalization for Virtual Try-On" (MNVTON). O projeto resolve o problema do alto custo computacional das técnicas tradicionais de teste virtual, fornecendo ...
Introdução geral O Kokoro-ONNX é uma ferramenta de conversão de texto em fala (TTS) de código aberto baseada no tempo de execução do ONNX. Desenvolvido por thewh1teagle, o projeto tem como objetivo fornecer soluções eficientes e rápidas de síntese de fala. O Kokoro-ONNX é compatível com vários idiomas, inclusive inglês, e planeja oferecer suporte a francês, japonês, coreano...
Introdução abrangente O Zerox é um projeto de código aberto desenvolvido para converter PDF, DOCX, imagens e outros documentos em formato Markdown por meio de modelos visuais. O projeto foi desenvolvido pela equipe getomni-ai e oferece uma solução simples e eficiente de OCR (reconhecimento óptico de caracteres). O Zerox é compatível com as linguagens de programação Node e Python, ...
Descrição geral O Charla é um aplicativo de bate-papo baseado em endpoint projetado para dialogar com modelos de idioma nativo. O aplicativo se integra ao back-end do Ollama, oferece suporte ao diálogo com reconhecimento de contexto e salva as sessões de bate-papo como arquivos Markdown. Os usuários podem iniciar e ativar o aplicativo por meio de operações simples de linha de comando...
Introdução abrangente O MiniRAG é uma estrutura extremamente simples do Retrieval Augmented Generation (RAG) que visa permitir um bom desempenho do RAG mesmo para modelos pequenos por meio de indexação de gráficos heterogêneos e recuperação leve com aprimoramento de topologia. Ele foi desenvolvido pelo Laboratório de Ciência de Dados da Universidade de Hong Kong (HKUDS) e se concentra na solução do Modelo de Linguagem Pequena (SLM)...
Introdução abrangente O Omni-RGPT é um modelo multimodal de linguagem ampla projetado para permitir a compreensão de imagens e vídeos em nível de região. Ao introduzir a técnica Token Mark, o Omni-RGPT é capaz de destacar regiões-alvo no espaço de recursos visuais e incorporar esses tokens diretamente por meio de dicas de região (por exemplo, caixas ou máscaras), ao mesmo tempo em que...
Introdução abrangente O Bailing (Bailing) é um assistente de diálogo de voz de código aberto projetado para se envolver em conversas naturais com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelagem de linguagem ampla (LLM) e síntese de fala (TTS) para obter uma fala semelhante à do GPT-4o...
Introdução abrangente O Metaverse AI (versão de código aberto) é um projeto hospedado no GitHub, desenvolvido pela equipe da libn-net. Ele pode clonar imagens e vozes humanas digitais por meio da tecnologia de IA para gerar vídeos curtos e também suporta dublagem e legendagem. A ferramenta está disponível para Windows, Web, H5 e pequenas...
Introdução geral O WikiChat é um chatbot experimental desenvolvido na Universidade de Stanford com o objetivo de aprimorar a factualidade de modelos de linguagem grandes, recuperando dados da Wikipédia. Grandes modelos de linguagem (como o ChatGPT e o GPT-4) tendem a cometer erros ao lidar com informações atualizadas ou tópicos menos populares.
Introdução geral O OpenAI Edge TTS é um projeto de código aberto que fornece uma API de conversão de texto em fala (TTS) nativa compatível com o OpenAI. O projeto usa o serviço de conversão de texto em fala on-line do Microsoft Edge para permitir que os usuários gerem uma saída de fala de alta qualidade.
Introdução geral AIEvo é a estrutura multiagente de código aberto do Ant Group, projetada para criar aplicativos multiagentes com eficiência. A estrutura segue rigorosamente o gráfico de tarefas SOP para melhorar a taxa de sucesso da execução de tarefas complexas e, por meio de mecanismos de feedback e monitoramento, garante alta flexibilidade e escalabilidade.
Não consegue encontrar ferramentas de IA? Tente aqui!
Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.