AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel
Insgesamt 1020 Artikel

Tags: KI Open-Source-Projekte Seite 29

Midscene.js:用AI驱动浏览器自动化测试的开源插件-首席AI分享圈

Midscene.js: ein Open-Source-Plugin, das Browser-Automatisierungstests mit KI unterstützt

Allgemeine Einführung Midscene.js ist ein KI-gesteuertes Browser-Automatisierungstool, das in der Lage ist, Webseiten zu steuern, Assertions auszuführen und Daten durch natürlichsprachliche Befehle zu extrahieren. Es unterstützt Chrome-Erweiterungen, JavaScript-SDKs und YAML-Skripte und vereinfacht so das Schreiben und Warten von UI-Tests. Durch die Nutzung multimodaler großer ...

视频分析工具(Video Analyzer):分析视频内容并生成详细描述-首席AI分享圈

Video Analyzer: analysiert Videoinhalte und erstellt detaillierte Beschreibungen

Comprehensive Introduction Video Analyzer ist ein umfassendes Videoanalysetool, das Computer Vision, Audiotranskription und Techniken zur Verarbeitung natürlicher Sprache kombiniert, um detaillierte Beschreibungen von Videoinhalten zu erstellen. Das Tool extrahiert Schlüsselbilder aus dem Video, transkribiert den Audioinhalt und generiert natürlichsprachliche...

Unsloth:高效微调和训练大语言模型的开源工具-首席AI分享圈

Unsloth: ein Open-Source-Tool für die effiziente Feinabstimmung und das Training großer Sprachmodelle

Umfassende Einführung Unsloth ist ein Open-Source-Projekt, das effiziente Werkzeuge für die Feinabstimmung und das Training von Large Language Models (LLMs) bereitstellt. Das Projekt unterstützt eine breite Palette bekannter Modelle, darunter Llama, Mistral, Phi und Gemma usw. Die wichtigsten Merkmale von Unsloth sind die Fähigkeit, den Speicherverbrauch erheblich zu reduzieren und das Training zu beschleunigen...

MaxKB:开箱即用的AI知识库问答系统,适合智能客服和企业内部知识库-首席AI分享圈

MaxKB: Sofort einsatzbereites KI-Wissensdatenbank-Q&A-System für intelligenten Kundenservice und interne Wissensdatenbank

Umfassende Einführung MaxKB (Max Knowledge Base) ist ein Open-Source-Wissensdatenbank-Q&A-System, das auf großen Sprachmodellen und RAG (Retrieval Augmented Generation) basiert. Das System ist weit verbreitet in intelligenten Kundenservice, unternehmensinterne Wissensdatenbank, akademische Forschung und Bildung und andere Szenarien verwendet.MaxKB unterstützt direkte Upload-Dokumente oder automatisch crawlen in...

OmniThink:生成高质量长文的写作框架,搜索外部知识后反思并逐步构建知识树-首席AI分享圈

OmniThink: ein Schreibrahmen für die Erstellung hochwertiger langer Aufsätze, die Suche nach externem Wissen und die anschließende Reflexion darüber sowie der schrittweise Aufbau eines Wissensbaums

Umfassende Einführung OmniThink ist ein innovatives Framework für maschinelles Schreiben, das entwickelt wurde, um qualitativ hochwertige, lange Artikel zu erstellen, indem es die iterative Erweiterung und Reflexion menschlicher kognitiver Prozesse nachahmt. Das Framework konzentriert sich darauf, die Grenzen des Wissens zu erweitern und Informationen zu generieren, die reichhaltig und tiefgründig sind.OmniThink generiert Artikel, indem es Umrisse und...

OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)-首席AI分享圈

OpenAI Realtime Agents: Eine multiintelligente Körper-Sprach-Interaktions-Anwendung (OpenAI-Beispiel)

Allgemeine Einführung OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-API von OpenAI verwendet werden kann, um multi-intelligente Körpersprachanwendungen zu erstellen. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt von OpenAI Swarm), das es Entwicklern ermöglicht, komplexe multi-intelligente Körpersprachsysteme in kurzer Zeit zu erstellen...

DeepFace:实现面部年龄、性别、情绪、种族识别的轻量级Python库-首席AI分享圈

DeepFace: eine leichtgewichtige Python-Bibliothek zur Erkennung von Alter, Geschlecht, Emotionen und Ethnie im Gesicht

Allgemeine Einführung DeepFace ist eine leichtgewichtige Python-Bibliothek für die Gesichtserkennung und die Analyse von Gesichtsmerkmalen (einschließlich Alter, Geschlecht, Emotionen und ethnischer Zugehörigkeit). Sie integriert mehrere fortschrittliche Gesichtserkennungsmodelle wie VGG-Face, FaceNet, OpenFace, DeepFace, DeepID, ArcFace, Dlib, SFace...

SynthLight:对肖像图像进行自然光照渲染(未发布)-首席AI分享圈

SynthLight: Rendering von Porträtbildern mit natürlichem Licht (unveröffentlicht)

Allgemeine Beschreibung SynthLight ist ein Porträt-Relighting-Tool, das auf einem Diffusionsmodell basiert. Es lernt, synthetische Gesichtsbilder neu zu rendern, um die Anpassung von Lichteffekten an echte Porträtfotos zu ermöglichen. Das Tool verwendet eine physikalische Rendering-Engine, um Datensätze zu erzeugen, die Lichttransformationen unter verschiedenen Beleuchtungsbedingungen simulieren....

1-2-1-MNVTON:高效图像、视频中人物虚拟试穿服装(待开放)-首席AI分享圈

1-2-1-MNVTON: Effiziente Bilder, virtuelle Anprobe von Kleidung durch Personen in Videos (noch zu öffnen)

Allgemeine Einführung 1-2-1-MNVTON ist ein auf GitHub basierendes Open-Source-Projekt, das eine effiziente virtuelle Erprobung durch die Technologie "Modalitätsspezifische Normalisierung für virtuelle Erprobung" (MNVTON) anstrebt. Das Projekt löst das Problem des hohen Rechenaufwands bei herkömmlichen virtuellen Try-On-Techniken, indem es ...

Kokoro-ONNX: Effizientes Text-to-Speech-Tool mit Unterstützung für mehrere Sprachen und Stimmen

Allgemeine Einführung Kokoro-ONNX ist ein Open-Source-Tool für Text-to-Speech (TTS), das auf der ONNX-Laufzeitumgebung basiert. Entwickelt von thewh1teagle, zielt das Projekt darauf ab, effiziente und schnelle Sprachsyntheselösungen bereitzustellen. Kokoro-ONNX unterstützt mehrere Sprachen, darunter Englisch, und plant die Unterstützung von Französisch, Japanisch, Koreanisch...

Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR-首席AI分享圈

Zerox: PDF, DOCX, Bildkonvertierung in Markdown, visuelles Modell, hochpräzise OCR

Umfassende Einführung Zerox ist ein Open-Source-Projekt entwickelt, um PDF, DOCX, Bilder und andere Dokumente in Markdown-Format durch visuelle Modelle zu konvertieren. Das Projekt wird von getomni-ai Team entwickelt, bietet eine einfache und effiziente OCR (Optical Character Recognition) Lösung.Zerox unterstützt Node und Python Programmiersprachen, ...

Charla:基于终端的极简AI聊天工具,本地集成Ollama后端-首席AI分享圈

Charla: ein minimalistisches, endpunktbasiertes KI-Chat-Tool mit nativer Integration in das Ollama-Backend

Allgemeine Beschreibung Charla ist eine endpunktbasierte Chat-Anwendung, die für den Dialog mit muttersprachlichen Modellen entwickelt wurde. Die Anwendung ist in das Ollama-Backend integriert, unterstützt kontextabhängige Dialoge und speichert Chatsitzungen als Markdown-Dateien. Benutzer können sie durch einfache Befehlszeilenoperationen starten und aktivieren...

MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块-首席AI分享圈

MiniRAG: Simplified Retrieval Enhanced Generation Framework, Entity Graph Index Recall Relevante Textblöcke

Umfassende Einführung MiniRAG ist ein extrem einfaches Retrieval Augmented Generation (RAG)-Framework, das darauf abzielt, eine gute RAG-Leistung auch für kleine Modelle durch heterogene Graphenindizierung und leichtgewichtiges topologieerweitertes Retrieval zu ermöglichen. Es wurde vom Hong Kong University Data Science Laboratory (HKUDS) entwickelt und konzentriert sich auf die Lösung des Small Language Model (SLM)...

Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力-首席AI分享圈

Omni-RGPT: Ein multimodales Grand-Modell für das Verständnis von Bild- und Videoregionen zur Verbesserung der Analyse visueller Inhalte

Umfassende Einführung Omni-RGPT ist ein multimodales großes Sprachmodell, das das Verständnis von Bildern und Videos auf Regionsebene ermöglicht. Durch die Einführung der Token-Mark-Technik ist Omni-RGPT in der Lage, Zielregionen im visuellen Merkmalsraum zu markieren und diese Token direkt durch regionale Hinweise (z.B. Boxen oder Masken) einzubetten, während...

百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流-首席AI分享圈

Bailing: ein quelloffener Sprachdialogassistent mit niedriger Latenz für natürliche Konversation und Kommunikation

Umfassende Einführung Bailing (Bailing) ist ein Open-Source-Sprachdialog-Assistent, der entwickelt wurde, um natürliche Unterhaltungen mit Benutzern durch Sprache zu führen. Das Projekt kombiniert Spracherkennung (ASR), Voice Activity Detection (VAD), Large Language Modelling (LLM) und Sprachsynthese (TTS) Technologien, um eine GPT-4o-ähnliche...

元界AI:开源版AI数字人克隆与短视频生成工具-首席AI分享圈

Metaverse AI: Open-Source-Version des Tools zum digitalen Klonen von Menschen und zur Erstellung kurzer Videos

Umfassende Einführung Metaverse AI (Open-Source-Version) ist ein auf GitHub gehostetes Projekt, das vom libn-net-Team entwickelt wurde. Es kann digitale menschliche Bilder und Stimmen durch KI-Technologie klonen, um kurze Videos zu erzeugen, und unterstützt auch Synchronisation und Untertitelung. Das Tool ist verfügbar für Windows, Web, H5 und kleine...

WikiChat:使用维基百科数据检索知识的聊天工具-首席AI分享圈

WikiChat: ein Chat-Tool zum Abrufen von Wissen anhand von Wikipedia-Daten

Allgemeine Einführung WikiChat ist ein experimenteller Chatbot, der an der Stanford University entwickelt wurde und darauf abzielt, die Faktizität von großen Sprachmodellen zu verbessern, indem er Daten aus Wikipedia abruft. Große Sprachmodelle (wie ChatGPT und GPT-4) neigen dazu, Fehler zu machen, wenn es um aktuelle Informationen oder weniger populäre Themen geht.WikiCh...

AIEvo:创建多智能体协作应用的高效框架-首席AI分享圈

AIEvo: Ein effizientes Rahmenwerk für die Erstellung multiintelligenter kollaborativer Anwendungen

Allgemeine Einführung AIEvo ist das Open-Source-Multi-Agent-Framework der Ant Group, das für die effiziente Erstellung von Multi-Agent-Anwendungen entwickelt wurde. Das Framework folgt strikt dem SOP-Aufgabengraphen, um die Erfolgsrate bei der Ausführung komplexer Aufgaben zu verbessern und durch Feedback- und Überwachungsmechanismen eine hohe Flexibilität und Skalierbarkeit zu gewährleisten.AIEvo wurde in der internen Produktionsumgebung der Ant Group verifiziert ...

de_DEDeutsch