AIパーソナル・ラーニング
と実践的なガイダンス
TRAE
合計992記事

タグ: AIのオープンソースプロジェクト 4ページ

自动解析PDF内容并提取文字与表格的开源服务-首席AI分享圈

PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。

包括的な紹介 それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します:ビジュアルモデル(Vis...

Dolphin:面向亚洲语言识别与语音转文本模型-首席AI分享圈

ドルフィン:アジア言語認識とアジア言語のための音声テキストモデル

総合紹介 Dolphinは、DataoceanAIが清華大学と共同で開発した、アジア言語の音声認識と言語認識に特化したオープンソースモデルです。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしています。このモデルは、21万時間を超える...

AstrBot:具有WebUI的AI聊天机器人接入平台-首席AI分享圈

AstrBot:WebUIを備えたAIチャットボット・アクセス・プラットフォーム

包括的な紹介 AstrBotはオープンソースのチャットボット開発フレームワークで、QQ、Telegram、WeChatなどのメッセージングプラットフォームをサポートし、OpenAI、DeepSeek、Google Geminiなどの大規模言語モデル(LLM)に簡単にアクセスできます。このフレームワークは、プラグインシステム、ビジュアル管理パネル、複数の言語モデル(LLM)を提供します。

WeClone:用微信聊天记录和语音训练数字分身-首席AI分享圈

WeClone:WeChatのチャットログと音声を使ったデジタル・ドッペルゲンガーの育成

総合的な紹介 WeCloneは、WeChatのチャットログと音声メッセージを大規模な言語モデルと音声合成技術と組み合わせて使用するオープンソースプロジェクトであり、ユーザーはパーソナライズされたデジタル・ドッペルゲンガーを作成することができます。このプロジェクトは、ユーザーのチャットの習慣を分析してモデルを訓練するだけでなく、少数の音声サンプルを使用して、リアルな声クローンを生成することができます...

DiffPortrait360:从单张人像生成360度头部视图-首席AI分享圈

DiffPortrait360: 1枚のポートレートから360度のヘッドビューを生成

概論 DiffPortrait360は、CVPR 2025論文 DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis に関連するオープンソースプロジェクトです。DiffPortrait360は、1枚のポートレート写真から一貫性のある360度の頭部ビューを生成することができ、実際の人物をサポートします...

mcp-ui:基于MCP协议的简洁AI聊天界面-首席AI分享圈

mcp-ui: MCPプロトコルに基づいたクリーンなAIチャットインターフェース

包括的な紹介 mcp-uiは、開発者machaojin1917939763によって作成されたオープンソースプロジェクトであり、モデルコンテキストプロトコル(MCP)プロトコルに基づいて構築され、インテリジェントなチャットアプリケーションのWebおよびデスクトップ環境をサポートしています。MCPはAnthropicによって導入されたオープンなプロトコルであり、AIモデル...

Comp AI:自动化SOC 2、ISO 27001和GDPR合规的开源平台-首席AI分享圈

Comp AI: SOC 2、ISO 27001、GDPR コンプライアンスを自動化するオープンソースプラットフォーム

Comp AIは、米国サンフランシスコに本社を置くComp AI社によって開発されたオープンソースのプラットフォームです。Comp AIは、SOC 2、ISO 27001、GDPRなどのコンプライアンス要件を、自動化されたツールにより、数カ月ではなく数週間で準備することを目標に、組織の迅速なコンプライアンス対応を支援します。このプラットフォームは、Drata ...

RolmOCR:识别手写和倾斜字符的文档OCR模型-首席AI分享圈

RolmOCR: 手書き文字と斜め文字を認識する文書OCRモデル

包括的な紹介 RolmOCRは、Reducto AIチームによって開発されたオープンソースの光学式文字認識(OCR)ツールで、Qwen2.5-VL-7B視覚言語モデルに基づいています。類似のツールolmOCRよりも高速に画像やPDFファイルからテキストを抽出することができ、メモリフットプリントも小さくなっています。

KrillinAI:一键翻译和配音的视频多语言全球化工具-首席AI分享圈

KrillinAI: ワンクリックで翻訳とダビングができる動画用多言語グローバル化ツール

包括的な紹介 KrillinAIは、ユーザーがビデオを翻訳し、自動的にそれらをダビングするために人工知能を使用することに焦点を当てたオープンソースのビデオ処理ツールです。動画のダウンロードから始まり、様々なプラットフォームに適応した完成品の生成まで、全てのプロセスは数クリックで完了する。開発者はGitHubで無料のコードを提供しており、ユーザーは...

AiryLark:支持多格式文档智能翻译的开源工具-首席AI分享圈

AiryLark:多フォーマット文書のインテリジェント翻訳のためのオープンソースツール

包括的な紹介 AiryLarkは、Next.jsフレームワークに基づいて開発者wizdによって構築された、GitHub上でホストされているオープンソースの文書処理および翻訳ツールです。様々なファイル形式(PDF、Word、TXT、Markdownなど)の入力と処理をサポートし、インテリジェントな翻訳機能を提供します。ユーザーは ...

Zola:支持文档上传与多模型的开源AI聊天Web应用-首席AI分享圈

Zola:ドキュメントのアップロードとマルチモデルをサポートするオープンソースのAIチャット・ウェブアプリ

一般的な紹介 Zolaは、開発者Julien Thibeaut(GitHubユーザー名ibelick)によって開発され、GitHubでホストされているフリーでオープンソースのAIチャットアプリケーションである。最大の特徴は、OpenAIやMistralといった複数のAIモデルをサポートしていることで、ユーザーは異なるAIモデルを自由に選択することができます。

DeepResearcher:基于强化学习驱动AI研究复杂问题-首席AI分享圈

DeepResearcher:複雑な問題を研究する強化学習ベースのドライビングAI

包括的な紹介 DeepResearcherは、上海交通大学のGAIR-NLPチームによって開発されたオープンソースプロジェクトです。大規模言語モデル(LLM)をベースとし、強化学習(RL)を通じて実際のネットワーク環境でエンドツーエンドの学習を行うインテリジェントな研究ツールです。このプロジェクトは、ユーザが複雑な研究を効率的に完了できるようにすることを目的としています。

AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具-首席AI分享圈

AnimeGamer: 言語コマンドでアニメ動画とキャラクターのインタラクションを生成するオープンソースツール

AnimeGamerはテンセントのARC Labが開発したオープンソースツール。ユーザーは「宗介が紫色の車で走り回る」といった簡単な口頭命令でアニメ動画を生成できるほか、「魔法少女まどか☆マギカ」のキキや「天空の城ラピュタ」のパズなど、さまざまなアニメキャラクターを登場させることができる。それは...

Lumina-mGPT-2.0:处理多种图像生成任务的自回归图像生成模型-首席AI分享圈

Lumina-MGPT-2.0:複数の画像生成タスクを扱うための自己回帰画像生成モデル

一般的な紹介 Lumina-mGPT-2.0は、上海AI研究所(Shanghai AI Laboratory)、香港中文大学(Chinese University of Hong Kong:CUHK)、その他の組織によって共同開発されたオープンソースプロジェクトで、GitHubでホストされ、Alpha-VLLMチームによってメンテナンスされている。Alpha-VLLMはスタンドアロンの自己回帰モデルで、スクラッチから...

Agent S:像人类一样操作电脑的开源智能体框架-首席AI分享圈

エージェントS:人間のようにコンピュータを操作する知的体のためのオープンソース・フレームワーク

一般的な紹介 エージェントSは、Simular AI社が開発したオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース(GUI)を通じて、人間のようにコンピュータを操作することができる。マルチモーダル・マクロ言語モデルと経験的学習技術を使用し、ウェブ閲覧、文書編集、ソフトウェア使用などのタスクを実行する。プロジェクトはGitHubで公開されている。

BabelDOC:将PDF文档翻译成双语对照的开源工具-首席AI分享圈

BabelDOC:PDF文書がバイリンガルのオープンソースツールに翻訳される

一般的な紹介 BabelDOCは、PDF文書をバイリンガル形式に翻訳するために設計されたオープンソースツールです。funstory-aiチームによって開発され、GitHubでホストされています。主に、研究者、学生、技術者など、外国語のドキュメントを扱う必要があるユーザーのために開発されています。

Text2Voice:基于硅基流动API的文本转语音图形界面-首席AI分享圈

Text2Voice:シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース

一般的な紹介 Text2Voiceは、シリコンベースのモビリティAPIに基づくテキスト読み上げ機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース(GUI)を最大の特徴としている。開発者のSheldon Lee氏によってGitHub上で作成され、ユーザーが簡単にテキストを音声に変換できるインターフェースとなっている。アイテム...

FreeAI:基于Pollinations封装的的免费AI工具-首席AI分享圈

FreeAI: PollinationsパッケージをベースにしたフリーのAIツール。

概要 FreeAIはPollinations.AI APIをベースとしたオープンソースのAIアプリケーションプラットフォームであり、無料で無制限のAIチャットアシスタント、画像生成、音声合成サービスを提供する。開発者のAzad-slがGitHubで作成したこのプロジェクトの主な特徴は、純粋なHTMLファイルを使用して開発することです...

优化代码生成和展示的Open WebUI-首席AI分享圈

最適化されたコード生成と表示のためのオープンWebUI

概論 Open WebUI Artifacts Overhaulは、開発者Nick Tonjumによって開発されたOpen WebUIをベースにしたフォークプロジェクトです。コード生成とプレゼンテーションのためのAIの機能改善に焦点を当てたオープンソースツールである。これにより、ユーザーはAIにコードを生成させ、インターフェイスを直接...

ja日本語