
PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。
包括的な紹介 それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します:ビジュアルモデル(Vis...
包括的な紹介 それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します:ビジュアルモデル(Vis...
総合紹介 Dolphinは、DataoceanAIが清華大学と共同で開発した、アジア言語の音声認識と言語認識に特化したオープンソースモデルです。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしています。このモデルは、21万時間を超える...
ビルダーインテリジェントプログラミングモード、DeepSeek-R1とDeepSeek-V3の無制限の使用、海外版よりも滑らかな経験を有効にします。ただ、中国語のコマンドを入力し、プログラミングの知識はまた、独自のアプリケーションを書くためにゼロしきい値をすることはできません。
包括的な紹介 AstrBotはオープンソースのチャットボット開発フレームワークで、QQ、Telegram、WeChatなどのメッセージングプラットフォームをサポートし、OpenAI、DeepSeek、Google Geminiなどの大規模言語モデル(LLM)に簡単にアクセスできます。このフレームワークは、プラグインシステム、ビジュアル管理パネル、複数の言語モデル(LLM)を提供します。
総合的な紹介 WeCloneは、WeChatのチャットログと音声メッセージを大規模な言語モデルと音声合成技術と組み合わせて使用するオープンソースプロジェクトであり、ユーザーはパーソナライズされたデジタル・ドッペルゲンガーを作成することができます。このプロジェクトは、ユーザーのチャットの習慣を分析してモデルを訓練するだけでなく、少数の音声サンプルを使用して、リアルな声クローンを生成することができます...
概論 DiffPortrait360は、CVPR 2025論文 DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis に関連するオープンソースプロジェクトです。DiffPortrait360は、1枚のポートレート写真から一貫性のある360度の頭部ビューを生成することができ、実際の人物をサポートします...
包括的な紹介 mcp-uiは、開発者machaojin1917939763によって作成されたオープンソースプロジェクトであり、モデルコンテキストプロトコル(MCP)プロトコルに基づいて構築され、インテリジェントなチャットアプリケーションのWebおよびデスクトップ環境をサポートしています。MCPはAnthropicによって導入されたオープンなプロトコルであり、AIモデル...
Comp AIは、米国サンフランシスコに本社を置くComp AI社によって開発されたオープンソースのプラットフォームです。Comp AIは、SOC 2、ISO 27001、GDPRなどのコンプライアンス要件を、自動化されたツールにより、数カ月ではなく数週間で準備することを目標に、組織の迅速なコンプライアンス対応を支援します。このプラットフォームは、Drata ...
包括的な紹介 RolmOCRは、Reducto AIチームによって開発されたオープンソースの光学式文字認識(OCR)ツールで、Qwen2.5-VL-7B視覚言語モデルに基づいています。類似のツールolmOCRよりも高速に画像やPDFファイルからテキストを抽出することができ、メモリフットプリントも小さくなっています。
包括的な紹介 KrillinAIは、ユーザーがビデオを翻訳し、自動的にそれらをダビングするために人工知能を使用することに焦点を当てたオープンソースのビデオ処理ツールです。動画のダウンロードから始まり、様々なプラットフォームに適応した完成品の生成まで、全てのプロセスは数クリックで完了する。開発者はGitHubで無料のコードを提供しており、ユーザーは...
包括的な紹介 AiryLarkは、Next.jsフレームワークに基づいて開発者wizdによって構築された、GitHub上でホストされているオープンソースの文書処理および翻訳ツールです。様々なファイル形式(PDF、Word、TXT、Markdownなど)の入力と処理をサポートし、インテリジェントな翻訳機能を提供します。ユーザーは ...
一般的な紹介 Zolaは、開発者Julien Thibeaut(GitHubユーザー名ibelick)によって開発され、GitHubでホストされているフリーでオープンソースのAIチャットアプリケーションである。最大の特徴は、OpenAIやMistralといった複数のAIモデルをサポートしていることで、ユーザーは異なるAIモデルを自由に選択することができます。
包括的な紹介 DeepResearcherは、上海交通大学のGAIR-NLPチームによって開発されたオープンソースプロジェクトです。大規模言語モデル(LLM)をベースとし、強化学習(RL)を通じて実際のネットワーク環境でエンドツーエンドの学習を行うインテリジェントな研究ツールです。このプロジェクトは、ユーザが複雑な研究を効率的に完了できるようにすることを目的としています。
AnimeGamerはテンセントのARC Labが開発したオープンソースツール。ユーザーは「宗介が紫色の車で走り回る」といった簡単な口頭命令でアニメ動画を生成できるほか、「魔法少女まどか☆マギカ」のキキや「天空の城ラピュタ」のパズなど、さまざまなアニメキャラクターを登場させることができる。それは...
一般的な紹介 Lumina-mGPT-2.0は、上海AI研究所(Shanghai AI Laboratory)、香港中文大学(Chinese University of Hong Kong:CUHK)、その他の組織によって共同開発されたオープンソースプロジェクトで、GitHubでホストされ、Alpha-VLLMチームによってメンテナンスされている。Alpha-VLLMはスタンドアロンの自己回帰モデルで、スクラッチから...
一般的な紹介 エージェントSは、Simular AI社が開発したオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース(GUI)を通じて、人間のようにコンピュータを操作することができる。マルチモーダル・マクロ言語モデルと経験的学習技術を使用し、ウェブ閲覧、文書編集、ソフトウェア使用などのタスクを実行する。プロジェクトはGitHubで公開されている。
一般的な紹介 BabelDOCは、PDF文書をバイリンガル形式に翻訳するために設計されたオープンソースツールです。funstory-aiチームによって開発され、GitHubでホストされています。主に、研究者、学生、技術者など、外国語のドキュメントを扱う必要があるユーザーのために開発されています。
一般的な紹介 Text2Voiceは、シリコンベースのモビリティAPIに基づくテキスト読み上げ機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース(GUI)を最大の特徴としている。開発者のSheldon Lee氏によってGitHub上で作成され、ユーザーが簡単にテキストを音声に変換できるインターフェースとなっている。アイテム...
概要 FreeAIはPollinations.AI APIをベースとしたオープンソースのAIアプリケーションプラットフォームであり、無料で無制限のAIチャットアシスタント、画像生成、音声合成サービスを提供する。開発者のAzad-slがGitHubで作成したこのプロジェクトの主な特徴は、純粋なHTMLファイルを使用して開発することです...
概論 Open WebUI Artifacts Overhaulは、開発者Nick Tonjumによって開発されたOpen WebUIをベースにしたフォークプロジェクトです。コード生成とプレゼンテーションのためのAIの機能改善に焦点を当てたオープンソースツールである。これにより、ユーザーはAIにコードを生成させ、インターフェイスを直接...