AIパーソナル・ラーニング
と実践的なガイダンス
TRAE
合計992記事

タグ: AIのオープンソースプロジェクト 5ページ

OpenAvatarChat:模块化设计的数字人对话工具-首席AI分享圈

OpenAvatarChat:モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムのビデオ、音声認識、デジタルヒューマン技術を組み合わせています...

AudioX:参考文本、图像、视频生成音频和音乐-首席AI分享圈

AudioX: 参照されたテキスト、画像、ビデオからオーディオと音楽を生成

概要 AudioXはZeyue TianらによってGitHubで公開されているオープンソースプロジェクトで、公式論文はarXivで公開されています(No.2503.10522)。拡散変換(Diffusion Transformer)技術に基づいており、テキスト、ビデオ、画像、音声、その他の入力から高品質な...

EasyControl:将人像转为吉卜力风格图像的免费工具-首席AI分享圈

EasyControl:ポートレートをジブリ風に変身させる無料ツール

概要 EasyControlは、Diffusion Transformer (DiT)アーキテクチャに基づいた効率的で柔軟な画像生成制御を提供するオープンソースプロジェクトです。その中でも、ジブリコントロールLoRAは、100人のアジア人の顔とそのGPT-4oによって生成されたジブリ風の画像のみを使用することで、その特別な機能の1つです...

YOLOE:实时视频检测和分割物体的开源工具-首席AI分享圈

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ(THU-MIG)によって開発されたオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズを拡張したもので、あらゆる物体をリアルタイムで検出し、セグメント化することができる。プロジェクトはGitHubでホストされている。

集成多种先进语音合成服务的开源运营项目-首席AI分享圈

複数の高度な音声合成サービスを統合したオープンソース運用プロジェクト

概要 Open-VoiceCanvasは、ItusiAIチームによって開発されたオープンソースの音声合成プラットフォームです。50以上の言語をサポートし、テキストを自然な音声に変換したり、音声をアップロードすることでパーソナライズされた音声をクローンすることができます。このプロジェクトは、OpenAI TTS、AWS Polly、MiniMaxの3つを統合しています。

VideoMind:视频按时间戳定位内容与问答的开源项目-首席AI分享圈

VideoMind:タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは、タスクをプランニング、...

SuperCoder:命令行终端运行的智能代码助手-首席AI分享圈

SuperCoder: コマンドライン・ターミナル実行のためのインテリジェント・コード・アシスタント

一般的な紹介 SuperCoderはターミナルで動作するインテリジェントなツールで、プログラマーのために設計されています。このプロジェクトはGitHubのhuytdによってオープンソース化されており、Linux、MacOS、Windowsをサポートしています。

Emigo:在Emacs中使用AI完成复杂编程任务的助手-首席AI分享圈

Emigo:EmacsのAIを使った複雑なプログラミング作業のアシスタント

概論 Emigoは、MatthewZMDによってGitHub上で開発されたオープンソースのEmacs用AIプログラミング・アシスタントです。Emigoは、MatthewZMDによってGitHub上で開発されたオープンソースのEmacs用AIプログラミング・アシスタントです。 大規模言語モデル(LLM)を統合することで、プログラマがEmacs上でコード解析、生成、修正、その他の作業を完了するのを支援します。

SegAnyMo:从视频中自动分割任意运动物体的开源工具-首席AI分享圈

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

一般的な紹介 SegAnyMoは、Nan Huangなどのメンバーを含む、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトである。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体(人、動物、乗り物など)を自動的に識別し、セグメント化することができる。このツールは、TAP...

GenXD:生成任意3D和4D场景视频的开源框架-首席AI分享圈

GenXD: 任意の3Dおよび4Dシーンのビデオを生成するためのオープンソースフレームワーク

一般的な紹介 GenXDは、シンガポール国立大学(NUS)とMicrosoftチームによって開発されたオープンソースプロジェクトです。任意の3D・4Dシーンの生成に重点を置き、データ不足やモデル設計の複雑さに起因する現実世界の3D・4D生成を解決する。このプロジェクトでは、カメラやオブジェクトの動きを分析し、その動きから、3Dや4Dシーンの生成に必要なデータを抽出します。

ChatAnyone:从照片生成半身数字人肖像视频的工具-首席AI分享圈

ChatAnyone:写真から半身のデジタル人物ビデオを生成するツール

はじめに ChatAnyoneはHumanAIGCチームによって開発された革新的なプロジェクトです。人工知能の技術を用いて、1枚の写真と音声入力から、上半身の動きを含むデジタル人物のポートレート動画を生成する。このプロジェクトは、頭の動き、ジェスチャー、表情を生成する階層的動作拡散モデルに基づいています。

Search-R1:强化学习训练大模型搜索与推理的工具-首席AI分享圈

Search-R1: 検索と推論のための大規模モデルを学習する強化学習

概要 Search-R1はPeterGriffinJinによってGitHub上で開発されたオープンソースプロジェクトであり、veRLフレームワーク上に構築されている。強化学習(RL)のテクニックを使って大規模言語モデル(LLM)を学習し、モデルが自律的に推論を学習し、問題を解決するために検索エンジンを呼び出すことを可能にします。このプロジェクトはQwen2.5をサポートしています。

DeepGemini:多模型编排任务并封装为API接口-首席AI分享圈

DeepGemini: タスクのマルチモデルオーケストレーションとAPIインターフェースへのカプセル化

概論 DeepGeminiは、開発者Thomas Sligterによって作成されたオープンソースプロジェクトである。マルチモデルオーケストレーションをサポートするAI管理ツールであり、主な特徴は、様々なAIモデルを柔軟に組み合わせる能力であり、OpenAI互換のAPIインターフェースを通じて呼び出される。プロジェクトはPython 3.11と...をベースにしている。

Optexity:用人类演示训练AI执行网页操作的开源项目-首席AI分享圈

Optexity:人間の実演を見ながらウェブ操作を行うAIを訓練するオープンソースプロジェクト

概論 OptexityはGitHub上のオープンソースプロジェクトで、Optexityチームによって開発されている。このプロジェクトの中核は、人間のデモデータを使用して、コンピュータタスク、特にウェブページ操作を完了するためにAIを訓練することです。このプロジェクトには、ComputerGYM、AgentAI、Playwrightの3つのコードライブラリが含まれており、ユーザは...

II-Researcher:深度搜索与分步推理解答复杂问题-首席AI分享圈

II-Researcher: 複雑な問題に答えるための深層探索と段階的推論

一般的な紹介 II-Researcherは、Intelligent-Internetチームによって開発され、GitHubでホストされているオープンソースの人工知能研究ツールです。深層検索と複雑な推論のために設計されており、インテリジェントなウェブ検索とマルチステップ分析を通じて複雑な質問に答えることができます。プロジェクトは2025年3月27日に開始された。

Cua:让AI代理在macOS/Linux沙盒中安全执行应用-首席AI分享圈

Cua: AIエージェントがmacOS/Linuxサンドボックスで安全にアプリケーションを実行できるようにする

一般的な紹介 Cuaは、Computer-Use Agent(「クーア」と発音)と呼ばれるオープンソースプロジェクトで、Apple Siliconデバイス向けに設計されており、ネイティブデバイス90%に近い速度で高性能なmacOSとLinuxの仮想マシンを作成し、実行することができます。CuaはApple Siliconデバイス用に設計されており、ネイティブデバイスの90%に近い速度で、高性能なmacOSとLinuxの仮想マシンを作成して実行することができます。 CuaはAp...

Paper to Podcast:把学术论文转换为多人对话播客-首席AI分享圈

論文からポッドキャストへ:学術論文を多人数会話のポッドキャストに変換する

はじめに Paper to Podcastは、学術研究論文を生き生きとした楽しいポッドキャストに変えることに特化したオープンソースのツールです。人工知能技術を使ってPDF形式の論文を3人の登場人物(ホスト、学習者、専門家)の対話に変えることで、複雑な学術的内容を簡単に理解できるようにします。この ...

ja日本語