はじめに
Mad Professor (暴躁的教授读论文)は、研究者や学生のために設計されたオープンソースのAI学術ツールで、学術論文の読解と分析を簡素化します。PDF処理、AI翻訳、RAG検索、AI Q&A、音声対話を統合している。ユーザーはPDF論文をインポートすることができ、ツールは自動的にコンテンツを抽出し、翻訳し、中国語と英語の両方で読むことができる構造化されたテキストを生成します。また、左側に論文を表示し、右側にAIとの対話を表示する分割画面インターフェースを提供し、ユーザーが読みながら質問するのに便利である。
機能一覧
- PDFコンテンツの抽出と構造化PDF論文からテキストを自動的に抽出し、構造化されたコンテンツを生成します。
- 中国語と英語によるAI翻訳中国語または英語に翻訳し、コントロールされた読書モードを提供する。
- RAG検索システムベクトル検索技術に基づく論文中の重要情報と文脈の迅速な抽出。
- AIインテリジェントQ&Aユーザーがテキストや音声で質問すると、AIが論文に関連した的確な回答を提供する。
- 音声対話とTTS教授との対話をシミュレートする音声入力認識と音声合成機能を内蔵。
- 分割画面のインタラクティブ・インターフェース左側には論文の内容が表示され、右側は直感的に操作できるAI Q&Aエリアとなっている。
- バッチファイル処理複数のPDFを
data
フォルダ、自動的に検出され、バッチ処理される。 - 非同期タスク管理スレッド管理によってパフォーマンスを最適化し、並行タスク処理をサポートします。
ヘルプの使用
設置プロセス
Mad ProfessorはオープンソースプロジェクトのPython開発で、実行するにはローカル環境にインストールする必要があります。ここでは、詳細なインストール手順は次のとおりです:
- プロジェクトコードの複製
ターミナルで以下のコマンドを実行し、GitHubからプロジェクトをクローンする:git clone https://github.com/LYiHub/mad-professor-public.git cd mad-professor-public
- Python環境のインストール
Python 3.8以降がシステムにインストールされていることを確認してください。仮想環境を推奨します:python -m venv venv source venv/bin/activate # Windows 用户运行 venv\Scripts\activate
- 依存関係のインストール
プロジェクトの依存関係には、MiniMaxの音声サービスやその他のPythonライブラリが含まれます。以下のコマンドを実行してインストールしてください:pip install -r requirements.txt
セキュア
requirements.txt
ファイルにはPyPDF2
そしてnumpy
その他 - MiniMax 音声サービスの設定
Mad ProfessorはMiniMaxのTTS(Text-to-Speech)サービスを利用しており、音声IDを設定する必要がある:- MiniMaxの公式ドキュメントはをご覧ください。
- を作成するか、既存の
voice_id
. - 修正
TTS_manager.py
ファイル内のbuild_tts_stream_body
メソッドはvoice_id
パラメータを自分のIDに置き換える:body = json.dumps({ "model": "speech-02-turbo", "text": text, "stream": True, "voice_setting": { "voice_id": "your_voice_id_here", "speed": 1, "vol": 1, "pitch": 0, "emotion": mapped_emotion }, "audio_setting": { "sample_rate": 32000, "bitrate": 128000, "format": "pcm", "channel": 1 } })
- 論文資料の作成
プ ロ ジ ェ ク ト のルー ト デ ィ レ ク ト リ 内に、 処理す る PDF 用紙を配置 し ます。data
フォルダに保存されます。プログラムは自動的にこれらのファイルを検出し、バッチ処理します。 - ランニングプログラム
メインプログラムを開始する:python AI_professor_UI.py
プログラムが実行されると、グラフィカル・インターフェースが開き、論文の内容とAIの対話エリアが表示される。
使用方法
書類の輸入と処理
- PDFファイルを
data
フォルダー - プログラムを起動すると、ツールは自動的に以下の項目をスキャンします。
data
フォルダからPDFコンテンツを抽出し、構造化テキストを生成します。 - 抽出結果はインターフェイスの左側に表示され、中国語と英語の両方のモードをサポートしています。インタフェースの「翻訳」ボタンをクリックすると、言語が切り替わります。
AIによるQ&Aと音声対話
- インターフェースの右側にあるQ&Aエリアでは、テキストを入力するか、マイクを使って質問する。例えば、"この論文の研究方法を教えてください"。
- 音声入力を使用している場合は、マイクデバイスが動作していることを確認してください。インジケーターが黄色にならない場合は、入力デバイスを交換してみてください。
- AIが論文の内容を分析し、的確な回答をします。音声再生」ボタンをクリックすると、解答がTTS形式で読み上げられます。
- 音声出力の音量、スピーチレート、ピッチは
TTS_manager.py
ミディアム調整。
分割画面の操作
- 論文の原文または翻訳内容は左側に表示され、スクロールすることができる。
- 右側はAIとの対話ウィンドウで、リアルタイムの質疑応答に対応している。
- インターフェースはMarkdownレンダリングをサポートし、AIのレスポンスは明確なメッセージバブルで表示される。
バッチファイル
- 複数の用紙を処理するには、すべてのPDFファイルを
data
フォルダー - このプログラムは、解析されていないファイルを1つずつ処理し、構造化されたコンテンツを生成してローカルに保存する。
ほら
- MiniMaxのTTSサービスにはインターネット接続が必要です。
- プローブ
data
フォルダーのパーミッションで、プログラムが読み書きできるようにする。 - 音声入力に失敗した場合は、マイクの設定を確認するか、本機を交換してください。
- このプロジェクトはオープンソースソフトウェアなので、GitHubで最新のドキュメントをチェックすることをお勧めする。
アプリケーションシナリオ
- 学術研究
研究者はMad Professorを使って、複雑な論文を素早く読んで理解することができます。このツールのAI Q&A機能は、研究方法や実験デザインなどの専門的な質問に答えることで時間を節約する。 - 学生の学習
学生は英語と中国語の両方のモードで外国語の論文を読むことができ、初心者のために用語や概念の理解を助ける音声対話機能を備えています。 - 論文総合の書き方
研究チームは複数の論文を一括処理し、重要な情報を抽出し、レビュー資料を作成し、執筆効率を向上させることができる。 - 言語を超えたコラボレーション
国際的な研究チームは、翻訳機能を使って論文の内容を素早くターゲット言語に変換し、コミュニケーションを促進することができます。
品質保証
- マッド・プロフェッサーがサポートしているファイル形式は何ですか?
現在サポートされているのはPDF形式の紙ファイルのみです。PDFファイルはスキャンしたものではなく、テキスト抽出可能な形式であることを確認してください。 - 音声入力に失敗する問題を解決するには?
マイクが正しく動作しているか確認してください。インジケータが黄色に点灯しない場合は、入力デバイスを交換するか、システムオーディオ設定を確認してください。 - ミニマックスの音声サービスは有料ですか?
MiniMaxは無料および有料の音声サービスを提供しています。公式ドキュメントで確認することをお勧めします。voice_id
パーミッションの使用。 - オフラインで使用できますか?
PDF処理とAI Q&Aはオフラインで動作するが、音声対話と翻訳はインターネットアクセスが必要だ。