Allgemeine Einführung
Mad Professor (暴躁的教授读论文) ist ein quelloffenes akademisches KI-Tool, das für Forscher und Studenten entwickelt wurde, um das Lesen und Analysieren von akademischen Arbeiten zu vereinfachen. Es integriert PDF-Verarbeitung, KI-Übersetzung, RAG-Suche, KI-Q&A und Sprachinteraktion. Benutzer können PDF-Dokumente importieren, und das Tool extrahiert automatisch den Inhalt, übersetzt und generiert einen strukturierten Text, der sowohl auf Chinesisch als auch auf Englisch gelesen werden kann.Mad Professor hilft Benutzern, den Inhalt von Dokumenten durch intelligente Fragen und Antworten und Sprachinteraktion schnell zu verstehen. Es bietet auch eine geteilte Bildschirmoberfläche, die das Papier auf der linken Seite und den KI-Dialog auf der rechten Seite anzeigt, was für die Benutzer bequem ist, um während des Lesens Fragen zu stellen.
Funktionsliste
- Extraktion und Strukturierung von PDF-InhaltenExtrahiert automatisch Text aus PDF-Dokumenten, erzeugt strukturierte Inhalte und unterstützt die Stapelverarbeitung mehrerer Dokumente.
- AI-Übersetzung mit Chinesisch und EnglischÜbersetzen Sie den Inhalt des Papiers ins Chinesische oder Englische, um einen kontrollierten Lesemodus zu ermöglichen.
- RAG-AbrufsystemSchnelles Extrahieren von Schlüsselinformationen und Kontext in Zeitungen auf der Grundlage von Vektor-Retrieval-Techniken.
- AI Intelligent Q&AKI: Unterstützt die Nutzer dabei, Fragen per Text oder Sprache zu stellen, und die KI liefert präzise Antworten zu dem Papier.
- Sprachinteraktion und TTSEingebaute Spracheingabeerkennung und Text-to-Speech-Funktionalität zur Simulation von Dialogen mit Professoren.
- Interaktive Schnittstelle mit geteiltem BildschirmAuf der linken Seite wird der Inhalt des Papiers angezeigt, auf der rechten Seite befindet sich der intuitiv zu bedienende Bereich für KI-Fragen und Antworten.
- Stapelverarbeitung von DateienUnterstützung für das Einfügen mehrerer PDFs in
data
Ordner, automatisch erkannt und stapelweise verarbeitet. - asynchrone AufgabenverwaltungOptimieren Sie die Leistung durch Thread-Management und unterstützen Sie die gleichzeitige Verarbeitung von Aufgaben.
Hilfe verwenden
Einbauverfahren
Mad Professor ist eine Python-Entwicklung von Open-Source-Projekten, muss in der lokalen Umgebung installiert werden, um zu laufen. Hier sind die detaillierten Installationsschritte:
- Projektcode klonen
Führen Sie den folgenden Befehl in einem Terminal aus, um ein Projekt von GitHub zu klonen:git clone https://github.com/LYiHub/mad-professor-public.git cd mad-professor-public
- Installieren der Python-Umgebung
Stellen Sie sicher, dass Python 3.8 oder höher auf Ihrem System installiert ist. Eine virtuelle Umgebung wird empfohlen:python -m venv venv source venv/bin/activate # Windows 用户运行 venv\Scripts\activate
- Installation von Abhängigkeiten
Zu den Projektabhängigkeiten gehören der Sprachdienst von MiniMax und andere Python-Bibliotheken. Führen Sie den folgenden Befehl aus, um sie zu installieren:pip install -r requirements.txt
sicher
requirements.txt
Datei enthält alle notwendigen Bibliotheken wie z.B.PyPDF2
undnumpy
usw. - MiniMax-Sprachdienste konfigurieren
Mad Professor verwendet den TTS-Dienst (Text-to-Speech) von MiniMax und muss eine Sprach-ID konfigurieren:- Besuchen Sie die offizielle MiniMax-Dokumentation unter .
- Erstellen oder verwenden Sie eine bestehende
voice_id
. - Änderungen
TTS_manager.py
in der Dateibuild_tts_stream_body
Methode, die dievoice_id
Ersetzen Sie den Parameter durch Ihre ID, zum Beispiel:body = json.dumps({ "model": "speech-02-turbo", "text": text, "stream": True, "voice_setting": { "voice_id": "your_voice_id_here", "speed": 1, "vol": 1, "pitch": 0, "emotion": mapped_emotion }, "audio_setting": { "sample_rate": 32000, "bitrate": 128000, "format": "pcm", "channel": 1 } })
- Vorbereitung der Dissertationsunterlagen
Legen Sie das zu verarbeitende PDF-Papier im Stammverzeichnis des Projekts im Ordnerdata
Ordner. Das Programm erkennt und verarbeitet diese Dateien automatisch im Stapel. - laufendes Programm
Starten Sie das Hauptprogramm:python AI_professor_UI.py
Sobald das Programm gestartet ist, öffnet sich eine grafische Oberfläche, die den Inhalt des Papiers und den KI-Interaktionsbereich anzeigt.
Verwendung
Einfuhr und Bearbeitung von Papieren
- Legen Sie die PDF-Datei in den Ordner
data
Mappe. - Nach dem Start des Programms scannt das Tool automatisch
data
Ordner, extrahieren PDF-Inhalte und erzeugen strukturierten Text. - Die Extraktionsergebnisse werden auf der linken Seite der Benutzeroberfläche angezeigt, die sowohl den chinesischen als auch den englischen Modus unterstützt. Klicken Sie auf die Schaltfläche "Übersetzen" auf der Benutzeroberfläche, um die Sprache zu wechseln.
AI Q&A und Sprachinteraktion
- Im Bereich "Fragen und Antworten" auf der rechten Seite der Benutzeroberfläche können Sie einen Text eingeben oder das Mikrofon benutzen, um Fragen zu stellen. Zum Beispiel: "Was ist die Forschungsmethodik dieser Arbeit?
- Wenn Sie die Spracheingabe verwenden, vergewissern Sie sich, dass das Mikrofongerät funktioniert. Wenn die Anzeige nicht gelb wird, versuchen Sie, das Eingabegerät auszutauschen.
- Die KI analysiert den Inhalt des Papiers und gibt Ihnen eine genaue Antwort. Klicken Sie auf die Schaltfläche "Voice Play" und die Antwort wird Ihnen im TTS-Format vorgelesen.
- Die Lautstärke, die Sprechgeschwindigkeit und die Tonhöhe der Sprachausgabe können in den
TTS_manager.py
Mittlere Einstellung.
Bedienung der geteilten Bildschirmoberfläche
- Der ursprüngliche oder übersetzte Inhalt des Papiers wird auf der linken Seite angezeigt und kann durchgeblättert werden.
- Die rechte Seite ist das KI-Dialogfenster, das Fragen und Antworten in Echtzeit unterstützt.
- Die Schnittstelle unterstützt Markdown-Rendering, und KI-Antworten werden in übersichtlichen Nachrichtenblasen angezeigt.
Stapeldatei
- Um mehrere Papiere zu verarbeiten, legen Sie alle PDF-Dateien im Ordner
data
Mappe. - Das Programm verarbeitet die unparsedierten Dateien nacheinander, erzeugt strukturierte Inhalte und speichert sie lokal.
caveat
- Vergewissern Sie sich, dass Ihre Internetverbindung stabil ist. Der TTS-Dienst von MiniMax benötigt eine Internetverbindung.
- Sonde
data
Ordnerberechtigungen, um sicherzustellen, dass das Programm lesbar und schreibbar ist. - Wenn die Spracheingabe fehlschlägt, überprüfen Sie die Mikrofoneinstellungen oder tauschen Sie das Gerät aus.
- Das Projekt ist eine Open-Source-Software und wir empfehlen, die aktuelle Dokumentation auf GitHub auf Aktualisierungen zu prüfen.
Anwendungsszenario
- akademische Forschung
Forscher können Mad Professor nutzen, um komplexe Arbeiten schnell zu lesen und zu verstehen. Die KI-Frage-Antwort-Funktion des Tools spart Zeit, indem sie spezielle Fragen, wie z. B. zur Forschungsmethodik und zum Versuchsaufbau, beantwortet. - Studentisches Lernen
Die Schüler können fremdsprachige Aufsätze sowohl auf Englisch als auch auf Chinesisch lesen, wobei Sprachinteraktionsfunktionen das Verständnis von Begriffen und Konzepten für Anfänger erleichtern. - Verfassen einer Thesis-Synthese
Das Forschungsteam kann mehrere Papiere im Stapel verarbeiten, Schlüsselinformationen extrahieren, Überprüfungsmaterial erstellen und die Effizienz beim Schreiben verbessern. - Sprachübergreifende Zusammenarbeit
Internationale Forschungsteams können die Übersetzungsfunktion nutzen, um den Inhalt ihrer Arbeiten schnell in die Zielsprache zu übertragen und die Kommunikation zu erleichtern.
QA
- Welche Dateiformate werden von Mad Professor unterstützt?
Derzeit werden nur Papierdateien im PDF-Format unterstützt. Stellen Sie sicher, dass PDF-Dateien in einem text-extrahierbaren Format vorliegen und nicht gescannt sind. - Wie lässt sich das Problem der fehlgeschlagenen Spracheingabe lösen?
Überprüfen Sie, ob das Mikrofon richtig funktioniert. Wenn die Anzeige nicht gelb wird, versuchen Sie, das Eingabegerät auszutauschen oder die Audioeinstellungen des Systems zu überprüfen. - Muss ich für die Nutzung des Sprachdienstes von MiniMax bezahlen?
MiniMax bietet kostenlose und kostenpflichtige Sprachdienste an. Wir empfehlen, die offizielle Dokumentation zu prüfen, um zu bestätigenvoice_id
Die Verwendung von Erlaubnissen. - Kann es offline verwendet werden?
PDF-Verarbeitung und KI-Fragen funktionieren offline, aber Sprachinteraktion und Übersetzung erfordern einen Internetzugang.