PaddleOCR: Flying Paddle-basierte mehrsprachige OCR-Werkzeugbibliothek, die die Erkennung von mehr als 80 Sprachen unterstützt

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

PaddleOCR ist ein mehrsprachiges OCR-Toolkit, das auf PaddlePaddle basiert und ein praktisches und ultraleichtes OCR-System bietet. Es unterstützt die Erkennung von mehr als 80 Sprachen und bietet Tools zur Datenkommentierung und -synthese, um das Training und die Bereitstellung auf Servern, mobilen Geräten, eingebetteten und IoT-Geräten zu unterstützen. paddleOCR integriert Textbildkorrektur, Erkennung von Layoutbereichen, Erkennung von regulärem Text, Erkennung von Stempeltext, Texterkennung, Tabellenerkennung und andere Funktionen, wodurch die Entwicklungskosten erheblich gesenkt werden, und unterstützt leistungsstarke Schlussfolgerungen, servicebasierte Bereitstellung und endseitige Bereitstellung. Darüber hinaus unterstützt es leistungsstarke Schlussfolgerungen, servicebasierte Bereitstellung und endseitige Bereitstellung.

Funktionsliste

mehrsprachige ErkennungTexterkennung: Die Texterkennung wird in über 80 Sprachen unterstützt.
Tools zur Datenannotation und -synthesePraktische Tools zur Datenkommentierung und -synthese helfen bei der schnellen Erstellung von Trainingsdaten.
Text-Bild-KorrekturIntegrierte Textbildkorrekturfunktion zur Verbesserung der Erkennungsgenauigkeit.
Erkennung von LayoutbereichenUnterstützung der hochpräzisen Erkennung von Layoutbereichen für das Parsen komplexer Dokumente.
FormerkennungBietet eine Tabellenerkennungsfunktion, die in der Lage ist, Tabellendaten genau zu extrahieren.
Erkennung von SiegeltextUnterstützt die Erkennung und Erkennung von gestempeltem Text.
Leistungsstarkes ReasoningUnterstützt Hochleistungsinferenzen für Echtzeitanwendungen.
Mehrere EinsatzoptionenUnterstützt die Bereitstellung von Servern, mobilen Geräten, eingebetteten und IoT-Geräten.
Low-Code-EntwicklungBereitstellung von Low-Code-Entwicklungstools für den gesamten Prozess, um die Entwicklungsschwelle zu senken und die Entwicklungseffizienz zu verbessern.

Hilfe verwenden

Einbauverfahren

Vorbereitung der Umwelt::
- Stellen Sie sicher, dass Python 3.6 oder höher installiert ist.
- Installieren Sie das PaddlePaddle-Framework, das mit dem folgenden Befehl installiert werden kann:
```
 pip install paddlepaddle
```
- PaddleOCR installieren:
```
 pip install paddleocr
```
Modelle herunterladen::
- Laden Sie die trainierten Modelle aus dem offiziellen Repository herunter. In der offiziellen Dokumentation finden Sie spezifische Download-Links und Befehle.
laufendes Beispiel::
- Verwenden Sie den folgenden Befehl, um das OCR-Beispiel auszuführen: bash paddleocr --image_dir ./doc/imgs/11.jpg --det_model_dir ./inference/ch_ppocr_mobile_v2.0_det_infer --rec_model_dir ./inference/ch_ppocr_mobile_v2.0_rec_infer --cls_model_dir ./inference/ch_ppocr_mobile_v2.0_cls_infer

Funktion Betriebsablauf

Texterkennung::

Bereiten Sie die zu erkennende Bilddatei vor.
ausnutzen paddleocr Befehlszeilentool oder die Python-API zur Identifizierung.
Beispiel-Code:

 from paddleocr import PaddleOCR, draw_ocr
import matplotlib.pyplot as plt
import cv2
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
img_path = 'path/to/your/image.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
print(line)
# 可视化结果
image = cv2.imread(img_path)
boxes = [elements[0] for elements in result]
txts = [elements[1][0] for elements in result]
scores = [elements[1][1] for elements in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/your/font.ttf')
im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB)
plt.imshow(im_show)
plt.show()

Formerkennung::

Bereiten Sie die Bilddatei vor, die das Formular enthält.
ausnutzen paddleocr Befehlszeilentool oder Python-API für die Formularerkennung.
Beispiel-Code:

 from paddleocr import PPStructure, draw_structure_result
import cv2
table_engine = PPStructure(show_log=True)
img_path = 'path/to/your/table_image.jpg'
result = table_engine(img_path)
for line in result:
print(line)
# 可视化结果
image = cv2.imread(img_path)
im_show = draw_structure_result(image, result, font_path='path/to/your/font.ttf')
im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB)
plt.imshow(im_show)
plt.show()

Erkennung von Layoutbereichen::

Bereiten Sie Bilddateien mit komplexen Layouts vor.
ausnutzen paddleocr Befehlszeilentool oder Python-API für die Erkennung von Layoutbereichen.
Beispiel-Code:

 from paddleocr import PaddleOCR, draw_ocr
import matplotlib.pyplot as plt
import cv2
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
img_path = 'path/to/your/layout_image.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
print(line)
# 可视化结果
image = cv2.imread(img_path)
boxes = [elements[0] for elements in result]
txts = [elements[1][0] for elements in result]
scores = [elements[1][1] for elements in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/your/font.ttf')
im_show = cv2.cvtColor(im_show, cv2.COLOR_BGR2RGB)
plt.imshow(im_show)
plt.show()

PaddleOCR: Eine mehrsprachige OCR-Werkzeugbibliothek auf der Grundlage von Flying Paddle, die die Erkennung von mehr als 80 Sprachen unterstützt

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Funktion Betriebsablauf

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Aktuelle AI-Hotspots

Empfehlungen für AI-Tools

AI Tools Klassifizierung