SwifDoo PDF

Die Komplettlösung für PDF auf Windows

  1. PDF-Dokumente so einfach bearbeiten wie DOC-Dateien;
  2. PDF in gängige Formate umwandeln oder umgekehrt;
  3. PDF nach Bedarf kommentieren, komprimieren und schützen

Inhaltsverzeichnis

Teilen Sie diesen Artikel

Home / PDF Blog / OCR Erkennung von PDF und Konvertierung in Text [2025]

OCR Erkennung von PDF und Konvertierung in Text [2025]

Von Sascia | Auf twitter folgen | Aktualisiert am November 28, 2024 | English
Einleitung:
Im Alltagsleben haben Sie wahrscheinlich schon PDFs erhalten, die aus Scans erstellt werden und sich nicht kopieren lassen. Um solche PDF-Dateien zu bearbeiten, müssen Sie die PDF OCR Erkennung durchführen.
summary

Ist das OCR ein neues Konzept für Sie? Keine Sorge. In diesem Beitrag erklären wir Ihnen ausführlich, was OCR ist, welche Software zur OCR-Erkennung es gibt und wie man eine PDF-Datei per OCR als Text erkennen kann, damit Sie Ihr PDF bearbeiten können.

Was ist PDF zu OCR?

OCR steht für Optical Character Recognition, ein Verfahren, bei dem PDF-Programme Bilder von Text in ein maschinenlesbares Format umwandeln. Diese weit verbreitete Technologie identifiziert den nicht durchsuchbaren Inhalt und extrahiert den Text aus einem reinen Bild-PDF oder einem gescannten PDF.

Einfach ausgedrückt, OCR ist eine fortgeschrittene Technologie, mit der man bearbeitbare PDF-Bildern in durchsuchbaren Text und Zeichen umwandelt.

Wie man per OCR gescannte PDFs mit Desktop-Software erkennt

SwifDoo PDF: PDF in OCR umwandeln Windows

SwifDoo PDF ist eine vielseitige OCR-Software für Windows. Als Multitasker kann es bei der PDF-Bearbeitung, dem Anbringen von Anmerkungen, dem Passwortschutz und der Konvertierung helfen. In der neuesten Version 2.0 verfügt SwifDoo PDF über eine brandneue Funktion – PDF OCR Erkennung, die PDF Text erkennen und ein PDF aus rein Bildern bearbeitbar macht.

Mit einer benutzerfreundlichen Oberfläche ist SwifDoo PDF auch für Anfänger einfach zu benutzen. Mit folgender Anleitung erfahren Sie, wie man mit PDF Texterkennung unter Windows durchgeführt:

Schritt 1: Klicken Sie auf die folgende Schaltfläche, um SwifDoo PDF kostenlos herunterzuladen;

Schritt 2: Starten Sie das Programm und öffnen Sie Ihre zu erkennende PDF-Datei. Gehen Sie dann auf „Bearbeiten“ > „OCR“ in der Hauptsymbolleiste.

PDF OCR Texterkennung SwifDoo PDF
Schritt 3: Im Pop-up-Fenster können Nutzer wählen, wie das aktuelle PDF-Dokument per OCR erfasst werden soll und in ein Dokument mit Text und Bildern, Text mit Originalformatierung, durchsuchbaren Text und Bilder, aber nicht editierbar, oder einen reinen Text umgewandelt werden soll;

Schritt 4: Wenn Sie sich für die Ausgabeoption entschieden haben, können Sie bei Bedarf den Seitenbereich für die OCR angeben. Sobald Sie fertig sind, klicken Sie auf die Schaltfläche OK, um mit der OCR der PDF-Datei zu beginnen.

Hinweis: Wenn Sie nicht die gesamte PDF-Seite erkennen lassen möchten, z. B. Unterschriften oder Stempel, können Sie ganz einfach auswählen, wo keine OCR durchgeführt werden soll. Klicken Sie dafür auf die Schaltfläche „+“. Der Text in ausgewählten Bereichen wird nicht erkannt. 

Wie stellt man sicher, ob die PDF-Datei aus Scans oder aus Bildern erstellt wird

Einige Nutzer fragen sich vielleicht, wie sie feststellen können, ob es sich bei einer PDF-Datei um ein gescanntes PDF oder ein reines Bild-PDF handelt und somit OCR erforderlich ist; hier sind zwei Lösungen:

Lösung 1: Klicken Sie auf "Bearbeiten". Wenn ein Fenster erscheint, in dem kein bearbeitbarer Inhalt angezeigt wird, handelt es sich um eine gescannte PDF-Datei;


Lösung 2: Oder die Benutzer können PDF-Konvertierung-Aufgaben durchführen, indem sie auf "Konvertieren" klicken, z. B. die Konvertierung von PDF in Word. SwifDoo PDF kennzeichnet die Art des PDFs neben dem Dateinamen, wie der Screenshot zeigt.

Tipps: Um die Genauigkeit des OCR-Ergebnisses noch weiter zu verbessern, kann der Benutzer in SwifDoo PDF die Sprache des Originaldokuments auswählen.

Wenn Sie ein gescanntes PDF in Word oder eine Textdatei konvertieren müssen, kann das Ergebnis der Konvertierung enttäuschend sein, da das Word-Dokument nach der Konvertierung voller Fehler und falscher Formatierungen ist. Sie können jedoch optional versuchen, die PDF-Datei mit OCR zu bearbeiten, und die mit OCR bearbeitete PDF-Datei wird im selben lokalen Ordner gespeichert wie die Original-PDF-Datei.

Soda PDF: Text in PDF erkennen kostenlos

Soda PDF ist ein leistungsstarkes PDF-Tool, das die Arbeit mit PDF-Dateien erleichtern soll. Mit diesem Windows-basierten PDF OCR-Programm können Benutzer Wörter in PDF suchen, PDF-Seiten neu anordnen, mit Anmerkungen versehen und sichern. Sehen Sie sich an, wie Sie mit Soda PDF PDF-Bilder in durchsuchbaren Text umwandeln können:

Schritt 1: Laden Sie Soda PDF herunter und installieren Sie es auf Ihrem PC;

Schritt 2: Starten Sie das Programm und öffnen Sie die gescannte PDF-Datei;

Schritt 3: Wählen Sie OCR oder klicken Sie auf eine beliebige Seite der PDF-Datei, um den OCR-Modus zu aktivieren. Wenn Sie die hängende Menüleiste sehen, wählen Sie OCR Auto und die PDF wird von gescannten Bildern in einen auswählbaren und editierbaren Text umgewandelt.

Soda PDF bietet zwei OCR-Modi, um PDF-Bilder in durchsuchbaren Text zu konvertieren: OCR Auto und OCR Manual. Der Hauptunterschied zwischen diesen beiden Modi besteht darin, dass der Benutzer im letzteren entscheiden kann, wie die OCR-Engine mit seinen Bildern interagiert, während der Auto-Modus automatisch nach dem nächsten Bild sucht und es ebenfalls scannt. Die manuelle Erkennung kann Text, Bilder oder Tabellen in PDF erkennen. Jeder Bereich innerhalb dieses roten Kastens wird als Text interpretiert.

Da gescannte PDF-Dateien aus mehreren Bildebenen bestehen, bietet Soda PDF ein "Zuschneiden"-Werkzeug, mit dem man leere oder nicht notwendige Inhalte aus PDF-Seiten schneiden kann. In der Zwischenzeit können Benutzer jede Seite für den persönlichen Gebrauch verschieben oder kopieren, indem sie mit der rechten Maustaste auf das PDF-Bild klicken.

Wie man ein gescanntes PDF unter macOS per OCR erkennt

Cisdem PDF Converter OCR für Mac: PDF to OCR Converter 

Für macOS-Anwender, die OCR auf PDF durchführen müssen, waren die Dinge komplizierter, bis wir Cisdem fanden. Cisdem und die dazugehörigen Produkte sind für Apple-Computer entwickelt worden, darunter auch das Herzstück dieses Abschnitts - Cisdem PDF Converter OCR für Mac.

Der Cisdem PDF Converter OCR integriert eine ganze Reihe von nützlichen Werkzeugen, um PDF-bezogene Aufgaben zu bewältigen, z. B. wie man ein gescanntes PDF unter macOS mit OCR versieht, wie man PDF-Dateien kombiniert und wie man PDF-Dateien im Stapel konvertiert. Ohne weitere Beschreibung kommen wir gleich zur Sache:

Schritt 1: Importieren Sie das reine Bild-PDF auf die Workstation, indem Sie die Datei auf die Oberfläche ziehen oder ablegen, auf die Schaltfläche + klicken oder Datei > Datei hinzufügen wählen;

Schritt 2: Wählen Sie die Sprache des Original-PDF-Dokuments, um die Erkennungsgenauigkeit zu verbessern. Cisdem unterstützt jetzt 27 Sprachen, die den grundlegenden Bedarf der Anwender decken können;


Schritt 3: Aktivieren Sie auf der Konverter-Seite das OCR-Kästchen, um die PDF-zu-OCR-Erkennung für das aktuelle PDF durchzuführen. Bitte beachten Sie, dass es zwei OCR-Schaltflächen gibt. Die Schaltfläche neben dem Bereich gilt nur für die ausgewählte PDF-Datei, während die andere Schaltfläche die OCR auf alle PDF-Dateien anwendet.

Schritt 4: Wählen Sie im Feld für das Ausgabeformat DOCX und klicken Sie auf die Schaltfläche Konvertieren. Wählen Sie dann den Ausgabeordner und klicken Sie auf "Speichern", um den Prozess der OCR einer PDF in eine Word-Datei auf dem Mac abzuschließen.

Darüber hinaus können Benutzer die Option "Erweiterte Einstellungen" wählen, um den erkannten Text, die Bilder oder Tabellen manuell anzupassen.

Da Cisdem kein PDF-Editor ist, können Sie keine Änderung in der erkannten PDF-Datei durchführen. Aber Sie können das kosten SwifDoo PDF für Mac benutzen, um PDF auf dem Mac anzuzeigen, bequem zu lesen, zum Papierdokument zu drucken oder das Anmerkung in PDF einfügen.

Wie man eine OCR einer gescannten PDF-Datei online erhält

Google Drive: Kostenlose PDF OCR Online

Für Leute, die OCR auf PDFs mit einer kostenlosen webbasierten PDF-OCR-Software anwenden möchten, kann diese Cloud-Speicherplattform eine gute Option sein. Es ist schwer vorstellbar, dass Google Drive in der Lage sein soll, eine solche Aufgabe zu erfüllen. Laut dem Google Drive-Hilfecenter ist diese Online-Anwendung jedoch in der Lage, Bilder in PDF zu erkennen und in Text zu konvertieren.

Schritt 1: Loggen Sie sich bei Ihrem Google Drive-Konto ein und klicken Sie auf die Schaltfläche Neu unterhalb des Drive-Symbols;

Schritt 2: Wählen Sie im Dropdown-Menü Datei Upload, um ein lokales PDF-Dokument in den Arbeitsbereich zu importieren;

Schritt 3: Klicken Sie mit der rechten Maustaste auf das hochgeladene PDF-Dokument und wählen Sie Öffnen mit > Google Docs, um das gescannte PDF-Dokument in ein bearbeitbares Word-Dokument umzuwandeln. Wenn Sie auf die Google Docs-Seite geleitet werden, können Sie die Word-Datei lokal ausgeben.

Der Prozess der OCR-Erkennung eines PDF-Dokuments mit Google Drive ist zwar nicht kompliziert, aber es gibt einige Einschränkungen dieses kostenlosen Online-OCR-Tools, bevor Sie beginnen:

Dateigröße: Ihre Datei (.jpg, .png, .gif, oder PDF-Datei) sollte nicht größer als 2 MB sein;

Auflösung: Der Text sollte mindestens 10 Pixel groß sein;

Ausrichtung: Die Dokumente sollten mit der richtigen Seite nach oben ausgerichtet sein.

Schriftarten: Vergewissern Sie sich, dass die Schriftart in Ihrer Datei gängig ist, z. B. Arial oder Times New Roman.

Hinweis:Bei unserer Überprüfung gelang es Google Drive jedoch nicht, ein gescanntes PDF-Dokument (ein Lehrbuch) mit seiner OCR-Funktion in ein auswählbares und bearbeitbares Word-Dokument zu konvertieren. Alle Seiten werden als Bild und nicht als kopierbarer Text dargestellt. Deshalb brauchen wir ein anderes webbasiertes OCR-Tool, das mit dieser Art von PDF-Dateien zurecht kommt 

OCR Space: OCR Texterkennung online

OCR Space ist eine kostenlose Online-OCR-Software. Gleichzeitig ist dieses nützliche Tool ein Open-Source-Programm, das einen kostenfreien OCR-API-Schlüssel für Entwickler bereitstellt. Als kostenloses Tool vereinfacht OCR Space den Konvertierungsprozess, so dass Benutzer nur ein paar Klicks machen müssen, um OCR auf ein PDF anzuwenden. Im Folgenden erfahren Sie, wie Sie ein PDF-Dokument online mit OCR erkennen können:

Schritt 1: Geben Sie die URL in die Suchleiste ein und wählen Sie Datei auswählen, um die PDF-Datei hochzuladen;


Schritt 2: Wählen Sie die Sprache des Original-PDF-Dokuments und kreuzen Sie bei Bedarf die Erkennung oder Ausrichtung an. Außerdem können Benutzer durchsuchbare PDFs erstellen, indem sie unter durchsuchbare PDF erstellen festlegen, wie die PDF angezeigt werden soll;

Schritt 3: Wenn Sie fertig sind, klicken Sie auf die Schaltfläche Start OCR!, um die gescannte PDF-Datei in ein wählbares DOCX-Dokument auszugeben. Wenn Sie nach OCR die PDF bearbeiten möchten, ist SwifDoo PDF nützlich.

Fazit

Abschließend lässt sich sagen, dass Online-OCR-Tools zwar gratis verwendet werden können, ihre OCR-Fähigkeiten aber möglicherweise von der OCR-Software für Desktop-PDFs in den Schatten gestellt werden, insbesondere wenn es sich um reine Bild-PDFs handelt, die in mehreren Sprachen verfasst sind (z. B. Lehrbücher). Um die OCR-Texterkennung mit der besten Qualität zu erzielen, ist SwifDoo PDF ein nützliches Tool. Das Programm ist leicht und umfassend. Es hilft Ihnen, alle PDF-Aufgaben mühelos zu erledigen und Produktivität zu entfalten. 

FAQs

Q:Verfügt Python über ein OCR-Werkzeug?

Ja. Das OpenCV-Paket und Python-tesseract sind sichtbare Programme zur Identifizierung und Erkennung von Text in gescannten PDFs. Das OpenCV-Paket wurde entwickelt, um Bilder zu lesen und die Texterkennung und -extraktion durchzuführen. Python-tesseract ist ein OCR-Tool für Python zur Erkennung und zum Lesen von verborgenem Text in reinen Bild-PDFs.

Q:Wie kann ich eine PDF-Datei unter Linux per OCR lesen?

Es gibt viele leistungsstarke OCR-Tools für Linux, um Text in eingebetteten Bildern zu erkennen. OCRmyPDF, Tesseract und Paperwork sind drei empfohlene Programme für Linux-Benutzer.

Q:Wie kann man Texte aus Bildern in PDF kopieren?

Die Texte in Bildern lassen sich nicht direkt kopieren. Sie können aber mithilfe eines OCR-Scanners die Texte in Bildern erkennen und bearbeitbar machen. Hier ist die Anleitung:
Schritt 1: Starten Sie SwifDoo PDF Editor und öffnen Sie Ihre PDF-Datei.
Schritt 2: Gehen Sie auf „Bearbeiten“ > „OCR“ in der Hauptsymbolleiste.
Schritt 3: Im Pop-up-Fenster klicken Sie  auf das „+“-Symbol und wählen das Bild aus, das erkannt werden soll. Anschließend klicken Sie auf „Anwenden“, nach einigen Sekunden wird das Bild in Text umgewandelt und Sie können die Texte aus Bildern in PDF kopieren.

Q:Wie kann ich erkennen, ob ein PDF durchsuchbar ist?

Es gibt zwei kostenlose Möglichkeiten, um zu erkennen, ob ein PDF durchsuchbar ist.
Erstens: Öffnen Sie Ihre PDF-Datei in Google Chrome oder Microsoft Edge und versuchen Sie, die Texte aus PDF direkt zu kopieren. Wenn es geht, ist die PDF-Datei durchsuchbar. Diese Methode eignet sich für Leute, die keine Änderungen im PDF durchführen müssen.
Zweitens: Öffnen Sie Ihre PDF-Datei in einem professionellen PDF-Editorwie SwifDoo PDF. Klicken Sie auf „Ansicht“ > „suchen“ und versuchen Sie, dieWörter in PDF zu suchen. Wenn es klappt, lässt sich Ihr PDF durchsuchen. DasProgramm verfügt über eine fortgeschrittene OCR, mit dem Sie Ihr PDF in Textumwandeln können, auch wenn Ihr PDF aus Scans oder reihen Bildern erstellt wird.

Sascia ist eine erfahrene deutsche Redakteurin, die auf das Schreiben von Artikeln im Bereich der Software spezialisiert ist. Sie verfügt über tiefgreifendes Wissen in diesem Bereich und ist in der Lage, komplexe Konzepte und Themen leicht verständlich für ein breites Publikum zu erklären. Sascias Artikel sind von hoher Qualität und umfassend recherchiert, was es ihr ermöglicht, fundierte und präzise Informationen zu liefern.

Verwandte Beiträge