[gelöst] "Office 2019": Input PDF -> OCR -> Output PDF mit hinterlegtem Text

Winup · 28. Juni 2022

Hallo,

Ich möchte gerne Dokumente einscannen, danach OCR drüber laufen lassen und anschliessend als PDF abspeichern, so dass neben dem eingescannten Textbild auch der durch OCR erfasste Text dabei ist.
-> Also OCR drüberlaufen lassen und neu abspeichern. Und zwar so, dass sich die Qualität der Bilder im PDF möglichst wenig verändert.

Frage:
Da ich bereits im Besitz von "Office 2019" bin, wollte ich fragen, ob ich das mit "Office 2019" erreichen kann.

Wieso ausgerechnet Office 2019; es gibt doch andere Programme?
Antwort: Weil die Microsoft Texterkennung sehr gut arbeitet und weil ich es vermeiden will noch zusätzliche Software zu kaufen.
-> Also Qualität und Kosten.

Auch war bei meinem Scanner kein OCR Programm dabei, welches ich dafür verwenden könnte. (Billiger HP Drucker/Scanner)

Leider habe ich im Internet nur Anleitungen gefunden, wie man mit Hilfe von OneNote Texte aus dem PDF rausziehen kann für den TXT-Editor:
Also PDF in OneNote einfügen. Danach lässt OneNote automatisch OCR drüberlaufen. Danach kann man den Text herausziehen. Entweder von der aktuellen Seite oder vom gesamten Dokument. (Quelle: OneNote: PDF-Dateien in editierbare Texte umwandeln)

-> Leider genügt mir das nicht. Ich möchte ja als Output nicht einen Text für den Editor haben, sondern wieder ein PDF, aber dieses Mal mit hinterlegtem Text.

Antworten und Lösungsideen würden mich freuen.

Besten Dank.

Gruss
Winup

JCR · 28. Juni 2022

"pdfsandwich" und "orcmypdf" wären tools, welche zusammen mit "tesseract" die Aufgabe erledigen könnten. Läuft bei mit ganz gut. Hat aber nichts mit MS-Office zu tun.

Big Eddie Calzone · 29. Juni 2022

Ich speichere den Scan direkt als PDF, öffne diesen dann mit meinem Standard-PDf-Viewer und starte in diesem die OCR. Dann speichere ich die Änderung.

Tracker Software Products :: PDF-XChange Viewer, Free PDF Reader

Alice · 1. Juli 2022

@Winup
Wie ist der aktuelle Status zu deiner Anfrage und hat eine der genannten Möglichkeiten dir evtl. weiter helfen können?

Winup · 2. Juli 2022

Danke für die Nachfrage und die Antworten.

Ich habe bereits Tesseract basierte Programme ausprobiert, bevor ich die Frage gestellt habe. Dabei hat sich herausgestellt, dass Tesseract schlechter ist, als Microsoft OCR aus OneNote.

Genau deshalb habe ich ja nach einer Lösung gesucht, um die Microsoft OCR zu nutzen um einen PDF-Output zu erhalten.

------

Ich habe jetzt auch noch den vorgeschlagenen PDF Exchange Editor (Tracker Software Products :: Downloads for PDF-XChange Editor) ausprobiert.

Die Texterkennung kommt leider auch nicht an die Microsoft Texterkennung ran.

Hier ein Beispiel:
1_0.jpg (Normalerweise wäre das aber eien PDF) (siehe Anhang)

Erkannter Text mit OneNote:

Code:

Verschiedene Freizeitaktiviüten kennen und beschreiben
> DW: Die Schrifterkennung muss verbessert werden: hochgestellte Zahlen werden nicht erkannt.
Text in farbigen Kâsten weren nicht erkannt. Fette Schrift wird nicht erkannt.
Les loisirs: stress ou détente?
vendredi, 20 heures
Elodie
samedi, 9 heures
samedi, 11 heures
T I MBR
13
dimanche, 10 heures
samedi, 21 heures
If 14
t)
Kemal
92
12
a
b
c
d
e
f
g
h
j
k
I
m
n
o
p
q
r
s
t
faire une promenade avec le chien
aller à la bourse des timbres
lire le journal du dimanche
rencontrer des copains
écrire une lettre
aller en boîte
bricoler
jouer aux cartes
faire un tour dans le quartier
aller au cinéma avec ses copains
garder les enfants de la voisine
écouter de la musique
jouer du piano
regarder une vidéo
jouer de la trompette
aller au match de foot
jouer au tennis avec son père
faire les courses avec papa
montrer les timbres à sa mère
rester au lit jusqu'à 10 heures

Erkannter Text mit PDF XChange Editor:

Code:

1

VerSChledeneFrelzeltaktlätenkennenundbeschrelben

, ‚*,——

-----> DW: Die Schrifterkennung muss verbessert werden: hochgestellte Zahlen werden nicht erkannt.
Text in farbigen Kästen weren nicht erkannt. Fette Schrift wird nicht erkannt.

Les loisirs: stress ou détente?

„ _ _ . \ v - "yﬁ'iﬁiiu-i/“H‘A

" - _ , _‘ anf-«93:31 ;,

4

\

\\ ‘I

|ewa>| ap

")

,, - .

\!

samau 81, '!pSLUES

9.
‘ 3
Q)
3
("
3"
:D
CS
3“
('D
C
Æ
M

9.

â ‘ a faire une promenade avec le chien

3 ‘ .

g b aller a la bourse des timbres

FD | . . .

‘__ c lire le Journal du dimanche

® .

„?; , d rencontrer des copains

%m 'IQ ' e écrire une lettre

9 5. … f aller en b0|te

â ‘— g bricoler

D .

9, h Jouer aux cartes

(D . . .
“N | faire un tour dans le quartier

0 . . . , .

g \ ] aller au cmema avec ses copains
‚% k garder les enfants de la voisine

V!

I écouter de la musrque

rn jouer du piano

Kemal E'Od'e n regarder une vidéo

i ’ .

_; 0 Jouer de la trompette

g ! , p aller au match de foot

,_ \ Q- .‘ . . ‘

__„gf â q Jouer au tennis avec son pere

93 r faire les courses avec papa

3 / s montrer les timbres à sa mère
’ _| t rester au litjusqu'à 10 heures

Folgendes wurde von Microsoft OCR erkannt, nicht aber vom PDF XChage Editor:

Code:

-Verschiedene Freizeitaktiviüten kennen und beschreiben
-vendredi, 20 heures
-Elodie
-samedi, 9 heures
-samedi, 11 heures
-dimanche, 10 heures
-samedi, 21 heures

-j (vor: aller au cinema avec ses copains)
-m (vor: jouer du piano)
-o (vor: jouer de la trompette)

-aller en boîte
-écouter de la musique

Aber wenn es halt in Office 2019 wirklich keine Möglichkeit gibt ein durchsuchbares PDF zu erstellen kann man nichts machen.

Ich werde mich wohl mit einer Tesseract-Lösung zufrieden geben müssen.

Alice · 2. Juli 2022

@Winup
Vielen Dank für deine Rückmeldung.

Hast du die aktuelle Software zu deinem HP-Drucker installiert?

Offizieller HP® Treiber- und Software- Download | HP® Kundensupport

Laden Sie die neuesten Treiber, Software, Firmware und Diagnosen für Ihre HP Produkte von der offiziellen HP Support-Website herunter.

support.hp.com

Als Beispiel, bei meinem HP Office-Jet All-in-One ist im Software-Paket integriert, außer den notwendigen Treiber, auch ein OCR-Programm enthalten, diese jedoch nie genutzt und deshalb wieder deinstalliert.
Zu Beginn der Installation kann ausgewählt werden, was installiert werden soll und was nicht.

Winup · 2. Juli 2022

Bei meinem Drucker war leider kein OCR im Software Paket integriert.

Envy 5544 All-in-One

HP ENVY 5544 All-in-One-Drucker Software- und Treiber-Downloads | HP® Kundensupport

Laden Sie aktuelle Treiber, Firmware und Software für HP ENVY 5544 All-in-One-Drucker.Das ist die offizielle Website von HP, die automatisch die richtigen Treiber für Ihre Computer- und Druckerprodukte von HP für die Betriebssysteme Windows und Mac kostenlos herunterlädt und installiert.

support.hp.com

JCR · 2. Juli 2022

Bei tesseract müssen die entsprechenden Sprachdateien mit installiert werden und dem Programm die zu verwendenden Sprachen per Option mitgeteilt werden.

PeterK · 2. Juli 2022

Wenn du schon kein Geld ausgeben möchtest, was ja durchaus noch verstehen kann, warum dann aber nicht mit Google?

So wandeln Sie PDFs in Text um
Ist die PDF-Datei hochgeladen, wählen Sie diese in der Spalte aus, indem Sie das Kontrollkästchen mit einem Häkchen versehen. Wählen Sie dann am oberen Rand die Option "Mehr" aus und drücken Sie auf "Öffnen mit". Klicken Sie anschließend auf "Google Docs"

Das geht flotter als es mit Omnipage und ABBYY Finereader jemals ging und vor allem ist die Zuverlässigkeit viel höher und du kannst mittlerweile auch Texte aus Bildern auslesen und in Google Docs umwandeln.

Winup · 2. Juli 2022

JCR schrieb:
Bei tesseract müssen die entsprechenden Sprachdateien mit installiert werden und dem Programm die zu verwendenden Sprachen per Option mitgeteilt werden.

Ja, das habe ich gemacht.
Hier hat tesseract tatsächlich einen Vorteil gegenüber OneNote. Bei OneNote kann man nämlich nur eine Sprache auf einmal auswählen. Bei den tesseract basierten Programmen, die ich ausprobiert habe, kann man jedoch gleichzeitig mehrere Sprachen auswählen.

PeterK schrieb:
..., warum dann aber nicht mit Google?

Danke für den Tipp. Das werde ich mal ausprobieren. (Google Docs: OCR-Texterkennung im Browser)

Pixelschubse · 3. Juli 2022

@Winup
die Auflösung vom Scan spielt bei der OCR-Erkennung eine wichtige Rolle. Dein Drucker/Scanner kann Ausgabe in pdf.
Microsoft Office OCR gibt es bei mir schon lange nicht mehr, ist einfach die verlorene Zeit nicht wert.
Ein vernünftiger PDF-Editor hat die OCR-Funktion integriert und erlaubt Korrekturen/Ergänzungen direkt im Dokument.
Von Ashampoo gibt es derzeit ein günstiges Angebot - bei Interesse einfach mal testen

Ashampoo® PDF Pro 3

Ashampoo PDF Pro 3 ist ein PDF Editor zum Erzeugen, Konvertieren, Bearbeiten und Signieren von PDF-Dokumenten. PDF können auch zusammengefügt, neu angeordnet oder im Layout verändert werden.

www.ashampoo.com

PeteM92 · 3. Juli 2022

~~OCR ist bei Ashampoo aber nicht dabei - oder?~~
Doch noch gefunden

Anzeige

Anzeige

Am Puls von Microsoft

Suche

[gelöst] "Office 2019": Input PDF -> OCR -> Output PDF mit hinterlegtem Text

Winup

treuer Stammgast

JCR

gehört zum Inventar

Big Eddie Calzone

frage für einen Freund

Alice

Moderatorin

Winup

treuer Stammgast

Anhänge

Alice

Moderatorin

Offizieller HP® Treiber- und Software- Download | HP® Kundensupport

Winup

treuer Stammgast

HP ENVY 5544 All-in-One-Drucker Software- und Treiber-Downloads | HP® Kundensupport

JCR

gehört zum Inventar

PeterK

Immer auf der Schraube

Winup

treuer Stammgast

Pixelschubse

gehört zum Inventar

Ashampoo® PDF Pro 3

PeteM92

gehört zum Inventar