Anzeige

Am Puls von Microsoft

Anzeige

[gelöst] "Office 2019": Input PDF -> OCR -> Output PDF mit hinterlegtem Text

Winup

treuer Stammgast
Hallo,

Ich möchte gerne Dokumente einscannen, danach OCR drüber laufen lassen und anschliessend als PDF abspeichern, so dass neben dem eingescannten Textbild auch der durch OCR erfasste Text dabei ist.
-> Also OCR drüberlaufen lassen und neu abspeichern. Und zwar so, dass sich die Qualität der Bilder im PDF möglichst wenig verändert.

Frage:
Da ich bereits im Besitz von "Office 2019" bin, wollte ich fragen, ob ich das mit "Office 2019" erreichen kann.

Wieso ausgerechnet Office 2019; es gibt doch andere Programme?
Antwort: Weil die Microsoft Texterkennung sehr gut arbeitet und weil ich es vermeiden will noch zusätzliche Software zu kaufen.
-> Also Qualität und Kosten.

Auch war bei meinem Scanner kein OCR Programm dabei, welches ich dafür verwenden könnte. (Billiger HP Drucker/Scanner)

Leider habe ich im Internet nur Anleitungen gefunden, wie man mit Hilfe von OneNote Texte aus dem PDF rausziehen kann für den TXT-Editor:
Also PDF in OneNote einfügen. Danach lässt OneNote automatisch OCR drüberlaufen. Danach kann man den Text herausziehen. Entweder von der aktuellen Seite oder vom gesamten Dokument. (Quelle: OneNote: PDF-Dateien in editierbare Texte umwandeln)

-> Leider genügt mir das nicht. Ich möchte ja als Output nicht einen Text für den Editor haben, sondern wieder ein PDF, aber dieses Mal mit hinterlegtem Text.


Antworten und Lösungsideen würden mich freuen.

Besten Dank.

Gruss
Winup
 
Anzeige
"pdfsandwich" und "orcmypdf" wären tools, welche zusammen mit "tesseract" die Aufgabe erledigen könnten. Läuft bei mit ganz gut. Hat aber nichts mit MS-Office zu tun.
 
@Winup
Wie ist der aktuelle Status zu deiner Anfrage und hat eine der genannten Möglichkeiten dir evtl. weiter helfen können?
 
Danke für die Nachfrage und die Antworten.

Ich habe bereits Tesseract basierte Programme ausprobiert, bevor ich die Frage gestellt habe. Dabei hat sich herausgestellt, dass Tesseract schlechter ist, als Microsoft OCR aus OneNote.

Genau deshalb habe ich ja nach einer Lösung gesucht, um die Microsoft OCR zu nutzen um einen PDF-Output zu erhalten.

------

Ich habe jetzt auch noch den vorgeschlagenen PDF Exchange Editor (Tracker Software Products :: Downloads for PDF-XChange Editor) ausprobiert.

Die Texterkennung kommt leider auch nicht an die Microsoft Texterkennung ran.

Hier ein Beispiel:
1_0.jpg (Normalerweise wäre das aber eien PDF) (siehe Anhang)

Erkannter Text mit OneNote:
Code:
Verschiedene Freizeitaktiviüten kennen und beschreiben
> DW: Die Schrifterkennung muss verbessert werden: hochgestellte Zahlen werden nicht erkannt.
Text in farbigen Kâsten weren nicht erkannt. Fette Schrift wird nicht erkannt.
Les loisirs: stress ou détente?
vendredi, 20 heures
Elodie
samedi, 9 heures
samedi, 11 heures
T I MBR
13
dimanche, 10 heures
samedi, 21 heures
If 14
t)
Kemal
92
12
a
b
c
d
e
f
g
h
j
k
I
m
n
o
p
q
r
s
t
faire une promenade avec le chien
aller à la bourse des timbres
lire le journal du dimanche
rencontrer des copains
écrire une lettre
aller en boîte
bricoler
jouer aux cartes
faire un tour dans le quartier
aller au cinéma avec ses copains
garder les enfants de la voisine
écouter de la musique
jouer du piano
regarder une vidéo
jouer de la trompette
aller au match de foot
jouer au tennis avec son père
faire les courses avec papa
montrer les timbres à sa mère
rester au lit jusqu'à 10 heures

Erkannter Text mit PDF XChange Editor:
Code:
1

VerSChledeneFrelzeltaktlätenkennenundbeschrelben

, ‚*,——

-----> DW: Die Schrifterkennung muss verbessert werden: hochgestellte Zahlen werden nicht erkannt.
Text in farbigen Kästen weren nicht erkannt. Fette Schrift wird nicht erkannt.

Les loisirs: stress ou détente?

„ _ _ . \ v - "yfi'ifiiiu-i/“H‘A

" - _ , _‘ anf-«93:31 ;,

4

\

\\ ‘I

|ewa>| ap

")

,, - .

\!

samau 81, '!pSLUES

9.
‘ 3
Q)
3
("
3"
:D
CS
3“
('D
C
Æ
M

9.

â ‘ a faire une promenade avec le chien

3 ‘ .

g b aller a la bourse des timbres

FD | . . .

‘__ c lire le Journal du dimanche

® .

„?; , d rencontrer des copains

%m 'IQ ' e écrire une lettre

9 5. … f aller en b0|te

â ‘— g bricoler

D .

9, h Jouer aux cartes

(D . . .
“N | faire un tour dans le quartier

0 . . . , .

g \ ] aller au cmema avec ses copains
‚% k garder les enfants de la voisine

V!

I écouter de la musrque

rn jouer du piano

Kemal E'Od'e n regarder une vidéo

i ’ .

_; 0 Jouer de la trompette

g ! , p aller au match de foot

,_ \ Q- .‘ . . ‘

__„gf â q Jouer au tennis avec son pere

93 r faire les courses avec papa

3 / s montrer les timbres à sa mère
’ _| t rester au litjusqu'à 10 heures


Folgendes wurde von Microsoft OCR erkannt, nicht aber vom PDF XChage Editor:
Code:
-Verschiedene Freizeitaktiviüten kennen und beschreiben
-vendredi, 20 heures
-Elodie
-samedi, 9 heures
-samedi, 11 heures
-dimanche, 10 heures
-samedi, 21 heures

-j (vor: aller au cinema avec ses copains)
-m (vor: jouer du piano)
-o (vor: jouer de la trompette)

-aller en boîte
-écouter de la musique




Aber wenn es halt in Office 2019 wirklich keine Möglichkeit gibt ein durchsuchbares PDF zu erstellen kann man nichts machen.

Ich werde mich wohl mit einer Tesseract-Lösung zufrieden geben müssen.
 

Anhänge

  • 1_0.jpeg
    1_0.jpeg
    854,9 KB · Aufrufe: 86
Zuletzt bearbeitet:
@Winup
Vielen Dank für deine Rückmeldung. :)

Hast du die aktuelle Software zu deinem HP-Drucker installiert?

Als Beispiel, bei meinem HP Office-Jet All-in-One ist im Software-Paket integriert, außer den notwendigen Treiber, auch ein OCR-Programm enthalten, diese jedoch nie genutzt und deshalb wieder deinstalliert.
Zu Beginn der Installation kann ausgewählt werden, was installiert werden soll und was nicht.
 
Bei meinem Drucker war leider kein OCR im Software Paket integriert.

Envy 5544 All-in-One
 
Bei tesseract müssen die entsprechenden Sprachdateien mit installiert werden und dem Programm die zu verwendenden Sprachen per Option mitgeteilt werden.
 
Wenn du schon kein Geld ausgeben möchtest, was ja durchaus noch verstehen kann, warum dann aber nicht mit Google?

So wandeln Sie PDFs in Text um
Ist die PDF-Datei hochgeladen, wählen Sie diese in der Spalte aus, indem Sie das Kontrollkästchen mit einem Häkchen versehen. Wählen Sie dann am oberen Rand die Option "Mehr" aus und drücken Sie auf "Öffnen mit". Klicken Sie anschließend auf "Google Docs"

Das geht flotter als es mit Omnipage und ABBYY Finereader jemals ging und vor allem ist die Zuverlässigkeit viel höher und du kannst mittlerweile auch Texte aus Bildern auslesen und in Google Docs umwandeln.
 
Bei tesseract müssen die entsprechenden Sprachdateien mit installiert werden und dem Programm die zu verwendenden Sprachen per Option mitgeteilt werden.
Ja, das habe ich gemacht.
Hier hat tesseract tatsächlich einen Vorteil gegenüber OneNote. Bei OneNote kann man nämlich nur eine Sprache auf einmal auswählen. Bei den tesseract basierten Programmen, die ich ausprobiert habe, kann man jedoch gleichzeitig mehrere Sprachen auswählen.

..., warum dann aber nicht mit Google?
Danke für den Tipp. Das werde ich mal ausprobieren. (Google Docs: OCR-Texterkennung im Browser)
 
@Winup
die Auflösung vom Scan spielt bei der OCR-Erkennung eine wichtige Rolle. Dein Drucker/Scanner kann Ausgabe in pdf.
Microsoft Office OCR gibt es bei mir schon lange nicht mehr, ist einfach die verlorene Zeit nicht wert.
Ein vernünftiger PDF-Editor hat die OCR-Funktion integriert und erlaubt Korrekturen/Ergänzungen direkt im Dokument.
Von Ashampoo gibt es derzeit ein günstiges Angebot - bei Interesse einfach mal testen
 
Anzeige
Oben