OCR-Technologie

Durchsuchbares PDF am iPhone

Verwandeln Sie gescannte PDFs am iPhone in durchsuchbare PDFs, indem Sie eine OCR-Textebene hinzufügen. Text suchen, Inhalte kopieren, das Aussehen des Originalscans erhalten.

Textsuche Inhalte kopieren Layout erhalten OCR auf dem Gerät

Am besten für: gescannte Verträge, Belege, Dokumente und Archive, die wie die Originalseite aussehen, sich aber wie durchsuchbarer Text verhalten sollen.

Was ist ein durchsuchbares PDF und wie unterscheidet es sich vom normalen Scan?

Ein durchsuchbares PDF ist eine PDF-Datei mit einer unsichtbaren OCR-Textebene (Texterkennung), die über jede gescannte Seite gelegt ist. Die Seite sieht identisch zum Originalscan aus, aber die Datei ist in jedem PDF-Reader durchsuchbar — Wörter über Cmd+F finden, Sätze markieren und kopieren, Text für Archive oder Tabellen extrahieren. Ein normales gescanntes PDF enthält nur Seitenbilder — nichts kann gefunden oder kopiert werden.

ScanLens erstellt durchsuchbare PDFs am iPhone, indem es OCR auf dem Gerät über das Apple Vision framework ausführt und dann den erkannten Text vor dem Export hinter jedes Seitenbild einbettet. Die OCR-Ebene bleibt im PDF, daher bleibt das Dokument in jedem Betriebssystem, in jedem PDF-Reader, auch nach Jahren durchsuchbar.

Für die breitere Textextraktion aus jedem Bild oder Foto (nicht nur PDF) — siehe OCR-App für iPhone. Für den vollständigen Workflow Scan-zu-PDF — beginnen Sie mit dem PDF-Scanner. Typische Folgeschritte nach dem Erstellen eines durchsuchbaren PDF: mehrere PDFs am iPhone zusammenführen, ein langes PDF aufteilen oder einen Vertrag unterzeichnen.

Was die unsichtbare Textebene eigentlich ist

Stellen Sie sich ein durchsuchbares PDF als zwei gestapelte Ebenen auf jeder Seite vor. Oben liegt das Bild der Seite — der Scan, den Sie aufgenommen haben, genau so, wie er auf dem Papier aussah. Darunter liegt eine Textebene: jedes Wort, das die OCR-Engine erkannt hat, an denselben Koordinaten wie das passende Wort im Bild platziert, aber in einer unsichtbaren Schrift gerendert. Sie sehen nur das Bild; die Software sieht die Wörter dahinter.

Diese Positionierung ist der ganze Trick. Weil jedes erkannte Wort dort verankert ist, wo es im Scan erscheint, markiert das Auswählen von Text den richtigen Bildbereich, und die Suche springt an die richtige Stelle auf der richtigen Seite. Die unsichtbare Schrift hat null Deckkraft, daher verändert sie nie das Aussehen oder den Druck des Dokuments — die Seite bleibt Pixel für Pixel identisch zum normalen Scan. Geändert hat sich, dass die Datei nun ihren eigenen Text enthält und nicht nur ein Bild davon.

ScanLens erstellt diese Ebene beim Export: Nachdem das Apple Vision framework den Text auf dem Gerät erkannt hat, schreibt ScanLens jedes Wort und seinen Begrenzungsrahmen hinter das Seitenbild ins PDF. Von dort wandert der Text in der Datei mit — kopieren Sie das PDF auf einen Mac oder PC, öffnen Sie es Jahre später in einem beliebigen Reader, und der durchsuchbare Text ist immer noch da, ohne Abhängigkeit von ScanLens oder einer Internetverbindung. Es ist ein Standard-PDF-Feature, fest ins Dokument eingebacken.

Flaches gescanntes PDF vs. durchsuchbares PDF mit OCR — und wie man sie unterscheidet

Die beiden Dateien können auf dem Bildschirm identisch aussehen — genau deshalb tappen viele in die Falle. Ein flaches gescanntes PDF ist reines Bild: ein Stapel Seitenbilder ohne Text darin. Sie können es nicht durchsuchen und keinen Satz markieren, und ein Telefon oder Computer, der Ihre Dateien indexiert, findet es nur über den Dateinamen, nie über das, was auf der Seite steht. Genau das liefern die meisten einfachen Scan-Apps, der Dokumentenscan der iOS-Kamera oder das „Scan-to-PDF" eines Kopierers mit ausgeschalteter OCR.

Ein durchsuchbares PDF mit OCR sieht genauso aus, trägt aber die oben beschriebene unsichtbare Textebene. Die Suche findet Wörter darin, Sie können markieren und kopieren, und das Betriebssystem kann den vollständigen Inhalt indexieren. Die sichtbare Seite ist unverändert; der Unterschied liegt vollständig darin, was die Datei kann.

Um herauszufinden, welche Sie vor sich haben, öffnen Sie das PDF und versuchen Sie, ein Wort zu markieren — ziehen Sie über eine Zeile oder halten Sie ein Wort lange gedrückt. Markieren sich einzelne Wörter, gibt es eine Textebene und die Datei ist durchsuchbar. Markiert sich die ganze Seite als ein Block oder lässt sich nichts markieren, ist es ein flacher, reiner Bildscan. Der andere schnelle Test ist die Suche: Öffnen Sie „Suchen" und suchen Sie nach einem Wort, das deutlich auf der Seite steht. Ein flacher Scan liefert keine Treffer. Wenn Sie die Seite durch ScanLens laufen lassen, wird die Ebene ergänzt und beide Tests beginnen zu bestehen.

Wie das durchsuchbare PDF technisch funktioniert

OCR-Texterkennung

ScanLens nutzt das Apple Vision framework für die On-Device-Texterkennung. Die OCR-Ebene erkennt Wörter, Zahlen und Dokumentenstruktur in 14 Sprachen, einschließlich Deutsch, und behält die Verarbeitung am iPhone.

Positionierung der Textebene

Der erkannte Text liegt exakt hinter dem gescannten Bild. Die Position jedes Wortes stimmt mit seinem visuellen Platz überein. Beim Markieren von Text deckt die Markierung den entsprechenden Bildbereich ab.

Verarbeitung auf dem Gerät

Die gesamte OCR läuft lokal am iPhone. Dokumente verlassen das Gerät während der Verarbeitung nie. Das gewährleistet die Privatsphäre für sensible Dokumente und funktioniert ohne Internet.

Vorteile durchsuchbarer PDFs

Text sofort finden

Verwenden Sie Strg+F (oder Cmd+F am Mac), um jedes Wort im Dokument zu finden. Sie müssen nicht mehr durch Seiten blättern, um eine bestimmte Klausel im Vertrag oder eine Zahl im Beleg zu finden. Die Suche findet sofort.

Text markieren und kopieren

Klicken und ziehen Sie zum Markieren, dann in die Zwischenablage kopieren. Einfügen in Mails, Dokumente, Tabellen. Zitate extrahieren, Adressen kopieren, Telefonnummern übernehmen — ohne Abtippen.

Volltextsuche über Dokumente

Spotlight am Mac und die Windows-Suche können durchsuchbare PDFs indexieren. Finden Sie Dokumente nach Inhalt, nicht nur nach Dateinamen. Die Suche „Rechnung März 2024" — und sie findet jedes übereinstimmende Dokument.

Dokumentenmanagement-Systeme

Unternehmenssysteme wie SharePoint, Google Drive, Dropbox und OneDrive können durchsuchbare PDFs indexieren. Die Unternehmenssuche liefert relevante gescannte Dokumente neben nativen Dateien.

Barrierefreiheit

Screenreader können durchsuchbare PDFs vorlesen. Die Textebene bietet zugängliche Inhalte für Nutzer mit Sehbehinderungen. Die Einhaltung der Barrierefreiheits-Anforderungen wird möglich.

Was sich ändert

Normales PDF vs. durchsuchbares PDF

Das Bild der Seite bleibt gleich. Was sich ändert, ist, was Sie nach dem Scan mit der Datei tun können: suchen, markieren, kopieren, indexieren und korrekt archivieren.

Funktion	Normales gescanntes PDF	Durchsuchbares PDF
Aussehen	Gescanntes Bild	Identisch (unverändert)
Textsuche (Strg+F)	Nicht verfügbar	Volle Unterstützung
Textmarkierung	Nicht verfügbar	Volle Unterstützung
Text kopieren/einfügen	Nicht verfügbar	Volle Unterstützung
OS-Suchindexierung	Nur Dateiname	Inhalt indexiert
Screenreader-Unterstützung	Nur Bild	Voller Textzugriff
Dateigröße	Kleiner	Etwas größer (+5–15 %)

Der einzige Kompromiss ist eine kleine Größenzunahme zur Speicherung der Textebene. Für die meisten Dokumente sind das +5–15 % — ein geringer Preis für die deutliche Funktionsverbesserung.

Wo sich die Textebene auszahlt: Spotlight, Dateien und iCloud

Der Sinn eines durchsuchbaren PDF liegt nicht im Moment, in dem Sie es erstellen — sondern im Moment ein halbes Jahr später, wenn Sie etwas darin finden müssen. Am iPhone und im gesamten Apple-Ökosystem klinkt sich die unsichtbare Textebene in die Suchwerkzeuge ein, die Sie ohnehin nutzen.

Spotlight-Suche

iOS Spotlight — die Suche, die Sie durch Herunterwischen auf dem Home-Bildschirm erreichen — indexiert den Inhalt von PDFs, die auf dem Gerät gespeichert sind, nicht nur deren Namen. Sobald ein Scan eine Textebene trägt, kann das Eintippen einer Wortfolge aus einem Dokument dieses Dokument direkt zutage fördern, selbst wenn Sie längst vergessen haben, wie Sie die Datei benannt haben. Ohne die Ebene hat Spotlight nichts zu lesen und kann nur den Dateinamen abgleichen.

Die App „Dateien"

Wenn Sie ein durchsuchbares PDF in der App „Dateien" speichern, wird es über die Suchleiste von „Dateien" nach Inhalt auffindbar. Das ist vor allem bei Archiven wichtig: Ein Ordner mit gescannten Belegen oder Verträgen wird zu einem Textbestand, den Sie abfragen können, statt zu einer Wand identisch aussehender Seiten-Miniaturen, die Sie einzeln öffnen müssen.

iCloud Drive und Ihre anderen Geräte

Weil die Textebene in der Datei lebt, wandert sie mit, wohin die Datei geht. Legen Sie ein durchsuchbares PDF in iCloud Drive, ist es auch auf Ihrem iPad und Mac durchsuchbar — Spotlight am Mac und die App „Dateien" am iPad lesen denselben eingebetteten Text. Die Erkennung geschah einmal, auf Ihrem iPhone, auf dem Gerät; die Durchsuchbarkeit folgt dem Dokument danach überallhin, auch in Drittsysteme wie Dropbox, Google Drive und SharePoint, die den eingebetteten Text genauso indexieren.

Sprachabdeckung

Unterstützte Sprachen für durchsuchbares PDF

Für mehrsprachige Archive ist die Sprachunterstützung genauso wichtig wie die OCR-Geschwindigkeit. Aktuelle Abdeckung gruppiert nach Schriftfamilien.

Sprachgruppe	Sprachen
Westeuropäisch	Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch
Osteuropäisch	Polnisch, Tschechisch
Kyrillisch	Russisch, Ukrainisch, Bulgarisch
Asiatisch	Chinesisch (vereinfacht), Japanisch, Koreanisch
Naher Osten	Arabisch, Hebräisch

Mehrsprachige Dokumente funktionieren gut — die OCR-Engine verarbeitet Seiten mit mehreren Sprachen. Technische Dokumente mit englischen Begriffen, gemischt mit anderen Sprachen (typisch für deutschsprachige IT-Dokumente), werden korrekt erkannt.

Anwendungsfälle für durchsuchbare PDFs

Archive juristischer Dokumente

Verträge, Vereinbarungen, Gerichtsdokumente — alle durchsuchbar. Finden Sie konkrete Klauseln in Hunderten von Dokumenten. Juristische Verfahren werden mit Volltextsuche handhabbar.

Beleg- und Rechnungsverwaltung

Suchen Sie Belege nach Lieferant, Betrag oder Datum. Die Steuererklärung wird einfacher — finden Sie jede absetzbare Ausgabe per Inhaltssuche statt durch Erraten von Dateinamen.

Forschung und wissenschaftliche Aufsätze

Scannen Sie Lehrbücher und Aufsätze in durchsuchbare PDFs. Finden Sie Zitate, verweisen Sie auf Quellen, stellen Sie Bibliographien zusammen — alles per Textsuche.

Krankenakten

Suchen Sie Patientenakten nach Diagnose, Medikament oder Arzt. Klinisches Personal findet relevante Vorgeschichte schnell. Compliance-Berichte entstehen aus durchsuchbaren Archiven.

Digitalisierung historischer Dokumente

Wandeln Sie alte Papierarchive in durchsuchbares Digitalformat um. Familiengenealogische Aufzeichnungen, Geschäftsarchive, historische Dokumente — alles wird zugänglich und durchsuchbar.

Der eigentliche Grund, Scans durchsuchbar zu machen: später etwas wiederfinden

Durchsuchbare PDFs verdienen sich ihren Wert mit der Zeit, nicht im Moment des Scannens. Drei Situationen zeigen, warum die Textebene den kleinen Aufschlag bei der Dateigröße wert ist.

Archivieren, damit der Stapel nutzbar bleibt

Ein wachsendes Archiv flacher Scans wird still und leise nutzlos: Hundert Belege sehen als Miniaturen alle gleich aus, und die einzige Möglichkeit, einen zu finden, ist, sie der Reihe nach zu öffnen. Machen Sie jeden Scan beim Ablegen durchsuchbar, und das Archiv bleibt ein Textbestand, den Sie abfragen können — Lieferant, Betrag, Aktenzeichen — egal, wie groß es wird. OCR beim Speichern ist es, was ein Langzeitarchiv davor bewahrt, zur digitalen Schuhschachtel zu werden.

Juristische Recherche und Dokumentenprüfung

Wenn ein Vorgang verlangt, Tausende Seiten nach denen zu durchforsten, die einen Namen, ein Datum oder einen Begriff nennen, ist die Volltextsuche der Unterschied zwischen Stunden und Minuten — führen Sie die Suche über den gesamten Bestand aus, statt jede Seite zu lesen. Weil ScanLens die OCR auf dem Gerät erledigt, lässt sich auch geschütztes Material durchsuchbar machen, ohne es je zu einem externen Dienst hochzuladen.

Monate später eine einzelne Klausel finden

Sie unterzeichnen einen Mietvertrag oder einen Vertrag, legen den Scan ab und vergessen die Details. Monate später kommt eine Frage auf — die Kündigungsfrist, ein Verlängerungsdatum, eine bestimmte Pflicht. Mit einem durchsuchbaren PDF öffnen Sie die Datei, suchen das Wort und landen in Sekunden bei der exakten Klausel; mit einem flachen Scan scrollen und kneifen Sie die Augen zusammen. Ihr künftiges Ich, das in einem kaum erinnerten Dokument eine einzige Zeile sucht, ist der Alltagsfall, für den die Textebene gebaut ist.

Häufige Fragen

Was ist ein durchsuchbares PDF?

Ein durchsuchbares PDF enthält eine unsichtbare Textebene, erstellt durch OCR (Optical Character Recognition). Das Dokument sieht aus wie ein normaler Scan, aber Sie können Strg+F zur Textsuche verwenden, Inhalte markieren und kopieren sowie Ihre Dokumentenbibliothek über die Systemsuche durchsuchen.

Verändert das durchsuchbare PDF das Aussehen des Dokuments?

Nein, das Aussehen bleibt identisch zum normalen gescannten PDF. Die OCR-Ebene ist vollständig unsichtbar — exakt hinter dem gescannten Bild positioniert. Sie bemerken sie nur beim Suchen, Markieren oder Kopieren von Text.

Welche Sprachen werden für durchsuchbares PDF unterstützt?

OCR in ScanLens unterstützt 14 Sprachen, einschließlich Deutsch. Westeuropäische Sprachen werden zuverlässig erkannt. Mehrsprachige Dokumente (typisch — Deutsch mit englischen Begriffen) werden automatisch verarbeitet.

Kann man Text in jedem PDF-Reader suchen?

Ja, durchsuchbare PDFs funktionieren in jedem Standard-Reader. Adobe Acrobat, Apple Preview, der eingebaute PDF-Viewer von Chrome, Microsoft Edge und alle mobilen PDF-Apps können Text aus durchsuchbaren PDFs durchsuchen und markieren. Spezielle Software ist nicht nötig.

Wie viel größer werden durchsuchbare PDFs?

Die Textebene fügt typischerweise 5–15 % zur Dateigröße hinzu, abhängig von der Textmenge. Ein 1-MB-Scan kann mit Textebene 1,1 MB werden. Die gewonnene Funktionalität ist die geringe Größenzunahme meist wert.