検索可能なPDFとは、スキャンされた各ページの上に見えないOCR(文字認識)レイヤーが埋め込まれたPDFファイルです。ページは元のスキャンと同じに見えますが、ファイル内ではどのPDFリーダーでも検索が機能します — Cmd+Fで単語を見つけ、文をハイライト・コピーし、アーカイブや表のためにテキストを抽出できます。通常のスキャンPDFはページ画像のみを含み、検索もコピーもできません。
ScanLensはApple Vision frameworkでデバイス内OCRを実行し、書き出し前に各ページ画像の背後に認識テキストを埋め込んで検索可能なPDFを作成します。OCRレイヤーはPDF内に残るので、文書はどのOSでも、どのPDFリーダーでも、何年も検索可能なまま保たれます。
PDF以外の任意の画像や写真からのより広範なテキスト抽出はiPhone用OCRアプリを参照してください。スキャンからPDFへの完全なシナリオはPDFスキャナーから始めてください。検索可能PDF作成後の典型的な次ステップ:iPhoneで複数のPDFを結合、長いPDFを分割、契約書に署名。
ScanLensはApple Vision frameworkでデバイス内文字認識を行います。OCRレイヤーは日本語を含む50以上の言語で単語、数字、文書構造を認識でき、処理はiPhone内で完結します。
認識されたテキストはスキャン画像の真後ろに正確に配置されます。各単語の位置は視覚的な場所と一致します。テキストを選択すると、対応する画像領域を選択範囲がカバーします。
検索可能なPDFはPDF/Aアーカイブ標準に従います。テキストレイヤーは文書構造に直接埋め込まれます。どのPDFリーダーも特別なソフトなしで埋め込みテキストにアクセスできます。
すべてのOCRはiPhone上でローカルに行われます。処理中、文書は端末を離れません。これにより機微な文書のプライバシーが確保され、インターネットなしでも動作します。
Ctrl+F(Macではcommand+F)で文書内の任意の単語を見つけられます。契約書の特定条項や領収書の数字を探してページをめくる必要はもうありません。検索が瞬時に見つけます。
クリックしてドラッグしてテキストを選択し、クリップボードにコピーします。メール、文書、表計算に貼り付けます。引用を抽出、住所をコピー、電話番号を取得 — 再入力なしで。
MacのSpotlightとWindowsの検索は、検索可能PDFをインデックス化できます。ファイル名だけでなく内容で文書を見つけられます。「請求書 2024年3月」で検索すれば、該当するすべての文書が見つかります。
SharePoint、Google Drive、Dropboxなどの企業システムは検索可能PDFをインデックス化できます。社内検索でスキャンされた文書もネイティブファイルと並んで関連結果として返されます。
スクリーンリーダーは検索可能PDFを読み上げできます。テキストレイヤーは視覚障害のあるユーザーにアクセシブルなコンテンツを提供します。アクセシビリティ要件への対応が可能になります。
ページの画像は変わりません。変わるのは、スキャン後にファイルでできること:検索、選択、コピー、インデックス化、適切なアーカイブです。
| 機能 | 通常のスキャンPDF | 検索可能なPDF |
|---|---|---|
| 見た目 | スキャン画像 | 同一(変化なし) |
| テキスト検索(Ctrl+F) | 不可 | 完全対応 |
| テキスト選択 | 不可 | 完全対応 |
| テキストのコピペ | 不可 | 完全対応 |
| OS検索のインデックス | ファイル名のみ | 内容がインデックス化 |
| スクリーンリーダー対応 | 画像のみ | テキストへ完全アクセス |
| ファイルサイズ | 小さい | わずかに大きい(+5〜15%) |
唯一のトレードオフは、テキストレイヤー保管のためのわずかなサイズ増加です。ほとんどの文書で+5〜15% — 大きな機能向上に対する小さな代償です。
多言語アーカイブでは、言語のサポートはOCR速度と同じくらい重要です。現在のカバレッジを文字体系別にグループ化しています。
| 言語グループ | 言語 |
|---|---|
| 東アジア | 日本語、中国語(簡体字)、韓国語 |
| 西欧 | 英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語、オランダ語 |
| 東欧 | ポーランド語、チェコ語 |
| キリル文字 | ロシア語、ウクライナ語、ブルガリア語 |
| 中東 | アラビア語、ヘブライ語 |
多言語文書も問題ありません — OCRエンジンは複数言語のページを処理します。日本語と英語の専門用語が混ざる技術文書(日本のIT文書では典型的)も正しく認識されます。
契約書、合意書、訴訟書類 — すべて検索可能に。何百もの文書から特定の条項を見つけます。全文検索で法務調査が管理可能になります。
取引先、金額、日付で領収書を検索します。確定申告の準備が容易に — ファイル名を推測するのではなく、内容検索で対象経費を見つけられます。
教科書や論文を検索可能PDFにスキャンします。引用を見つけ、相互参照し、参考文献を集める — すべてテキスト検索で。
診断、薬剤、医師で患者記録を検索します。臨床スタッフは関連する病歴を素早く見つけられます。検索可能アーカイブから法令対応レポートも作成できます。
古い紙のアーカイブを検索可能なデジタル形式に変換します。家系図記録、ビジネスアーカイブ、歴史的文書 — すべてアクセス可能で検索可能になります。
検索可能なPDFは、OCR(光学文字認識)で作成された見えないテキストレイヤーを含みます。文書は通常のスキャンのように見えますが、Ctrl+Fでテキストを検索したり、内容を選択・コピーしたり、システム検索で文書ライブラリを横断検索したりできます。
いいえ、見た目は通常のスキャンPDFと同一のままです。OCRレイヤーは完全に見えません — スキャン画像の真後ろに配置されています。テキストの検索、選択、コピーをするときだけ気付きます。
ScanLensのOCRは日本語を含む50以上の言語に対応します。日本語は安定して認識されます。多言語文書(日本語と英語の混在は典型例)は自動で処理されます。
はい、検索可能PDFはあらゆる標準的なリーダーで動作します。Adobe Acrobat、Apple プレビュー、Chrome内蔵PDFビューア、Microsoft Edge、すべてのモバイルPDFアプリで検索可能PDFのテキスト検索とハイライトができます。特別なソフトは不要です。
テキストレイヤーは通常ファイルサイズに5〜15%追加します(テキスト量による)。1 MBのスキャンはテキストレイヤー付きで1.1 MBになるかもしれません。得られる機能は、通常このわずかなサイズ増加に見合います。