iPhone用OCRアプリ

OCRとは何か、iPhoneのOCRアプリは何をするのか

OCR（Optical Character Recognition、光学的文字認識）は、ページの写真、スキャンした書類、スクリーンショットなどの画像化された文字を、機械が読み取れるテキストへ変換する技術です。検索、コピー、編集、再利用ができるようになります。iPhone用OCRアプリは、この認識をパソコンやサーバーではなくモバイル端末上で実行し、カメラを領収書、契約書、名刺、教科書のページ、手書きメモなどのテキスト取り込みツールに変えます。ScanLensはApple VisionとNeural Engineを使ってデバイス内でOCRを実行するため、認識中に書類がiPhoneを離れることはありません。

このページはOCRによる文字抽出について解説します。「撮影と保存」までの流れ全体はiPhone用ドキュメントスキャナーのページを、PDF内のOCR（不可視のテキストレイヤー）は検索可能なPDFのページを、スキャナーの比較はPDFスキャナーの解説のページをご覧ください。

OCRアプリの文字認識の仕組み

書類をスキャンすると、ScanLensは文字認識のパイプラインをすべてiPhone上で実行します：

画像の前処理： スキャンを真っ直ぐに整え、ノイズを抑え、文字が最もはっきり見えるようにコントラストを高めます
レイアウト解析： エンジンがテキスト領域、段組み、段落、読み順を抽出します
文字のセグメント化： 密なレイアウトでも、個々の文字とテキストブロックを分離します
文字認識： iPhoneのOCR機能で検出した文字を解釈します
言語モデル： 辞書と文法による文脈補正で、よくある誤認識を減らします
出力生成： 認識したテキストを不可視のままPDFに埋め込み、元の見た目を保ちます

デバイス内処理

OCR処理はすべてApple Neural Engineを使ってローカルで行われます。書類はiPhoneを離れません。機密性の高い資料でも完全なプライバシーを保てます。

iPhoneのオンデバイスOCRの仕組み

ScanLensのOCRエンジンはAppleのVisionフレームワークです。これはLive TextやカメラAppを支えているのと同じ、システムレベルの文字認識です。VisionにはVNRecognizeTextRequestというリクエストがあり、画像を渡すと、認識した文字列をそれぞれのバウンディングボックスと信頼度スコア付きで返します。ScanLensはスキャンしたページをこのリクエストに渡し、認識したテキストとページ上の座標を使って、コピー可能なテキストと不可視のPDFテキストレイヤーを構築します。

Visionには2つの認識経路があります。高精度の経路はニューラルネットワークが単語や行を文脈ごと読み取るため、乱れた字間、まちまちなフォント、続け書きの筆記体までとらえます。一方の高速の経路は、シンプルできれいな文字に対して精度と引き換えに速度を優先します。ドキュメントスキャンでは高精度の経路が妥当な既定で、iPhoneの機械学習ハードウェアを最も活かすのもこちらです。

そのハードウェアがNeural Engineです。これはAppleシリコンのチップに組み込まれた、ニューラルネットワークを高速かつ低消費電力で実行するためのブロックです。文字認識はニューラルネットワークの処理なので、メインCPUを占有せずNeural Engineに割り当てられます。だからこそ最近のiPhoneでは、きれいな1ページのOCRが1秒もかからずに終わり、複数ページのスキャンも数秒で完了します。長いアップロードが招くような発熱やバッテリー消費もありません。

文字認識のパイプライン、端から端まで

スキャンは毎回、同じ順序のステップを通ります。まず写真が正規化され、遠近補正でページが真っ直ぐに整えられ、コントラスト強調でインクが紙から分離します。次にVisionがテキスト検出を行い、文字のある領域を特定して、空白の余白や図版を除外します。各領域は認識へ送られ、ニューラルモデルがピクセルを文字に変換し、単語や行にまとめます。続く言語モデルのパスが、あいまいな字形を惜しい別物ではなく実在する単語へと確定させます。最後にScanLensがページ画像の背後に不可視のテキストレイヤーを配置します。これが書き出したPDFを検索可能にする仕組みで、検索可能なPDFのページで解説したのと同じ流れを、エンジン側から見たものです。

オンデバイスがプライバシーに効く理由

このパイプライン全体がiPhone本体で動きます。ページ画像も、認識したテキストも、あなたがコピーした内容も、OCRの間に端末を離れることはありません。アップロードも、アカウントも、書類を一瞬でも預かるリモートサーバーもありません。これはWebベースの「画像を文字に」変換ツールや、多くのApp StoreのOCRツールとの本質的な違いです。それらはあなたの写真を認識のためにサーバーへ送ります。パスポートのページ、診断書、署名済みの契約書にとって、「自分のスマホで処理した」と「誰かのサーバーにアップロードした」の差こそが肝心です。さらに、インターネット接続がまったくなくても認識は動きます。

OCRの言語対応：14言語

ScanLensのOCRは多くの言語と文字体系に対応しており、国際的な書類、学術研究、多言語のワークフローで活用できます：

ラテン文字： 英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、オランダ語、ポーランド語、その他20以上
キリル文字： ロシア語、ウクライナ語、ブルガリア語、セルビア語
アジア言語： 簡体字中国語と繁体字中国語、日本語（漢字、ひらがな、カタカナ）、韓国語
右から左への文字： アラビア語、ヘブライ語、ペルシャ語、ウルドゥー語
その他の文字体系： ギリシャ語、タイ語、ベトナム語、ヒンディー語など

英語の教科書に日本語の注釈が入っているような複数言語の書類でも、ScanLensは各言語を自動検出して処理します。手動設定は不要です。

機能としてのOCR、Live Text、専用OCRアプリの違い

iPhoneでは「OCR」という言葉が3つの異なるものに使われます。互いに重なる部分はありますが、それぞれ向いている用途が違います。

Apple Live Text（標準搭載）

Live Textは、写真App、カメラのファインダー、スクリーンショットの中の文字を認識します。文字選択のアイコンをタップして単語をコピーするだけです。無料で、即座に使え、最近のiPhoneにはすべて搭載されています。チラシの電話番号、カードに書かれたWi-Fiパスワード、スクリーンショットの数行を取り込むのにうってつけです。一方、書類になると限界が見えます。一度に1枚の画像しか扱えず、複数ページの一括処理も、検索可能なPDFもなく、撮影したページの傾き補正や仕上げもありません。

スキャナーアプリの機能としてのOCR

これがScanLensの役割です。OCRはドキュメントのワークフローの一段階です。ページを撮影または取り込むと、アプリが傾きを補正して見やすく整え、文字を認識し、そのテキストを書類に紐づけたまま保ちます。検索可能なPDFレイヤーとして、コピー可能なテキストとして、あるいはPagesやWordへの受け渡し用の入力としてです。認識は書類全体をページごとに進み、テキストは保管するファイルに残ります。文字を、保存し、検索し、送りたい書類の一部として扱うときに最適です。

単体の「画像を文字に」変換するOCRアプリ

OCR以外は何もしないアプリもあります。画像を貼り付けると、文字が返ってくるだけです。その多くはWeb頼みで、認識のために画像をサーバーへアップロードします。たまの妙な画像1枚には便利ですが、オンデバイスでドキュメント優先のツールなら避けられるプライバシーのコストとインターネット依存が加わります。内容が機密なら、この種類は慎重に扱うべきカテゴリーです。

目安として、Live Textはちょっとした抜き出しに、アプリ内の機能としてのOCRは文字が保管する書類の一部であるときに。1枚の写真から特に文字を取り出すなら、写真から文字をスキャンの手順が最短の方法を解説しています。

印刷文字と手書き文字でのOCR精度

ScanLensは、明るく整った印刷書類で最も力を発揮し、多くの手書きメモやレイアウトが混在するページでも実用的です。OCRの品質は元の素材に左右されるため、すべてのページが同じように動くと装うのではなく、書類の状態ごとに結果を説明するのがフェアです。

認識精度に影響する要素

画像品質： はっきりして明るいスキャンが最良の結果を生みます。良い照明を使い、端末を水平に保ちましょう。
書類の状態： しわ、汚れ、退色がある書類は、その箇所の認識精度が下がることがあります。
フォントとサイズ： 標準的なフォントと8pt以上のサイズが最も正確に認識されます。装飾的なフォントや極端に小さいフォントはエラーが増えます。
言語： 学習データの多い一般的な言語は、まれな文字体系より高い精度になります。

手書き文字の場合、結果は読みやすさとコントラストに依存します。整った字はそのまま使えることが多く、雑な字や詰まったメモは目視確認が必要になりがちです。

OCRで認識したテキストの活用

ScanLensが書類からテキストを抽出すると、次のことができます：

検索： どのPDFリーダーの検索機能でも、スキャン内の任意の単語やフレーズを瞬時に見つけられます
コピー＆ペースト： PDF内のテキストを選択して、メール、書類、メモに貼り付けられます
翻訳： 抽出したテキストを翻訳ツールにコピーして、他言語の書類を理解できます
アクセシビリティ： スクリーンリーダーがスキャンを読み上げ、視覚障がいのある方にも内容を伝えられます
データ抽出： 領収書や請求書から金額、日付、情報を取り出して経費管理に活用できます
アーカイブの整理： ファイル名だけでなくアーカイブ全体の中身を検索できます

よくある質問

OCRとは何で、どう動くのですか？

OCR（Optical Character Recognition）は、テキストの画像を機械が読み取れるテキストに変換します。ScanLensはページレイアウトを解析し、テキスト領域を特定して、検索や選択ができるテキストへ変換します。これによりPDF、メモ、その他の書類で再利用できます。

ScanLensのOCRはいくつの言語に対応していますか？

ScanLensのOCRは14言語に対応しています。英語、スペイン語、フランス語、ドイツ語、中国語（簡体字と繁体字）、日本語、韓国語、アラビア語、ヘブライ語、ロシア語など多数の言語に対応します。ラテン文字と非ラテン文字の両方に対応し、1つの書類に複数の言語があっても自動で検出します。

ScanLensは手書き文字を認識しますか？

はい、ScanLensは手書き文字を認識します。結果は読みやすさ、照明、スキャン品質に依存します。読みやすい字とインクと紙のコントラストが強い場合に最良の結果になります。

PDF内の抽出テキストを検索できますか？

はい、ScanLensはOCRテキストをPDFに不可視で埋め込み、完全に検索可能にします。見た目は変わりませんが、PDFリーダーでCtrl+F（またはCmd+F）を使えば任意の単語やフレーズを検索できます。

OCRはオフラインでも動きますか？

はい、すべての認識処理はApple Neural Engineを使ってiPhone上でローカルに行われます。インターネットは不要で、書類が端末を離れることもありません。機密性の高い書類でも完全なプライバシーを保てます。