オンデバイスOCRはApple Neural Engineを通じてiPhone上で文字認識を完全に実行します。文書の画像は端末から外に出ません。クラウドOCRは画像を遠隔サーバーへアップロードし、認識モデルが抽出されたテキストを返します。両者は2026年時点できれいな印刷文書については同等の精度を達成します。本当の違いは構造的なもの、つまり処理中に文書がどこにあるかです。これがプライバシー、コンプライアンス、オフライン挙動、データの法的管轄を決定します。
本記事では、それぞれが具体的に何をするか、違いが意味を持つ場面と持たない場面を説明します。
「オンデバイスOCR」が技術的に意味すること
iPhoneでは、オンデバイスOCRはAppleのVisionフレームワーク、具体的にはVNRecognizeTextRequest APIを使い、Neural Engine(A11 Bionic以降のiPhoneに搭載された専用AIアクセラレータ)上で事前学習済みのニューラルネットワークをローカル実行します。モデルはiOSに組み込まれ、認識は1ページあたりミリ秒単位で行われ、画像の生データはアプリのサンドボックスに留まります。何もアップロードされません。アプリが認識結果やPDFを明示的に送信しない限り、何も端末から出ません。
Apple Vision OCRは2026年時点で50以上の言語をサポートし、ラテン文字・キリル文字・日本語など複数文字体系の手書き認識にも対応します。きれいな印刷文書での精度はコントラスト・解像度・書体の複雑さに応じて95〜99%です。ScanLensとApple NotesのLive Textはこの基盤の上で動作します。
「クラウドOCR」が技術的に意味すること
クラウドOCRは文書画像をHTTPSで遠隔サーバーへアップロードします。Adobe ScanならAdobe Document Cloud、Microsoft LensならMicrosoft Azure、CamScannerならCamScannerのインフラ、その他のアプリならGoogle Cloud Vision / AWS Textractなどです。サーバー側では、より大きなニューラルネットワーク(多くの場合、数十億パラメータの携帯に収まらないTransformerモデル)が画像を処理し、認識結果を返します。
サーバーは通常、画像と認識結果をキャッシュします。一時的か恒久的かは事業者のポリシーと適用されるデータ保持法によります。文書はOCRサービスに到達するまでに、CDN、ロードバランサー、ロギングシステムを通過する場合があります。これらの中継点はそれぞれ、たとえ正規の事業者であっても、データ漏えいの潜在的なポイントになります。
精度:違いが本当に重要な場面
標準的な解像度のきれいな印刷文書(A4ページ、タイプ打ちまたはレーザー印刷)については、オンデバイスとクラウドOCRは2026年時点で同等の結果を出します。OCR精度の10年の差は埋まりました。Apple Vision、Google ML Kit、その他類似のオンデバイスシステムは、通常の文書ではクラウドサービスと同等のレベルにあります。
クラウドOCRが依然として優位な3つの具体的な場面:
- 劣化したスキャンや古文書。コーヒーで濡れたレシート、色褪せた感熱紙、19世紀の手稿、照明の悪いスマホ写真は、より多様なデータで訓練された大型サーバーモデルから恩恵を受けます。Adobe AcrobatのクラウドOCRには、オンデバイスOCRが手を上げるスキャンから可読テキストを救い出す定評があります。
- 特殊な文字体系や書体。草書、ブラックレター、装飾的な書体、複雑な合字を持つ言語(アラビア語、デーヴァナーガリー)は、大規模な多言語データセットで訓練されたクラウドモデルでより良く処理されることがあります。
- 構造化データ抽出。レシートからの表構造の抽出、請求書の項目識別、明細行の切り出しは、ドメイン特化型に訓練されたクラウドモデルから恩恵を受けます。Microsoft LensのExcelエクスポート、Adobe AcrobatのLiquid Modeなどがその例です。
残りの90%の日常スキャン、税務関連レシート、賃貸契約、身分証、名刺、会議メモ、教科書のページなどでは、オンデバイスOCRは違いが実際には見えないほど良い結果を出します。
プライバシー:文書がどこにあるかが重要
ここで2つのアプローチは大きく分かれます。
オンデバイスOCRでは:
- 文書画像はiPhone上のアプリサンドボックス内で処理される
- OCRのためのネットワーク要求は発生しない
- アプリ開発者は文書の内容にアクセスできない
- クラウド同期(有効にした場合)は、利用者が制御する別個のオプション処理
クラウドOCRでは:
- 文書画像はHTTPSで第三者のサーバーへ送信される
- サーバーは事業者のポリシーに従って、画像をキャッシュ・ロギング・保管する場合がある
- アプリ開発者とそのクラウド事業者は処理中、技術的に文書の内容にアクセス可能
- CDN、ロードバランサー、ロギングシステムを通るデータ転送は追加の漏えい面を作る
- サーバーの法的管轄(米国、EU、中国)が保管中の文書に適用される
公開文書、たとえばレストランのメニューのスキャン、雑誌記事、会議の配布資料などには、これは何も意味しません。プライベートな文書については、管轄と保管の問題は現実的です。
コンプライアンス:個人情報保護法、HIPAA、GDPR、企業のDLPポリシー
いくつかの規制枠組みは「データがどこで処理されるか」を装飾的な詳細ではなく実質的な問題として扱います。
個人情報保護法(APPI、日本)
個人情報の取扱いを第三者に委託する場合、委託元には委託先の監督義務があります(個人情報保護法第25条)。要配慮個人情報(健康情報、医療記録、社会的身分など)の取扱いには本人同意とより慎重な委託先管理が必要です。クラウドOCRの利用は委託関係を発生させ、個人情報保護委員会(PPC)のガイドラインに従った委託先管理が必要になります。さらに、外国にあるサーバーへ個人データを送信する場合は越境移転規制の対象になります。オンデバイスOCRはこの問題を構造的に回避します。データを処理する第三者がそもそも存在しないからです。
HIPAA(米国の医療)
HIPAA上、Covered Entity(病院、医師、保険会社)に代わってProtected Health Information(PHI)を処理するサービスはBusiness Associateとなり、Business Associate Agreement(BAA)の締結が必要です。BAAなしのクラウドOCRサービスで処方箋、検査結果、医療記録をスキャンするのはHIPAA違反になります。オンデバイスOCRはこの問題を完全に回避します。
GDPR / UK GDPR(EU・英国の個人データ)
GDPRは個人データ処理に法的根拠を要求し、特定の機微カテゴリーには明示的同意が必要です。クラウドOCRはGDPR上「処理者」を作り、データ処理契約による遵守が求められます。オンデバイスOCRには処理者がいません。文書はデータ主体の手元に留まります。
企業のDLPポリシー
大企業のData Loss Prevention(DLP)は、特定の文書を外部サービスへアップロードすることを通常ブロックします。オンデバイスOCRはアーキテクチャ上これらのポリシーを遵守します。アップロードがないからです。クラウドOCRは企業DLPで完全にブロックされる可能性があります。
速度とオフライン
オンデバイスOCRは1ページあたり100〜500ミリ秒で動作します。クラウドOCRは高速回線で通常1〜5秒、低速回線ではそれ以上かかります。複数ページ文書のバッチスキャンでは、レイテンシーの差が積み重なります。
オフラインはオンデバイスの構造的な利点です。Apple Visionは機内モード、飛行機内、地下、電波のない場所で動作します。クラウドOCRはインターネットなしでは動作しません。画像をアップロードできないからです。
まとめ
多くの日常文書では、両アプローチは同等の結果を出します。機密文書、規制業種、オフラインシナリオでは、オンデバイスOCRはクラウドOCRが対応できない根本的な構造問題を解決します。普段スキャンする文書がレストランのメニューなら、利便性で選んでください。医療記録、確定申告書、NDA下の契約書なら、アーキテクチャで選んでください。
iPhoneでオンデバイスOCRを試したいですか。ScanLensのOCRアプリはApple Visionで完全にオンデバイスで動作します。クラウドの代替アプリとの比較はScanLens vs CamScannerのページをご覧ください。