AppleのVisionフレームワークを使ったオンデバイスOCRで、iPhoneのあらゆる写真から編集可能・コピー可能なテキストを取り出します。対応は50以上の言語。Apple標準のテキスト認識表示(Live Text)はカメラからの素早い取り込みにすでにうまく対応しています。ScanLensが活きるのは、言語がLive Textの得意範囲を外れるとき、写真がすでにライブラリに入っているとき、あるいは認識テキストを他の書類と並べて保存しておきたいときです。
iPhoneで写真からテキストを取り出すには、OCR対応アプリで写真を開き、認識を走らせてから、抽出された言葉をコピー・共有・保存します。近年のiOSで、Appleはまさにこの用途にテキスト認識表示(Live Text)を標準で搭載しています — 写真やカメラのプレビューに写った文字を長押しすると、コピー・翻訳・共有のメニューが出てきます。1枚をその場でさっと処理するなら、これが正解の道具です。
専用のOCRアプリが意味を持ってくるのは次の3つのうちどれかが当てはまるときです:言語がLive Textの得意な範囲を外れる(CJKの精度、手書き、混合スクリプト)、写真がしばらくカメラロールにあってカメラからではなくライブラリから作業したい、認識テキストをドキュメントのワークフローに乗せたい(他のスキャンやPDFと並べて保存し、ライブラリ全体から検索できるようにしたい)。ScanLensはこうした場面への答えです — AppleのVisionによるオンデバイスOCR、50以上の言語、そして結果を残すドキュメントライブラリ。
テキスト認識表示(Live Text)が適しているのは、目の前にある文字を今すぐクリップボードに入れたいときです。翻訳したい街路標識、展示会で受け取った名刺、カフェのWi-Fiパスワード、ルーターの背面の型番。カメラを開いて、文字をタップして、コピー。3秒で完了です。Live Textは広く使われている数十言語をうまく扱い、翻訳もワンタップで届きます。
ScanLensが本領を発揮するのは3つのはっきりした場面です。2週間前に撮った日本語の本のページ。Live Textは日本語を認識しますが、縦書きの密な文字での精度は一定せず、結果は30秒もすれば次のコピーで上書きされてしまいます。ライブラリに残してある印刷された手紙。数か月前の写真では、ヒューリスティクスが控えめなため、Live Textが選択UIを表示しないことがあります。2つの文字体系が並ぶ写真 — 二言語のメニュー、ロシア語と英語の取扱説明書、日本語と英語の教科書のページ。ScanLensの言語ピッカーは、エンジンに何を期待すべきかを明示できるしくみで、専用OCRが昔から混合書類を扱ってきた方法そのものです。
Apple自身がLive Textの内部で使っているエンジンに直接アクセスし、言語選択を自分で制御できます。Visionは50以上の言語を認識します — キリル(ロシア語・ウクライナ語)、CJK(中国語・日本語・韓国語)、アラビア語、ヘブライ語、タイ語、ベトナム語、複数のラテン文字言語の手書きを含みます。何もデバイスを離れません — 写真も認識テキストも端末内に残ります。
「写真」アプリから取り込む、「ファイル」アプリのフォルダ(iCloud Drive、Dropbox、Google Driveなど「ファイル」プロバイダ経由)から取り込む、ScanLens内で新しく撮影する、いずれも対応します。スクリーンショットも、OCRエンジンから見れば普通の写真と同じです — 直接選択できないアプリから文字を拾いたいときに便利です。
OCR完了後、認識テキストは編集可能なブロックとして現れます。全文をコピー、段落単位でコピー、メール、メッセージ、メモ、その他iOSの共有メニュー先へ送信できます。ファイル送付が好まれるときはプレーンの .txt として書き出せます。出力はプレーンテキスト — 書式の再現はなし — 画像から単語を取り出す目的では、これがたいてい望ましい挙動です。
ここがLive Textには無い部分です。認識テキストはScanLens内のドキュメントとして保存され、元の写真とリンクされ、スキャンやPDFと並ぶライブラリの一覧から検索できます。2か月後、「日本料理店のメニューから文字を取った気がするが、どの写真だっけ」と思い出したとき、検索で見つかります。
アプリを開いてから認識テキストがクリップボードに届くまで、写真1枚なら1分かかりません。6ステップ、アプリの往復なし。
| ステップ | 操作 | ヒント |
|---|---|---|
| 1 | ScanLensを開く | ホーム画面またはiOSのDockから — サインイン不要 |
| 2 | 写真を取り込む | 「写真」ピッカー、「ファイル」ブラウザ、カメラロール、またはアプリ内撮影 |
| 3 | 言語を選ぶ | 単一言語の写真なら既定でOK、混合スクリプトなら2〜3言語を選択 |
| 4 | OCRを待つ(通常1〜2秒) | 認識テキストは写真の横に編集可能なオーバーレイとして表示 |
| 5 | 選択・コピー・共有 | 長押しで選択、メール・メッセージ・メモなどiOS標準の共有メニュー |
| 6 | 写真+テキストをライブラリに保存 | 1つのドキュメントとして保存、他のスキャンと並んで検索可能 |
読めない言語のメニュー、駅の案内表示。撮って、OCRをかけ、翻訳アプリに貼る。Live Textは主要なヨーロッパ言語をカバーしますが、ScanLensはロングテール — タイ料理店のメニュー、キリル文字の時刻表、日本語の手書き看板など — もカバーし、旅行後のために写真とテキストを一緒に残します。
図書館の本のページで、きちんとスキャンする時間がなかったもの。原本を投函する前に撮った手紙。友人の講義ノートの1ページ。ScanLensは写真を、引用したり、検索したり、ライティングアプリに貼り付けたりできるテキストに変えます。
スタンドアップ後のホワイトボードに走り書きされたアクションアイテム。OCRは印字と手書きの混合を編集可能なテキストにし、タスク管理ツールに送れる形にします。ホワイトボードそのものをきれいなビジュアル資料として残したい場合は、反射と歪みを補正するホワイトボードスキャナーの流れも参照してください。
1つのレシピのために料理本全体をスキャンしてトリミングするのは大げさです。ページを撮って、材料と作り方をOCR、レシピフォルダに保存。テキストは写真の隣にあるので、手順が不明瞭な場合に視覚的なレイアウトを参照できます。
同僚が机に残していった付箋。チームメイトが送ってきたホワイトボードのスケッチ。自分の打ち合わせメモの1ページ。Apple Visionの手書き認識は複数のラテン文字言語に対応しています — 専用の説明は手書きをテキストにスキャンを参照してください。
ストリートサイン、Wi-Fiのパスワード、名刺など、その場で素早く取り込むなら、テキスト認識表示(Live Text)が本当に適した手段です。近年のiOSに標準搭載で、カメラからそのまま動きます。ScanLensが活きるのは、言語がLive Textの得意な範囲を外れるとき、写真がすでにライブラリに入っているとき、認識したテキストをクリップボードではなく保存済みの書類に流したいときです。
ScanLensはOCRにAppleのVisionフレームワークを使い、50以上の言語の文字を認識します。英語、主要なヨーロッパ言語、キリル(ロシア語・ウクライナ語)、CJK(中国語・日本語・韓国語)、アラビア語、ヘブライ語、タイ語、ベトナム語、複数のラテン文字言語の手書きを含みます。多言語の書類は言語ピッカーで選び、認識器が必要なモデルを読み込みます。
いいえ。OCRはAppleのVisionフレームワークを使ってiPhone上で完結します。認識のために写真が端末を離れることはありません。ScanLensのアカウントもアップロード工程もありません。後でiCloud Driveのフォルダに保存すると、Apple標準の同期が適用されます — あなたのiCloudであって、ScanLensのサーバーではありません。
言語ピッカーで写真に出てくる2〜3言語を指定します。これで日本語と英語の混じったメニューやロシア語と英語の取扱説明書でも、エンジンが誤って推測することがなくなります。混合スクリプトでの精度こそ、Live Textではなく専用のOCRを選ぶ大きな理由の一つです。
はい。ScanLensから見ればスクリーンショットも単なる写真です。他の画像と同じようにカメラロールから取り込んでください。直接選択させてくれないアプリの文字を拾いたいとき、動画の1フレームに字幕を付けたいとき、チャットのスクショから住所を抜きたいときなどに便利です。
いいえ。OCRの出力はプレーンテキスト — 単語と改行のみで、太字、斜体、フォントサイズ、色、段組、表は付きません。貼り付け先のアプリで再レイアウトされます。スタイル付きのコピーが必要な場合は、単語はOCRで、視覚レイアウトはスクリーンショットかPDFで残し、両者を並べて使う形になります。