照片转文字

iPhone 从照片扫描文字

通过 Apple 的 Vision 框架在设备端运行 OCR,从 iPhone 上任意一张照片中提取可编辑、可复制的文字,覆盖 50+ 种语言。Apple 内置的实况文本(Live Text)对来自相机的快速抓取已经处理得不错;ScanLens 的价值出现在以下情况:语言超出实况文本可靠覆盖的范围,照片已经躺在图库里,或者你希望识别出的文字与其他文档一起保存。

设备端 Apple Vision 50+ 语言文档库集成不上传

适用场景:已经在图库里的照片、外语招牌和菜单、印刷书籍的页面、混合文字的文档(日文+英文、西里尔+拉丁)、截图,以及任何希望把识别文字与相关扫描放在一起保存、而不仅留在剪贴板上的照片。

在 iPhone 上怎样从照片扫描文字——实况文本够用吗?

要在 iPhone 上从照片扫描文字,先用一款带 OCR 的 App 打开照片,让识别器跑完,再复制、分享或保存提取出来的文字。近年来,Apple 内置了实况文本(Live Text)专门做这件事——在任意照片或相机取景框中长按文字,会出现一个带复制、翻译和分享的选区气泡。如果只是单张快速抓取,这就是合适的工具。

独立 OCR App 变得重要,是在以下三种情况之一成立时:语言超出实况文本支持得较好的范围(CJK 精度、手写、混合文字);照片在相册里放了一段时间,你更想从图库而不是从相机入手;识别文字需要进入文档流——和其他扫描件、PDF 一起保存、可在整个文档库中检索。ScanLens 正是这些场景的答案:由 Apple Vision 提供的设备端 OCR、50+ 种语言,以及一个能留住结果的文档库。

实况文本与 ScanLens——各自的强项

实况文本是合适的工具,是当文字就在你面前、需要立刻进到剪贴板时。要翻译的路牌、展会上的名片、咖啡馆的 Wi-Fi 密码、路由器背面的型号。打开相机,点一下文字,复制。三秒搞定。实况文本对几十种使用人数很多的语言都处理得不错,翻译也只差一个点击。

ScanLens 真正赢的,是三种很清楚的情况。两周前拍下的日文书页——实况文本能识别日文,但在密集的竖排文本上精度不稳,而结果只会在剪贴板里停留三十秒就被下一次复制覆盖。图库里的印刷信件——对几个月前的旧照片,实况文本有时不会显示选择器,因为它的启发式规则比较保守。一张两种文字并排的照片——双语菜单、俄英对照说明书、日英教科书页。ScanLens 的语言选择器让你能明确告诉引擎要期望什么——这是独立 OCR 一直以来处理混合文档的方式。

在 ScanLens 中从照片提取文字,你会得到什么

由 Apple Vision 框架在设备端运行的 OCR

就是 Apple 自己在实况文本内部用的那套引擎,直接调用,并能由你来控制语言选择。Vision 可识别 50+ 种语言,包括西里尔(俄语、乌克兰语)、CJK(中文、日文、韩文)、阿拉伯语、希伯来语、泰语、越南语,以及多种拉丁字母语言的手写。没有任何东西离开设备——照片和识别文字都留在本地。

从图库、相册或"文件"导入任意照片

从"照片"App 取一张,从"文件"App 的文件夹(iCloud 云盘、Dropbox、Google Drive 通过"文件"提供方)导入,或者直接在 ScanLens 内拍一张新的。截图也算——对 OCR 引擎来说就是普通照片——这在你需要从一款不允许直接选中文字的 App 里抓字时很有用。

识别文字可编辑、可复制、可导出

OCR 跑完后,识别文字以可编辑块的形式出现。整段复制、单段复制,通过 iOS 分享菜单发到邮件、信息、备忘录或任何目标。若目的地更适合文件而非剪贴板,可以导出为 .txt 文件。输出是纯文本——不复刻格式——从图像中提取文字时,这通常正是你想要的结果。

与照片一起保存在你的 ScanLens 文档库中

这部分是实况文本不会做的。识别文字会作为文档存入 ScanLens,与来源照片关联,并出现在文档库列表中,可与扫描件、PDF 一起被搜索。两个月后,你只记得自己从某家日本餐厅菜单上抓过文字,却不记得是哪张照片,搜索能把它找回来。

OCR 流程

在 ScanLens 中从照片扫描文字的步骤

从打开 App 到识别文字进入剪贴板,单张照片远不到一分钟。六步,不需要在多个 App 之间来回切换。

步骤	操作	提示
1	打开 ScanLens	从主屏幕或 iOS 程序坞——无需登录
2	导入照片	"照片"选择器、"文件"浏览、相册或在 App 内重新拍摄
3	选择语言	单语种照片用默认设置即可;混合文字时选两到三种
4	等待 OCR(通常 1–2 秒)	识别文字会以可编辑覆盖层出现在照片旁
5	选中、复制或分享	长按选中;通过 iOS 标准分享菜单发到邮件、信息、备忘录
6	将照片 + 文字保存到文档库	作为单个文档保存,可与其他扫描件一起检索

哪些照片"把文字抓出来"特别有意义

旅行中的外语招牌和菜单

看不懂的菜单,或者火车站的指示牌。拍下来,跑 OCR,粘贴到翻译器。实况文本覆盖主要欧洲语言;ScanLens 补上长尾——泰文菜单、西里尔时刻表、日文手写招牌——并把照片和文字一起留下,方便旅行回来后回看。

拍下来的印刷书页或信件

图书馆里来不及好好扫描的书页;寄出原件前先拍下的信;朋友的课堂笔记的一页。ScanLens 把照片变成可以引用、检索、粘贴到写作 App 的文字。

会议白板的照片

站会后白板上潦草的行动项。OCR 把手写与打印混杂的内容转成可编辑文本,这些事项就能落到任务管理器里。若想把白板本身留作干净的视觉文档,可参考白板扫描流程,带反光与透视校正。

食谱书里的食谱页

为了一份食谱去扫描整本书并裁边,实在没必要。拍下那一页,对食材和做法跑 OCR,保存到食谱文件夹。文字和照片放在一起——某一步含糊时还能回头看视觉版式。

拍下来的手写便条

同事留在你桌上的便利贴;同事发来的白板草图;你自己开会笔记里的一页。Apple Vision 的手写识别覆盖多种拉丁字母语言——专门的说明请见把手写扫成文字。

常见问题

实况文本(Live Text)不是已经能做这件事了吗?

对于快速抓取——路牌、Wi-Fi 密码、名片——实况文本(Live Text)确实是合适的工具。它内置于近年的 iOS 版本,直接从相机就能用。ScanLens 真正发挥作用,是在以下情况:语言超出实况文本可靠覆盖的范围;照片已经在图库里待了一段时间;或者识别出的文字需要进入一份保存的文档而不仅是剪贴板。

支持哪些语言?

ScanLens 使用 Apple 的 Vision 框架做 OCR,可识别 50 多种语言的文字——英语、主要欧洲语言、西里尔(俄语、乌克兰语)、CJK(中文、日文、韩文)、阿拉伯语、希伯来语、泰语、越南语,以及多种拉丁字母语言的手写。多语言文档通过语言选择器处理,让识别器知道应该加载哪些模型。

照片会不会被上传到任何地方?

不会。OCR 完全通过 Apple 的 Vision 框架在 iPhone 本机上运行。照片不会为了识别而离开设备。没有 ScanLens 账号,也没有上传步骤。如果之后你把结果保存到 iCloud 云盘文件夹里,那就是 Apple 标准的同步——是你的 iCloud,不是 ScanLens 的服务器。

照片里多种语言混排怎么办?

在语言选择器里勾选照片中出现的两到三种语言。这样引擎会加载相应的识别模型,在中英文菜单或俄英对照说明书上就不会胡乱猜测。混合文字的识别精度,正是选择独立 OCR 而不仅依赖实况文本的主要原因之一。

能扫描截图里的文字吗?

可以——在 ScanLens 看来,截图就是一张照片。像导入其他图片一样从相册导入即可。当某个 App 不允许你直接选中文字、需要给视频画面加字幕,或要从聊天截图里抓地址时,这一点尤其有用。

识别出的文字会保留格式吗?

不会。OCR 的输出是纯文本——单词和换行,没有粗体、斜体、字号、颜色、分栏或表格。文字会在你粘贴到的应用里重新排版。如果需要带样式的副本,做法是用 OCR 拿到文字,再用截图或 PDF 保留视觉版式,两者并排留存。