可搜索PDF是在每张扫描页面上方内嵌一层不可见OCR(文本识别)图层的PDF文件。页面外观与原始扫描完全一致,但文件可在任意PDF阅读器中进行搜索——可通过Cmd+F查找单词、选择并复制句子,将文本提取至档案或表格。普通扫描PDF只包含页面图像,既不能搜索也不能复制。
ScanLens通过Apple Vision framework在设备端运行OCR来生成可搜索PDF,并在导出前将识别到的文本嵌入每张页面图像之后。OCR图层留在PDF内部,因此文档可在任意操作系统、任意PDF阅读器中长期保持可搜索。
若需要从任意图像或照片(不仅限于PDF)中更广泛地提取文本,请参见iPhone的OCR应用。完整的扫描转PDF流程,请从PDF扫描器开始。生成可搜索PDF后的常见后续操作:在iPhone合并多份PDF、拆分长PDF,或签署合同。
ScanLens使用Apple Vision framework在设备端进行文本识别。OCR图层可识别50多种语言(包括简体中文)的单词、数字与文档结构,处理过程保持在iPhone本地。
识别到的文本精确放置在扫描图像之后。每个单词的位置与其视觉位置对齐。当您选择文本时,选区会覆盖图像上对应的区域。
可搜索PDF遵循PDF/A归档标准。文本图层直接嵌入文档结构。任意PDF阅读器都可访问内嵌文本,无需特殊软件。
所有OCR都在iPhone本地完成。文档在处理过程中绝不会离开设备。这为敏感文档提供了隐私保障,也支持离线使用。
使用Ctrl+F(Mac上为Cmd+F)查找文档中的任意单词。再也不用翻页查找合同中的某条条款或收据上的某个数字。搜索可即时定位。
点击拖拽以选中文本,再复制到剪贴板。粘贴至邮件、文档、表格中。提取引用、复制地址、获取电话号码——无需重新键入。
Mac上的Spotlight与Windows搜索都能为可搜索PDF建立索引。可按内容查找文档,而不只是文件名。搜索「2024年3月发票」即可找到每一份匹配的文档。
SharePoint、Google Drive、Dropbox、OneDrive等企业系统都能为可搜索PDF建立索引。企业搜索能与原生文件并列返回相关的扫描文档。
读屏软件可以朗读可搜索PDF。文本图层为视障用户提供可访问内容。从而实现可访问性合规。
页面图像保持不变,改变的是扫描之后您能对文件做什么:搜索、选中、复制、建立索引、规范归档。
| 功能 | 普通扫描PDF | 可搜索PDF |
|---|---|---|
| 外观 | 扫描图像 | 完全一致(无变化) |
| 文本搜索(Ctrl+F) | 不支持 | 完整支持 |
| 选择文本 | 不支持 | 完整支持 |
| 复制/粘贴文本 | 不支持 | 完整支持 |
| 系统搜索索引 | 仅文件名 | 对内容建立索引 |
| 读屏软件支持 | 仅图像 | 完整文本访问 |
| 文件体积 | 较小 | 略大(+5–15%) |
唯一的取舍是为存储文本图层而略增的体积。对多数文档而言为+5–15%,相对于功能上的显著提升来说微不足道。
对于多语言档案而言,语言覆盖与OCR速度同样重要。当前覆盖按字符体系分组。
| 语言组 | 语言 |
|---|---|
| 中日韩 | 简体中文、繁体中文、日语、韩语 |
| 西欧 | 英语、德语、法语、西班牙语、意大利语、葡萄牙语、荷兰语 |
| 东欧 | 波兰语、捷克语 |
| 西里尔 | 俄语、乌克兰语、保加利亚语 |
| 中东 | 阿拉伯语、希伯来语 |
多语言文档表现良好——OCR引擎可处理同时含多种语言的页面。混合英文术语的中文技术文档(中文IT资料中的常见情形)能被正确识别。
合同、协议、司法文书均可搜索。可在数百份文档中查找特定条款。借助全文检索,法律审阅变得可控。
按交易方、金额或日期搜索收据。报税准备更轻松——通过内容检索找出每一笔可计入的支出,而不是猜文件名。
将教材与论文扫描为可搜索PDF。查找引文、交叉引用资料、汇编参考文献——全部通过文本搜索完成。
按诊断、用药或医生搜索病历。临床人员能更快找到相关历史。可从可搜索档案中生成合规报告。
将旧的纸质档案转为数字化、可搜索的格式。家族族谱记录、企业档案、历史文献——都可访问可检索。
可搜索PDF包含一层由OCR(光学字符识别)生成的不可见文本图层。文档外观与普通扫描相同,但您可使用Ctrl+F搜索文本、选择并复制内容,并通过系统搜索在文档库中查找。
不会。外观与普通扫描PDF完全一致。OCR图层完全不可见——它精确放置在扫描图像之后。只有在您搜索、选中或复制文本时才能感知到它。
ScanLens的OCR支持50多种语言,包括简体中文。中文识别稳定。多语言文档(如中文夹杂英文术语的常见情形)会被自动处理。
可以。可搜索PDF可在任意标准阅读器中工作。Adobe Acrobat、Apple Preview、Chrome内置PDF查看器、Microsoft Edge以及所有移动PDF应用都能搜索并选中可搜索PDF中的文本。无需特殊软件。
文本图层通常会让文件体积增加5–15%,具体取决于文本量。1 MB的扫描可能因文本图层变为1.1 MB。所获得的功能通常值得这一点点体积增长。