Технология OCR

PDF с поиском на iPhone

Превратите отсканированные PDF в PDF с поиском на iPhone, добавив OCR-слой текста. Ищите текст, копируйте контент, сохраняйте вид оригинального скана.

Поиск текста Копирование контента Сохранение разметки OCR на устройстве

Лучше всего для: отсканированных договоров, чеков, документов и архивов, которые должны выглядеть как оригинальная страница, но потом вести себя как текст с поиском.

Что такое PDF с поиском и чем он отличается от обычного скана?

PDF с поиском — это PDF-файл с невидимым OCR-слоем (распознавания текста), встроенным поверх каждой отсканированной страницы. Страница выглядит идентично оригинальному скану, но в файле работает поиск в любой PDF-читалке — можно найти слова через Cmd+F, выделить и скопировать предложения, извлечь текст для архивов или таблиц. Обычный отсканированный PDF содержит только изображения страниц — ничего нельзя ни найти, ни скопировать.

ScanLens создаёт PDF с поиском на iPhone, запуская OCR на устройстве через Apple Vision framework, затем встраивая распознанный текст за каждым изображением страницы перед экспортом. OCR-слой остаётся внутри PDF, поэтому документ остаётся доступным для поиска в любой ОС, в любой PDF-читалке, годы спустя.

Для более широкого извлечения текста из любого изображения или фото (не только PDF) — см. приложение OCR для iPhone. Для полного сценария захвата сканов в PDF — начните с сканера PDF. Типичные следующие шаги после создания PDF с поиском: объединить несколько PDF на iPhone, разделить длинный PDF или подписать договор.

Что на самом деле представляет собой невидимый текстовый слой

Представьте PDF с поиском как два слоя, наложенных на каждую страницу. Сверху лежит изображение страницы — захваченный вами скан, ровно в том виде, в каком он выглядел на бумаге. Снизу лежит текстовый слой: каждое слово, распознанное OCR-движком, размещённое в тех же координатах, что и соответствующее слово на изображении, но отрисованное невидимым шрифтом. Вы видите только картинку; программа видит слова за ней.

В этом позиционировании и состоит весь фокус. Поскольку каждое распознанное слово привязано к месту, где оно появляется на скане, выделение текста подсвечивает нужную часть изображения, а поиск переходит к нужному месту на нужной странице. У невидимого шрифта нулевая непрозрачность, поэтому он никогда не меняет ни вид документа, ни печать — страница остаётся пиксель в пиксель такой же, как обычный скан. Изменилось лишь то, что файл теперь содержит собственный текст, а не только его картинку.

ScanLens создаёт этот слой при экспорте: после того как Apple Vision framework распознаёт текст на устройстве, ScanLens записывает каждое слово и его ограничивающий прямоугольник в PDF за изображением страницы. Оттуда текст путешествует внутри файла — скопируйте PDF на Mac или ПК, откройте его в любой читалке годы спустя, и текст с поиском всё ещё на месте, без какой-либо зависимости от ScanLens или интернет-соединения. Это стандартная возможность PDF, встроенная в сам документ.

Плоский сканированный PDF vs PDF с поиском после OCR — и как их различить

На экране эти два файла могут выглядеть одинаково — именно поэтому люди и попадаются. Плоский сканированный PDF содержит только изображения: стопку картинок страниц без текста внутри. По нему нельзя ни искать, ни выделить предложение, а телефон или компьютер, индексирующий ваши файлы, находит его только по имени файла, но никогда — по тому, что написано на странице. Именно это вы получаете от большинства простых сканеров, от сканирования документов в iOS «Камере» или от копира с функцией «скан в PDF» при выключенном OCR.

PDF с поиском после OCR выглядит так же, но несёт описанный выше невидимый текстовый слой. Поиск находит слова внутри него, можно выделять и копировать, а операционная система может индексировать всё его содержимое. Визуально страница не изменилась; разница целиком в том, что файл умеет делать.

Чтобы понять, что у вас в руках, откройте PDF и попробуйте выделить слово — проведите по строке или сделайте долгое нажатие. Если подсвечиваются отдельные слова, текстовый слой есть и файл доступен для поиска. Если вся страница выделяется одним блоком или ничего не выделяется — это плоский скан только из изображений. Второй быстрый тест — поиск: откройте «Найти» и поищите слово, которое явно видно на странице. Плоский скан не вернёт совпадений. Прогон страницы через ScanLens добавляет слой, и оба теста начинают проходить.

Как технически работает PDF с поиском

Распознавание текста OCR

ScanLens использует Apple Vision framework для распознавания текста на устройстве. OCR-слой умеет распознавать слова, числа и структуру документа на 14 языках, включая русский, сохраняя обработку на iPhone.

Позиционирование текстового слоя

Распознанный текст располагается точно за отсканированным изображением. Позиция каждого слова совпадает с его визуальным местом. Когда вы выделяете текст, выделение покрывает соответствующую область изображения.

Обработка на устройстве

Весь OCR происходит локально на iPhone. Документы никогда не покидают устройство во время обработки. Это обеспечивает приватность для чувствительных документов и работает без интернета.

Преимущества PDF с поиском

Найти текст мгновенно

Используйте Ctrl+F (или Cmd+F на Mac), чтобы найти любое слово в документе. Больше не нужно листать страницы в поисках конкретного пункта в договоре или числа в чеке. Поиск находит мгновенно.

Выделить и скопировать текст

Кликните и тяните, чтобы выделить текст, потом скопируйте в буфер. Вставьте в письма, документы, таблицы. Извлекайте цитаты, копируйте адреса, забирайте номера телефонов — без перепечатывания.

Полнотекстовый поиск по документам

Spotlight на Mac и поиск Windows могут индексировать PDF с поиском. Найдите документы по содержимому, а не только по имени файла. Поиск «счёт март 2024» — и найдёт каждый совпадающий документ.

Системы управления документами

Корпоративные системы вроде SharePoint, Google Drive, Dropbox и Яндекс Диск могут индексировать PDF с поиском. Корпоративный поиск возвращает релевантные сканированные документы наряду с родными файлами.

Доступность

Скринридеры могут читать PDF с поиском вслух. Текстовый слой даёт доступный контент для пользователей с нарушениями зрения. Соответствие требованиям доступности становится возможным.

Что меняется

Обычный PDF vs PDF с поиском

Изображение страницы остаётся прежним. Меняется то, что можно делать с файлом после сканирования: искать, выделять, копировать, индексировать и правильно архивировать.

Функция	Обычный сканированный PDF	PDF с поиском
Внешний вид	Сканированное изображение	Идентично (без изменений)
Поиск текста (Ctrl+F)	Недоступен	Полная поддержка
Выделение текста	Недоступно	Полная поддержка
Копирование/вставка текста	Недоступно	Полная поддержка
Индексация поиска ОС	Только имя файла	Индексируется содержимое
Поддержка скринридеров	Только изображение	Полный доступ к тексту
Размер файла	Меньше	Чуть больше (+5–15%)

Единственный компромисс — небольшое увеличение размера для хранения текстового слоя. Для большинства документов это +5–15% — небольшая цена за значительное улучшение функциональности.

Где текстовый слой окупается: Spotlight, «Файлы» и iCloud

Смысл PDF с поиском — не в момент, когда вы его создаёте, а в момент полгода спустя, когда вам нужно найти что-то внутри него. На iPhone и во всей экосистеме Apple невидимый текстовый слой подключается к поисковым инструментам, которыми вы уже пользуетесь.

Поиск Spotlight

iOS Spotlight — поиск, который вы открываете свайпом вниз на экране «Домой», — индексирует содержимое PDF, хранящихся на устройстве, а не только их имена. Как только скан несёт текстовый слой, ввод фразы из глубины документа может вывести этот документ напрямую, даже если вы давно забыли, как назвали файл. Без слоя Spotlight нечего читать, и он может совпасть лишь по имени файла.

Приложение «Файлы»

Сохранение PDF с поиском в приложение «Файлы» делает его находимым по содержимому из строки поиска «Файлов». Сильнее всего это важно для архивов: папка отсканированных чеков или договоров становится массивом текста, по которому можно делать запросы, а не стеной одинаковых на вид миниатюр страниц, которые приходится открывать по одной.

iCloud Drive и другие ваши устройства

Поскольку текстовый слой живёт внутри файла, он синхронизируется туда же, куда отправляется файл. Положите PDF с поиском в iCloud Drive — и он доступен для поиска на iPad и Mac тоже: Spotlight на Mac и приложение «Файлы» на iPad читают тот же встроенный текст. Распознавание произошло один раз, на iPhone, на устройстве; дальше доступность для поиска следует за документом повсюду, включая сторонние системы — Dropbox, Google Drive, Яндекс Диск и SharePoint, — которые индексируют встроенный текст тем же образом.

Покрытие языков

Поддерживаемые языки для PDF с поиском

Для многоязычных архивов поддержка языка важна так же, как скорость OCR. Текущее покрытие сгруппировано по семействам письменности.

Группа языков	Языки
Кириллица	Русский, Украинский, Болгарский
Западноевропейские	Английский, немецкий, французский, испанский, итальянский, португальский, голландский
Восточноевропейские	Польский, чешский
Азиатские	Китайский (упрощённый), японский, корейский
Ближневосточные	Арабский, иврит

Многоязычные документы работают хорошо — OCR-движок обрабатывает страницы с несколькими языками. Технические документы с английскими терминами, смешанными с другими языками (типичная ситуация для русскоязычных IT-документов), распознаются корректно.

Сценарии PDF с поиском

Архивы юридических документов

Договоры, соглашения, судебные документы — все доступны для поиска. Найдите конкретные пункты в сотнях документов. Юридические разбирательства становятся управляемыми с полнотекстовым поиском.

Управление чеками и счетами

Ищите чеки по контрагенту, сумме или дате. Подготовка декларации упрощена — найдите каждый учитываемый расход поиском по содержимому, а не угадыванием имён файлов.

Исследования и научные статьи

Сканируйте учебники и статьи в PDF с поиском. Находите цитаты, перекрёстно ссылайтесь на источники, собирайте библиографию — всё через текстовый поиск.

Медицинские записи

Ищите записи пациентов по диагнозу, лекарству или врачу. Клинический персонал быстро находит релевантную историю. Отчёты о соответствии формируются из архивов с поиском.

Оцифровка исторических документов

Конвертируйте старые бумажные архивы в цифровой формат с поиском. Семейные генеалогические записи, бизнес-архивы, исторические документы — всё становится доступным и искомым.

Настоящая причина делать сканы доступными для поиска: найти нужное потом

PDF с поиском оправдывают себя со временем, а не в момент сканирования. Три ситуации показывают, почему текстовый слой стоит небольшой платы размером файла.

Архивирование так, чтобы стопка оставалась рабочей

Растущий архив плоских сканов незаметно становится бесполезным: сотня чеков выглядит как одинаковые миниатюры, и единственный способ найти один — открывать их по очереди. Делайте каждый скан доступным для поиска по мере подшивки — и архив остаётся массивом текста, по которому можно делать запросы (контрагент, сумма, номер дела), как бы он ни разрастался. OCR-при-сохранении — это то, что не даёт долгосрочному архиву превратиться в цифровую коробку из-под обуви.

Юридические разбирательства и проверка документов

Когда дело требует прочёсывания тысяч страниц в поисках тех, где упоминается имя, дата или термин, полнотекстовый поиск — это разница между часами и минутами: запустите поиск по всему массиву вместо чтения каждой страницы. Поскольку ScanLens делает OCR на устройстве, конфиденциальные материалы можно сделать доступными для поиска, ни разу не загружая их на сторонний сервис.

Найти один пункт спустя месяцы

Вы подписываете аренду или договор, подшиваете скан и забываете детали. Месяцы спустя возникает вопрос — срок уведомления, дата продления, конкретное обязательство. С PDF с поиском вы открываете файл, ищете слово и попадаете точно на нужный пункт за секунды; с плоским сканом вы листаете и щуритесь. Ваше будущее «я», ищущее одну строку в едва запомнившемся документе, — это и есть повседневный случай, ради которого создан текстовый слой.

Частые вопросы

Что такое PDF с поиском?

PDF с поиском содержит невидимый текстовый слой, созданный OCR (Optical Character Recognition). Документ выглядит как обычный скан, но можно использовать Ctrl+F для поиска текста, выделения и копирования контента, а также поиска по библиотеке документов через системный поиск.

Меняет ли PDF с поиском вид документа?

Нет, внешний вид остаётся идентичным обычному отсканированному PDF. OCR-слой полностью невидим — расположен точно за отсканированным изображением. Вы замечаете его только при поиске, выделении или копировании текста.

Какие языки поддерживаются для PDF с поиском?

OCR в ScanLens поддерживает 14 языков, включая русский. Кириллица распознаётся стабильно. Многоязычные документы (типичная ситуация — русский с английскими терминами) обрабатываются автоматически.

Можно ли искать текст в любой PDF-читалке?

Да, PDF с поиском работают в любой стандартной читалке. Adobe Acrobat, Apple Preview, встроенный PDF-просмотрщик Chrome, Microsoft Edge и все мобильные PDF-приложения умеют искать и выделять текст из PDF с поиском. Специальный софт не нужен.

Насколько больше становятся PDF с поиском?

Текстовый слой обычно добавляет 5–15% к размеру файла, в зависимости от количества текста. Скан на 1 МБ может стать 1.1 МБ с текстовым слоем. Получаемая функциональность обычно стоит небольшого увеличения размера.