Технологія OCR

PDF з пошуком на iPhone

Перетворіть відскановані PDF на PDF з пошуком на iPhone, додавши OCR-шар тексту. Шукайте текст, копіюйте контент, зберігайте вигляд оригінального скана.

Пошук тексту Копіювання контенту Збереження розмітки OCR на пристрої

Найкраще для: відсканованих договорів, чеків, документів та архівів, які мають виглядати як оригінальна сторінка, але потім поводитися як текст з пошуком.

Що таке PDF з пошуком і чим він відрізняється від звичайного скана?

PDF з пошуком — це PDF-файл з невидимим OCR-шаром (розпізнавання тексту), вбудованим поверх кожної відсканованої сторінки. Сторінка виглядає ідентично оригінальному скану, але у файлі працює пошук у будь-якій PDF-читалці — можна знайти слова через Cmd+F, виділити і скопіювати речення, витягти текст для архівів чи таблиць. Звичайний відсканований PDF містить лише зображення сторінок — нічого не можна ні знайти, ні скопіювати.

ScanLens створює PDF з пошуком на iPhone, запускаючи OCR на пристрої через Apple Vision framework, потім вбудовуючи розпізнаний текст за кожним зображенням сторінки перед експортом. OCR-шар лишається всередині PDF, тому документ лишається доступним для пошуку в будь-якій ОС, у будь-якій PDF-читалці, роки потому.

Для ширшого витягу тексту з будь-якого зображення чи фото (не лише PDF) — див. застосунок OCR для iPhone. Для повного сценарію захоплення сканів у PDF — почніть з сканера PDF. Типові наступні кроки після створення PDF з пошуком: об’єднати кілька PDF на iPhone, розділити довгий PDF або підписати договір.

Що насправді являє собою невидимий текстовий шар

Уявіть PDF з пошуком як два шари, складені на кожній сторінці. Згори лежить зображення сторінки — скан, який ви захопили, рівно таким, яким він був на папері. Знизу лежить текстовий шар: кожне слово, яке розпізнав OCR-рушій, розміщене на тих самих координатах, що й відповідне слово в зображенні, але відмальоване невидимим шрифтом. Ви бачите лише картинку; програмне забезпечення бачить слова за нею.

Саме це позиціонування і є всім фокусом. Оскільки кожне розпізнане слово прив’язане до того місця, де воно з’являється на скані, виділення тексту підсвічує правильну частину зображення, а пошук перестрибує на правильне місце на правильній сторінці. Невидимий шрифт має нульову непрозорість, тож він ніколи не змінює того, як документ виглядає чи друкується — сторінка лишається піксель у піксель ідентичною звичайному скану. Змінилося те, що файл тепер містить власний текст, а не лише його зображення.

ScanLens будує цей шар під час експорту: після того як Apple Vision framework розпізнає текст на пристрої, ScanLens записує кожне слово та його обмежувальну рамку в PDF за зображенням сторінки. Звідти текст подорожує всередині файла — скопіюйте PDF на Mac чи PC, відкрийте його в будь-якій читалці роки потому, і текст з пошуком усе ще там, без жодної залежності від ScanLens чи інтернет-з’єднання. Це стандартна можливість PDF, вбудована в сам документ.

Пласкі скановані PDF vs PDF з OCR-пошуком — і як їх розрізнити

Два файли можуть виглядати на екрані ідентично — саме тому люди й попадаються. Плаский сканований PDF містить лише зображення: стос картинок сторінок без жодного тексту всередині. Його не можна ні шукати, ні виділити в ньому речення, а телефон чи комп’ютер, який індексує ваші файли, знаходить його лише за іменем файла, а не за тим, що написано на сторінці. Саме це ви отримуєте від більшості простих сканер-застосунків, від сканування документа Камерою iOS чи від функції «сканувати в PDF» на копірі з вимкненим OCR.

PDF з OCR-пошуком виглядає так само, але несе невидимий текстовий шар, описаний вище. Пошук знаходить у ньому слова, ви можете виділяти і копіювати, а операційна система може індексувати весь його вміст. Візуально сторінка не змінена; різниця цілком у тому, на що здатен файл.

Щоб зрозуміти, який з них у вас, відкрийте PDF і спробуйте виділити слово — проведіть по рядку або зробіть довге натискання. Якщо підсвічуються окремі слова, текстовий шар є і файл доступний для пошуку. Якщо вся сторінка виділяється одним блоком або не виділяється нічого — це плаский скан лише з зображень. Інша швидка перевірка — пошук: відкрийте «Знайти» і пошукайте слово, яке ви явно бачите на сторінці. Плаский скан не дасть жодного збігу. Прогін сторінки через ScanLens додає шар, і обидві перевірки починають проходити.

Як технічно працює PDF з пошуком

Розпізнавання тексту OCR

ScanLens використовує Apple Vision framework для розпізнавання тексту на пристрої. OCR-шар уміє розпізнавати слова, числа і структуру документа на 14 мовах, зокрема українській, лишаючи обробку на iPhone.

Позиціонування текстового шару

Розпізнаний текст розташовується точно за відсканованим зображенням. Позиція кожного слова збігається з його візуальним місцем. Коли ви виділяєте текст, виділення покриває відповідну ділянку зображення.

Обробка на пристрої

Увесь OCR відбувається локально на iPhone. Документи ніколи не покидають пристрій під час обробки. Це гарантує приватність для чутливих документів і працює без інтернету.

Переваги PDF з пошуком

Знайти текст миттєво

Використовуйте Ctrl+F (або Cmd+F на Mac), щоб знайти будь-яке слово в документі. Більше не потрібно гортати сторінки в пошуках конкретного пункту в договорі чи числа в чеку. Пошук знаходить миттєво.

Виділити і скопіювати текст

Клікніть і тягніть, щоб виділити текст, потім скопіюйте у буфер. Вставте в листи, документи, таблиці. Витягуйте цитати, копіюйте адреси, забирайте номери телефонів — без передруковування.

Повнотекстовий пошук по документах

Spotlight на Mac і пошук Windows можуть індексувати PDF з пошуком. Знайдіть документи за вмістом, а не лише за іменем файла. Пошук «рахунок березень 2024» — і знайде кожен збіжний документ.

Системи керування документами

Корпоративні системи на кшталт SharePoint, Google Drive, Dropbox і OneDrive можуть індексувати PDF з пошуком. Корпоративний пошук повертає релевантні скановані документи поруч з рідними файлами.

Доступність

Скрінрідери можуть читати PDF з пошуком уголос. Текстовий шар дає доступний контент для користувачів з порушеннями зору. Відповідність вимогам доступності стає можливою.

Що змінюється

Звичайний PDF vs PDF з пошуком

Зображення сторінки лишається тим самим. Змінюється те, що можна робити з файлом після сканування: шукати, виділяти, копіювати, індексувати і правильно архівувати.

Функція	Звичайний сканований PDF	PDF з пошуком
Зовнішній вигляд	Скановане зображення	Ідентично (без змін)
Пошук тексту (Ctrl+F)	Недоступний	Повна підтримка
Виділення тексту	Недоступне	Повна підтримка
Копіювання/вставлення тексту	Недоступне	Повна підтримка
Індексація пошуку ОС	Лише ім’я файла	Індексується вміст
Підтримка скрінрідерів	Лише зображення	Повний доступ до тексту
Розмір файла	Менший	Трохи більший (+5–15%)

Єдиний компроміс — невелике збільшення розміру для зберігання текстового шару. Для більшості документів це +5–15% — невелика ціна за значне покращення функціональності.

Де текстовий шар окупається: Spotlight, «Файли» та iCloud

Сенс PDF з пошуком не в моменті, коли ви його створюєте, — а в моменті через півроку, коли вам треба щось у ньому знайти. На iPhone і по всій екосистемі Apple невидимий текстовий шар підключається до інструментів пошуку, якими ви вже користуєтеся.

Пошук Spotlight

Spotlight в iOS — пошук, який ви викликаєте свайпом униз на головному екрані — індексує вміст PDF, збережених на пристрої, а не лише їхні імена. Щойно скан несе текстовий шар, набір фрази зсередини документа може вивести цей документ напряму, навіть якщо ви давно забули, як назвали файл. Без шару Spotlight нічого читати й може зіставити лише ім’я файла.

Застосунок «Файли»

Збереження PDF з пошуком у застосунок «Файли» робить його знаходжуваним за вмістом із рядка пошуку «Файлів». Найбільше це важить для архівів: тека відсканованих чеків чи договорів стає масивом тексту, який можна запитувати, а не стіною однакових на вигляд мініатюр сторінок, які доводиться відкривати по черзі.

iCloud Drive та ваші інші пристрої

Оскільки текстовий шар живе всередині файла, він синхронізується туди, куди йде файл. Покладіть PDF з пошуком в iCloud Drive — і він доступний для пошуку також на вашому iPad і Mac: Spotlight на Mac та застосунок «Файли» на iPad читають той самий вбудований текст. Розпізнавання відбулося один раз, на вашому iPhone, на пристрої; пошукованість потім слідує за документом усюди, зокрема й у сторонніх системах на кшталт Dropbox, Google Drive і SharePoint, які індексують вбудований текст так само.

Покриття мов

Підтримувані мови для PDF з пошуком

Для багатомовних архівів підтримка мови важлива так само, як швидкість OCR. Поточне покриття згруповане за родинами писемності.

Група мов	Мови
Кирилиця	Українська, російська, болгарська
Західноєвропейські	Англійська, німецька, французька, іспанська, італійська, португальська, голландська
Східноєвропейські	Польська, чеська
Азійські	Китайська (спрощена), японська, корейська
Близькосхідні	Арабська, іврит

Багатомовні документи працюють добре — OCR-рушій обробляє сторінки з кількома мовами. Технічні документи з англійськими термінами, змішаними з іншими мовами (типова ситуація для україномовних IT-документів), розпізнаються коректно.

Сценарії PDF з пошуком

Архіви юридичних документів

Договори, угоди, судові документи — усі доступні для пошуку. Знайдіть конкретні пункти в сотнях документів. Юридичні розгляди стають керованими з повнотекстовим пошуком.

Управління чеками і рахунками

Шукайте чеки за контрагентом, сумою чи датою. Підготовка декларації спрощена — знайдіть кожну врахувану витрату пошуком за вмістом, а не вгадуванням імен файлів.

Дослідження і наукові статті

Скануйте підручники і статті в PDF з пошуком. Знаходьте цитати, перехресно посилайтеся на джерела, збирайте бібліографію — все через текстовий пошук.

Медичні записи

Шукайте записи пацієнтів за діагнозом, ліками чи лікарем. Клінічний персонал швидко знаходить релевантну історію. Звіти про відповідність формуються з архівів з пошуком.

Оцифровка історичних документів

Конвертуйте старі паперові архіви в цифровий формат з пошуком. Сімейні генеалогічні записи, бізнес-архіви, історичні документи — усе стає доступним і шукабельним.

Справжня причина робити скани пошукованими: знайти щось потім

PDF з пошуком виправдовують себе з часом, а не в момент сканування. Три ситуації показують, чому текстовий шар вартий невеликої ціни в розмірі файла.

Архівування так, щоб купа лишалася придатною

Зростаючий архів пласких сканів тихо стає непридатним: сотня чеків виглядає однаково як мініатюри, і єдиний спосіб знайти один — відкривати їх по черзі. Робіть кожен скан пошукованим у момент, коли підшиваєте його, — і архів лишається масивом тексту, який можна запитувати: контрагент, сума, номер справи — хоч би яким великим він ставав. OCR-під-час-збереження — це те, що не дає довгостроковому архіву перетворитися на цифрову коробку з-під взуття.

Юридичний розгляд і перегляд документів

Коли справа вимагає прочесати тисячі сторінок у пошуках тих, де згадано ім’я, дату чи термін, повнотекстовий пошук — це різниця між годинами й хвилинами: запустіть пошук по всьому набору замість того, щоб читати кожну сторінку. Оскільки ScanLens робить OCR на пристрої, привілейовані матеріали можна зробити пошукованими, жодного разу не вивантажуючи їх у зовнішній сервіс.

Знайти один пункт за кілька місяців

Ви підписуєте оренду чи договір, підшиваєте скан і забуваєте подробиці. За кілька місяців виникає питання — строк попередження, дата продовження, конкретне зобов’язання. З PDF з пошуком ви відкриваєте файл, шукаєте слово і за секунди опиняєтеся на потрібному пункті; з пласким сканом ви гортаєте й мружитеся. Ваше майбутнє «я», що шукає один рядок у ледь пам’ятному документі, — це щоденний випадок, заради якого й створено текстовий шар.

Часті запитання

Що таке PDF з пошуком?

PDF з пошуком містить невидимий текстовий шар, створений OCR (Optical Character Recognition). Документ виглядає як звичайний скан, але можна використовувати Ctrl+F для пошуку тексту, виділення і копіювання контенту, а також пошуку по бібліотеці документів через системний пошук.

Чи змінює PDF з пошуком вигляд документа?

Ні, зовнішній вигляд лишається ідентичним звичайному відсканованому PDF. OCR-шар повністю невидимий — розташований точно за відсканованим зображенням. Ви помічаєте його лише при пошуку, виділенні чи копіюванні тексту.

Які мови підтримуються для PDF з пошуком?

OCR у ScanLens підтримує 14 мов, зокрема українську. Кирилиця розпізнається стабільно. Багатомовні документи (типова ситуація — українська з англійськими термінами) обробляються автоматично.

Чи можна шукати текст у будь-якій PDF-читалці?

Так, PDF з пошуком працюють у будь-якій стандартній читалці. Adobe Acrobat, Apple Preview, вбудований PDF-переглядач Chrome, Microsoft Edge і всі мобільні PDF-застосунки вміють шукати і виділяти текст з PDF з пошуком. Спеціальний софт не потрібен.

Наскільки більшими стають PDF з пошуком?

Текстовий шар зазвичай додає 5–15% до розміру файла, залежно від кількості тексту. Скан на 1 МБ може стати 1.1 МБ з текстовим шаром. Отримувана функціональність зазвичай варта невеликого збільшення розміру.