OCR-застосунок для iPhone

Що таке OCR і що робить OCR-застосунок на iPhone?

OCR (Optical Character Recognition, оптичне розпізнавання символів) — технологія, яка перетворює зображення тексту — фото сторінки, відсканований документ, скріншот — на машинно-читаний текст, доступний для пошуку, копіювання, редагування і повторного використання. OCR-застосунок для iPhone запускає це розпізнавання на мобільному пристрої, а не на комп’ютері або сервері, перетворюючи камеру на інструмент захвату тексту для чеків, договорів, візиток, сторінок підручників і рукописних нотаток. ScanLens виконує OCR на пристрої через Apple Vision і Neural Engine — документи не покидають iPhone у процесі розпізнавання.

Ця сторінка — про витягання тексту через OCR. Повний маршрут «зняти і зберегти» — на сторінці сканера документів для iPhone. Для OCR усередині PDF (невидимий текстовий шар) — сторінка пошукового PDF. Порівняння сканерів — на сторінці огляду PDF-сканера.

Як працює розпізнавання тексту в OCR-застосунку

Коли ви скануєте документ, ScanLens запускає пайплайн розпізнавання тексту повністю на iPhone:

Передобробка зображення: скан вирівнюється, шум придушується, контраст посилюється для оптимальної видимості символів
Аналіз макета: рушій виділяє ділянки тексту, колонки, абзаци і порядок читання
Сегментація символів: окремі символи й текстові блоки розділяються, навіть у щільних макетах
Розпізнавання тексту: система інтерпретує виявлений текст можливостями OCR на iPhone
Мовне моделювання: контекстна корекція зменшує типові помилки розпізнавання через словник і граматику
Формування результату: розпізнаний текст вбудовується в PDF невидимо, зберігаючи оригінальний візуальний вигляд

Обробка на пристрої

Уся OCR-обробка відбувається локально через Apple Neural Engine. Документи не покидають iPhone — повна приватність навіть для чутливих матеріалів.

Як працює OCR на пристрої на iPhone

Рушій OCR у ScanLens — це Apple Vision, та сама системна технологія розпізнавання тексту, що стоїть за Live Text і застосунком «Камера». Vision надає запит VNRecognizeTextRequest, який приймає зображення і повертає розпізнані рядки, кожен зі своєю рамкою й оцінкою впевненості. ScanLens передає відскановану сторінку цьому запиту і використовує розпізнаний текст та його координати на сторінці, щоб побудувати текст для копіювання й невидимий текстовий шар у PDF.

Vision пропонує два шляхи розпізнавання. Точний шлях запускає нейромережу, яка читає цілі слова й рядки в контексті — саме це дозволяє впоратися з нерівними проміжками, різними шрифтами і злитими літерами рукописного письма; швидкий шлях жертвує точністю заради швидкості на простому, чистому тексті. Для сканування документів точний шлях — розумне значення за замовчуванням, і саме він найбільше спирається на апаратне забезпечення машинного навчання iPhone.

Це апаратне забезпечення — Neural Engine, блок чипа Apple, створений для швидкого й енергоощадного запуску нейромереж. Оскільки розпізнавання тексту — це задача для нейромережі, вона лягає на Neural Engine, а не навантажує основний процесор — тому OCR на сучасному iPhone завершує чисту сторінку менш ніж за секунду, а багатосторінковий скан — за кілька секунд, без нагрівання чи розряду батареї, яких коштувало б тривале завантаження.

Конвеєр розпізнавання тексту від початку до кінця

Скан щоразу проходить ті самі впорядковані кроки. Спочатку фото нормалізується — виправляється перспектива, щоб сторінка лягла рівно, а потім посилюється контраст, щоб чорнило відокремилося від паперу. Vision виконує виявлення тексту, знаходячи ділянки з написами і відкидаючи порожні поля й графіку. Кожна ділянка йде на розпізнавання, де нейромодель перетворює пікселі на символи і групує їх у слова й рядки. Потім прохід мовної моделі розв’язує неоднозначну форму на користь реального слова, а не близького промаху. Нарешті ScanLens розміщує невидимий текстовий шар за зображенням сторінки — саме це робить експортований PDF пошуковим, той самий процес, що описаний на сторінці пошукового PDF, але з боку рушія.

Чому обробка на пристрої важлива для приватності

Увесь конвеєр працює на самому iPhone. Зображення сторінки, розпізнаний текст і будь-яка зроблена копія не покидають пристрій під час OCR — ні завантаження, ні облікового запису, ні віддаленого сервера, що бодай на мить тримає ваш документ. Це справжня відмінність від вебконвертерів «зображення в текст» і багатьох OCR-інструментів з App Store, які надсилають ваше фото на сервер для розпізнавання. Для сторінки паспорта, медичного листа чи підписаного договору різниця між «оброблено на моєму телефоні» і «завантажено на чийсь сервер» — це і є вся суть. Це також означає, що розпізнавання працює взагалі без підключення до інтернету.

Підтримка мов OCR: 14 мов

OCR у ScanLens працює з великим набором мов і алфавітів — для міжнародних документів, академічних досліджень і багатомовних робочих процесів:

Латиниця: англійська, іспанська, французька, німецька, італійська, португальська, нідерландська, польська і ще 20+
Кирилиця: українська, російська, болгарська, сербська
Азійські мови: спрощена і традиційна китайська, японська (кандзі, хірагана, катакана), корейська
Письмо справа наліво: арабська, іврит, перська, урду
Інші алфавіти: грецька, тайська, в’єтнамська, гінді й інші

Для документів із кількома мовами — наприклад, англійський підручник із японськими анотаціями — ScanLens автоматично визначає й обробляє кожну мову без ручного налаштування.

OCR як функція проти Live Text проти окремого OCR-застосунку

«OCR» на iPhone використовують для трьох різних речей. Вони перетинаються, але кожна підходить для своєї задачі.

Apple Live Text (вбудований)

Live Text розпізнає текст у застосунку «Фото», у видошукачі камери і на скріншотах. Торкніться значка виділення тексту і скопіюйте слова. Це безкоштовно, миттєво і є на кожному сучасному iPhone — правильний інструмент для номера телефону з листівки, пароля Wi-Fi з картки чи кількох рядків зі скріншота. Його межі видно на документах: одне зображення за раз, без пакетної обробки кількох сторінок, без пошукового PDF і без вирівнювання чи очищення сфотографованої сторінки.

OCR як функція всередині сканера

Саме це робить ScanLens. OCR — один з етапів роботи з документом: зніміть або імпортуйте сторінку, застосунок вирівняє й покращить її, розпізнає текст і залишить цей текст прив’язаним до документа — як шар пошукового PDF, як текст для копіювання або як вхідні дані для передавання у Pages чи Word. Розпізнавання працює посторінково по всьому документу, і текст лишається з файлом, який ви архівуєте. Правильний інструмент, коли текст належить документу, який ви хочете зберегти, шукати по ньому чи надіслати.

Окремий застосунок «зображення в текст»

Деякі застосунки не роблять нічого, крім OCR: вставте зображення — отримайте текст. Багато з них працюють через веб, завантажуючи зображення на сервер для розпізнавання. Зручно для одного випадкового зображення, але вони додають витрати на приватність і залежність від інтернету, яких уникає інструмент на пристрої, орієнтований на документи. Якщо вміст чутливий, із цією категорією варто бути обережними.

Емпіричне правило: Live Text для швидкого фрагмента, OCR як функція всередині застосунку, коли текст належить документу, який ви зберігаєте. Щоб витягнути текст саме з одного фото, найшвидший шлях описаний у покроковому посібнику розпізнавання тексту з фото.

Точність OCR на друкованому тексті й рукописі

ScanLens найкраще працює на чистих, добре освітлених друкованих документах і лишається корисним для багатьох рукописних нотаток і сторінок зі змішаним макетом. Якість OCR все одно залежить від вихідного матеріалу, тому коректніше описувати результати за умовами документа, а не вдавати, що кожна сторінка поводиться однаково.

Що впливає на точність розпізнавання

Якість зображення: чіткі, добре освітлені скани дають найкращий результат. Використовуйте хороше світло і тримайте телефон рівно.
Стан документа: зім’яті, забруднені або вицвілі документи можуть гірше розпізнаватись у проблемних областях.
Шрифт і розмір: стандартні шрифти і розмір 8 пунктів і більше розпізнаються найточніше. Декоративні чи дуже маленькі шрифти дають більше помилок.
Мова: поширені мови з великою навчальною базою мають вищу точність, ніж рідкісні алфавіти.

Для рукописного тексту результат залежить від розбірливості й контрасту. Чіткий почерк часто підходить одразу, а неохайні чи щільно притиснуті нотатки радше потребуватимуть ручного перегляду.

Що можна робити з розпізнаним OCR-текстом

Коли ScanLens витягнув текст із документів, ви можете:

Шукати: миттєво знаходити будь-яке слово чи фразу в сканах через пошук будь-якого PDF-рідера
Копіювати і вставляти: виділяти текст у PDF і вставляти в листи, документи чи нотатки
Перекладати: копіювати витягнутий текст у перекладачі для розуміння документів іншими мовами
Доступність: screen reader’и можуть озвучувати скани для слабозорих
Витягання даних: витягувати суми, дати й інформацію з чеків і рахунків для обліку витрат
Організація архіву: шукати по вмісту всього архіву, а не лише за іменем файлу

Часті запитання

Що таке OCR і як він працює?

OCR (Optical Character Recognition) перетворює зображення тексту на машинно-читаний текст. ScanLens аналізує макет сторінки, визначає текстові ділянки і перетворює їх на текст, по якому можна шукати і який можна виділяти — для повторного використання в PDF, нотатках та інших документах.

Скільки мов підтримує OCR у ScanLens?

OCR у ScanLens підтримує 14 мов, зокрема українську, англійську, іспанську, французьку, німецьку, китайську (спрощену й традиційну), японську, корейську, арабську, іврит, російську й багато інших. Працює з латиницею і нелатинськими алфавітами та автоматично визначає кілька мов в одному документі.

Чи розпізнає ScanLens рукописний текст?

Так, ScanLens розпізнає рукописний текст. Результат залежить від розбірливості, освітлення і якості скана — найкращі результати дають чіткий почерк і сильний контраст між чорнилом і папером.

Чи можна шукати по витягнутому тексту в PDF?

Так, ScanLens вбудовує OCR-текст невидимо в PDF, роблячи їх повністю з пошуком. Візуальний вигляд не змінюється, але Ctrl+F (або Cmd+F) у будь-якому PDF-рідері знайде будь-яке слово чи фразу.

Чи працює OCR офлайн?

Так, усе розпізнавання відбувається локально на iPhone через Apple Neural Engine. Інтернет не потрібен, документи не покидають пристрій. Повна приватність навіть для чутливих документів.