Оптическое распознавание символов
Существует группа специальных программ, работающих с растровым (отсканированным) изображением текста. Их назначение — превращение изображения букв в обычный редактируемый текст. Этот процесс называется оптическое распознавание текста (Optical Character Recognition, OCR). Основные представители: Fine Reader (ABBYY), OmniPage, Cunei Form (Cognitive Tech.). Стандартное разрешение — 300 dpi черно-белого изображения, широко используемое в системах массового распознавания, хотя многие программы поддерживают и большее разрешение. Повышение разрешения обычно не приводит к существенному улучшению качества распознавания, но значительно больше загружает вычислительные мощности. Кроме того, тогда в изображении в большей степени проявляются дефекты бумаги и случайные артефакты. То же самое относится к разрядности представления цветов.
Источники материала для распознавания
Источники меняются как качественно, так и в долевом отношении под влиянием технического прогресса, равно как и с учетом личных и сиюминутных потребностей разных категорий людей. Нет единой системы.
- Сканирование
- Готовые сканы страниц в растровом или PDF-формате.
- Фотографии текстов
- Смешанные документы с частью сканов. (Не обсуждается, но осознавать их наличие надо.)