Оптическое распознавание символов

Существует группа специальных программ, работающих с растровым (отсканированным) изображением текста. Их назначение — превращение изображения букв в обычный редактируемый текст. Этот процесс называется оптическое распознавание текста (Optical Character Recognition, OCR). Основные представители: Fine Reader (ABBYY), OmniPage, Cunei Form (Cognitive Tech.). Стандартное разрешение — 300 dpi черно-белого изображения, широко используемое в системах массового распознавания, хотя многие программы поддерживают и большее разрешение. Повышение разрешения обычно не приводит к существенному улучшению качества распознавания, но значительно больше загружает вычислительные мощности. Кроме того, тогда в изображении в большей степени проявляются дефекты бумаги и случайные артефакты. То же самое относится к разрядности представления цветов.

Источники материала для распознавания

Источники меняются как качественно, так и в долевом отношении под влиянием технического прогресса, равно как и с учетом личных и сиюминутных потребностей разных категорий людей. Нет единой системы.

Сканирование
Готовые сканы страниц в растровом или PDF-формате.
Фотографии текстов
Смешанные документы с частью сканов. (Не обсуждается, но осознавать их наличие надо.)

Copyright © 1993–2024 Мацкявичюс Д.А. Все права защищены.
Никакая часть сайта не может быть воспроизведена никаким способом без письменного разрешения правообладателя и явной ссылки на данный ресурс.
Медаль выдана сайту гимназии 1549 г.Москвы, в значительной степени состоявшему из представленных здесь авторских материалов

Медаль выдана сайту гимназии 1549 г.Москвы, в значительной степени состоявшему из представленных здесь авторских материалов