Журнал PC Magazine/RE №10/2011. PC Magazine/RE
Читать онлайн книгу.конфиденциальных данных из документа, которая позволяет убирать конфиденциальную информацию и с текста, и с изображения. Текст заменяется черной полосой или черными точками во всех слоях документа.
Интересны также новые возможности выбора выходных форматов для сохранения подготовленных документов. Появились новые «мобильные» форматы ePub, fb2 и др. Это качественно расширяет сам подход к применению ABBYY FineReader 11. Если раньше целевым местом для сохранения «снятых» данных был компьютер, то сегодня их список расширяется благодаря мобильным гаджетам: iPad, клонам Android-смартфонам и планшетам, «читалкам» электронных книг. Нам понравился также способ передачи данных через системный буфер обмена. Сам по себе он не нов, но прежде иной раз терялся в недрах программы. Сейчас это один из наиболее эффективных способов качественно и быстро перенести собранный текст в другие документы.
В версии 11 расширен список используемых языков: теперь их 189, включая арабский. Интерес к арабскому языку повышенный, что объясняется его особенностью не только в обратном привычному для нас направлению письма, но и в использовании необычной, довольно сложной системы диакритических знаков (точки, различные значки, размещаемые сверху или снизу основного символа). Они – необходимый элемент языка, но с точки зрения OCR представляют значительную трудность для качественного распознавания. Именно поэтому в мире до сих пор практически нет OCR-продуктов, способных похвастаться качественным распознаванием арабского текста.
Как ни странно, это относится и к другим языкам, например к русскому. Ведь «сканирование» может выполняться не только с помощью сканеров, но и цифровыми камерами или мобильными телефонами. Качество снимков во втором случае часто получается неважным из-за многочисленных артефактов, но благодаря новым алгоритмам, рассчитанным на письменность с большим количеством нестандартных начертаний, удается повысить качество распознавания.
Следует отметить одно ограничение пакета. ABBYY FineReader 11 доступен в двух версиях, Professional и Corporate. Корпоративная версия пакета отличается наличием целого ряда средств, таких как Hot Folder, возможность интеграции с SharePoint, работы в терминальном режиме и т. д. Есть там и возможность создания собственных сценариев, которой недостает в редакции для «профи». Некоторая логика тут прослеживается, готовые сценарии для типовых задач включены в «профессиональный» пакет, – кроме того, существует масса инструментов создания макрокоманд для Windows (а подготовить такую макрокоманду с помощью AutoHotKey – дело максимум 20 мин). Тем не менее и в версии Professional хотелось бы иметь доступ к штатным инструментам.
В качестве тестового задания для пакета ABBYY FineReader 11 выступал отсканированный архив PC Magazine/RE (один номер – 60–100 файлов в формате PNG, каждый объемом 30–40 Мбайт). Примерно 40 номеров было распознано в течение четырех дней. При этом первые два дня работа выполнялась на одноядерной машине, затем на многоядерной. Выигрыш в скорости при выполнении реального задания составил примерно