OCR в djvu файлах - новый подход к старым возможностям.
На СКР лежит достаточно много материалов о применении djvu,
поскольку формат приобретает все большую и большую популярность, то
появляется необходимость дополнить уже имеющуюся информацию.
О возможности OCR (Optical Character Recognition - оптическое распознавание
знаков, обычно текста) в djvu известно давно, но единственным инструментом
для этого был небесплатный и недешевый софт от самого Лизарда, но даже у
него нет и не предвидится кириллицы. В России были попытки разработать софт,
позволяющий преодолеть этот недостаток, но это касалось технических
библиотек, по крайней мере, такую информацию можно почерпнуть в
русскоязычном Интернете.
Сегодня можно с уверенностью сказать, что распознавание текста в файлах djvu
получило новую жизнь! Благодаря усилиям болгарского программиста Генчо
создан комплект утилит, позволяющих получить файлы djvu с текстом, что
позволяет в плагине к Internet Explorer копировать текст в буфер, а самое
главное - иметь возможность поиска в документе. Вот именно эта возможность и
является ключевой. Почему? Предположим, вы отсканировали и отконвертили в
djvu технический справочник, где масса схем, формул и всего прочего, что
практически не поддается OCR. Нет шансов на то, что кто-нибудь когда-нибудь
сделает фактически полный перенабор всей книги, это не художественная
литература, состоящая в большинстве своем только из текста. Получается, что
книга есть, но найти в ней нужную информацию по тексту невозможно, ведь djvu
не "чистый" pdf, где поиск текста заложен по умолчанию. Вдобавок OCR не дает
и не может дать гарантию безошибочности передачи исходной информации. Ни
одна программа не способна выявить все ошибки после OCR, с этим может
справится только человек, но это тяжкий труд корректора. Если в обычном
тексте еще можно найти и исправить те или иные опечатки, то в технической
литературе это потребует таких усилий, что вряд ли найдется энтузиаст,
способный полностью проверить каждый знак в каждой формуле, да еще и заново
набрать все формулы в специальном софте.
Другая картина получается при внедрении распознанного текста в djvu файлы,
поскольку ошибки при OCR всегда могут быть проверены путем сличения с
графическим оригиналом, ведь и текст, и графика находятся в одном файле.
Такую возможность трудно недооценить, ни один другой формат не способен на
подобное совмещение. Увеличение объема файлов djvu за счет текста можно не
принимать во внимание, так как удобства от работы с такими файлами полностью
окупят все затраты. Интересно еще и то, что в отличие от документов после
обычного OCR можно не заботиться о форматировании - все знаки будут на тех
же местах, где они видны при просмотре djvu, как графического файла. То, что
программы OCR в принципе не способны распознать - формулы, рисунки,
нелатинский или некириллический текст и тому подобное, становится не так
критично, ведь всегда можно посмотреть как это выглядит в отсканированном
оригинале. Способность человеческого мозга к восстановлению информации
превышает возможности всех суперкомпьютеров, существующих на сегодняшний
день. Такой текст пробежал некоторое время назад по Интернету и другим
виртуальным местам общего посещения:
-----------------------------------------------------------
По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт
занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и
пслоендяя бквуы блыи на мсете.
Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все рвано ткест
чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю
бкуву по отдльенотси, а все солво цликеом.
-----------------------------------------------------------
Шутка, но с изрядной долей правды. Человек это может понять, а вот с
пониманием у компьютера дело будет обстоять значительно сложнее. Поэтому
всегда можно убедиться в правильности OCR, ведь графический оригинал перед
глазами, даже если его качество далеко от идеала.
Конечно, в OCR djvu пока не обходится без ложки дегтя, но для бочки меда это
не так существенно. Дело в том, что при распознавании нельзя исправлять
ошибки, на которые указывает FineReader. Причина заключена в особенностях
хранения текста в файлах ФайнРидера, когда место каждого распознанного знака
должно быть жестко привязано к своему графическому изображению в файле djvu.
Вот что пишет автор программы Генчо по этому поводу - "Если после
автоматического распознавания FineReader-ом что-то редактируем в тексте
вручную, то для редактированного текста теряется информация о координатах на
странице и это приводит к проблемам при выборе в DJVU файле. Не рекомендую
что-либо исправлять после распознавания! По проблеме работаем!"
Справедливости ради замечу, что в OCR софте самого Лизарда дело обстоит
много хуже, там вообще невозможно повлиять на распознавание, действует
принцип "Ешь, что дают!", то есть, процесс распознавания совершенно
неконтролируем. В ФайнРидере есть возможность изменить тип и расположение
блоков, причем сделать это можно до распознавания, что существенно повышает
его достоверность. Иначе графика может быть воспринята как текст, большие
буквы как графика и т.д. В любом случае достоинства OCR djvu, особенно для
технической литературы превышают все возможные издержки, а дополнительное
время на OCR djvu неизмеримо меньше, чем при "чистом" OCR.
Вся необходимая информация по применению OCR djvu содержится
в файлах пакета. Первый пакет для распознавания, как такового, а второй для
индексации уже распознанного текста.
Разумеется, что для этих операций, кроме кодера djvu, нужно иметь ФайнРидер
5-й или 7-й версии, возможно в этот список добавится и 6-я версия.
В заключение хотелось бы от имени радиолюбителей
поблагодарить Генчо за его труд по созданию бесплатной программы для всех,
кто пользуется форматом djvu.
СКР Team (C) 2004