Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Tafobau RE:Не присылает пароль на почту 5 часов
monochka RE:Подайте бедному копеечку на книжку с литреса... 6 часов kopak RE:О группе Дятлова. О той самой, того самого... 2 дня babajga RE:Плюмаж 6 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя babajga RE:Блошкинс и Фрю. Опасное путешествие 1 неделя alexk RE:Багрепорт - 2 2 недели babajga RE:Удивленная сова 3 недели Larisa_F RE:Серия «Квадрат» издательства «Текст» 4 недели Aleks_Sim RE:Беженцы с Флибусты 4 недели edvud RE:Прошу переформатировать, распознать, etc... 4 недели monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц sem14 RE:«Уроки русского» 1 месяц Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц Впечатления о книгах
Oleg68 про Бушков: Времена звездочетов. Наш грустный массаракш (Фэнтези, Самиздат, сетевая литература)
07 04 Не шедевр, но мне понравилось. Опять на самом интересном пауза. Оценка: отлично!
Олег Макаров. про Усманов: Конец или начало? [СИ] (Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
07 04 Белиберда картонная с самого начала. Трёх страниц достаточно, чтобы понять Оценка: нечитаемо
Stager про Старуха
07 04 УГ. Литературы тут нет совсем. Это чисто заклёпочническое построение, а вот с заклёпочничеством у автора большие проблемы. Он не знает того, что знает любой любознательный школьник и что даже сносно описано в Википедии. Поэтому ………
mysevra про Терехов: Каменный мост (Современная проза)
07 04 Я бы читала, мне было интересно, но автор постоянно сбивается на тошнотворное описание каких-то эпизодов взаимоотношений главного героя с его женщинами - зачем мне это знать? Оценка: плохо
mysevra про Свечин: Адский прииск (Исторический детектив)
07 04 Добротно и обстоятельно. Очень интересно описан край. Прочитала с большим удовольствием, теперь хочу прочитать всю серию. Оценка: отлично!
mysevra про Горд: LOVE-леди. Искусство отличаться от других женщин (Психология)
07 04 Наверное, кое-что можно взять на вооружение, хотя риторика американских подростковых сериалов сильно удешевляет идею. Интересно было бы воочию сравнить байгужинку, последовательницу Валяевой и барышню, проработавшую эту книгу. Оценка: неплохо
Gilean про За чужой мечтой
06 04 Читать интересно, но вот мало логики. Ну и как всегда сериал не закончен. Что не понравилось - переходы между книг, читаешь следующую и как будто не врубаешься что происходит? Через главу или две понимаешь о чем речь ………
Олег Макаров. про Панов: Кто-то просит прощения [litres] (Триллер, Детективы: прочее, Мистика)
06 04 Какая-то муть. Не дочитал. После предыдущей даже обидно Оценка: нечитаемо
lukyanelena про Вудворт: Парный танец (Любовная фантастика)
06 04 Какая-то ода абьюзу. И безобразно написаны эротические сцены. Убожество. Полно пафоса и штампов. Такое впечатление, что отдали на аутсорс какой-то малолетке. Оценка: плохо
Г.Гуслия про Скотина
05 04 Очень хорошо, можно даже сказать отлично. Вроде бы как обычный попаданец, но много свежих нюансов. Язык хороший, читается легко. Жалко, что пока только две книги. Надеюсь, продолжение будет не хуже и достаточно скоро.
magmel про Грайдер: Стажер Ли Су Джин (Попаданцы, Самиздат, сетевая литература)
05 04 Понравилось, перекликается с произведениями Кощиенко
dolle про Шаргородский: Слишком смышленый дурачок (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
05 04 Как бы попаданец в почти боярку.Оригинально, свежо и необычно. Понравилось.Отлично. Оценка: отлично! |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.