Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Amelichka RE:Подайте бедному копеечку на книжку с литреса... 10 часов
kopak RE:О группе Дятлова. О той самой, того самого... 3 дня alexk RE:Багрепорт - 2 1 день babajga RE:Удивленная сова 1 неделя Larisa_F RE:Серия «Квадрат» издательства «Текст» 2 недели Aleks_Sim RE:Беженцы с Флибусты 2 недели edvud RE:Прошу переформатировать, распознать, etc... 2 недели monochka RE:С 8 Марта! 2 недели babajga RE:Книга чуДОМищ 2 недели ProstoTac RE:Подборка о Первой Мировой 3 недели babajga RE:Нержавеющая сабля 3 недели sem14 RE:«Уроки русского» 3 недели Isais RE:Древний Рим. Подборка книг 3 недели babajga RE:Отчаянная осень 3 недели babajga RE:Сказки Сени Малины 3 недели babajga RE:Сказки 3 недели babajga RE:Мои четвероногие друзья 3 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 3 недели Впечатления о книгах
bbs про Красников: Валгалла I. Дорога славы (Юмористическая фантастика, Фэнтези, ЛитРПГ, Самиздат, сетевая литература)
25 03 Прочел % 60, больше не смог, лучше перечитаю Моханенко ВМ. Оценка: неплохо
DGOBLEK про Кивиряхк: Ноябрь, или Гуменщик [Книга не полностью] [Rehepapp, ehk, November ru] (Современная проза)
24 03 Книга не полностью. Отсутствует - Борис Тух. Послесловие, стр. 177-180
Олег Макаров. про Дорогой Солнца
24 03 Дорогой солнца 1-3 3-я мировая война и после неё 1 книга Вау 2 норм 3 уже скучновато
Олег Макаров. про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
24 03 Интересный сюжет, приятный стиль. Необычный скилл ГГ, весьма оригинальный авторский мир. Всё очень достойно. Отличная книга Оценка: отлично!
Дей про Орден Архитекторов
24 03 Ладно, я осилила 9 книг. Продолжение ждать не буду. Стоит держать в уме, что произведение для детей среднего школьного возраста. МС махровейшее. Злодеи картоннейшие. Короче, ужас-ужас, но голову разгрузить можно.
mysevra про Лазарчук: Гиперборейская чума (Фэнтези, Городское фэнтези, Ироническая фантастика)
24 03 Живо так, местами я даже смеялась вслух, что случается чрезвычайно редко. Интересный сюжет и ощущение вольницы тех годов – лично меня это подкупило, я не обращала внимание на мелкие огрехи, в т.ч. невыразительный финал. Оценка: отлично!
Sello про Битов: Аптекарский остров [сборник] (Современная проза)
24 03 Не затронуло, не впечатлило и - не оставит след. Ожидал большего. Оценка: неплохо
mysevra про Ветер: Волки и волчицы (Историческая проза, Эзотерика, Фантастика: прочее)
22 03 Наверное, ожидала чего-то большего. Оценка: неплохо
mysevra про Брэдфорд: Интуиция — ваш тихий гром. Расширение чувственного и многомерного сознания (Эзотерика)
22 03 Вода-вода, кругом вода"... Почти вся книга ни о чём, просто ради объёма. Оценка: неплохо
Stager про Серебряков: Из Америки с любовью [litres] (Боевая фантастика, Детективная фантастика)
21 03 Но Уланов не мог путать обойму с магазином и нажимать на курок. И я так и не понял, это стёб такой, или на полном серьёзе. Поэтому не могу с уверенностью сказать, является ли это произведение вбоквелом к произведениям ……… Оценка: неплохо
francuzik про Павлов: Древесный маг Орловского княжества (Фэнтези, Попаданцы, Самиздат, сетевая литература)
21 03 Для школьника нормально, а в целом картон. Оценка: неплохо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.