Вы здесьКак правильно отсканировать?
Опубликовано сб, 14/03/2009 - 12:36 пользователем thirteen
Есть сканер, есть Файнридер, есть книга, которую хочу выложить, точно знаю, что в сети её нет. Посоветуйте правильные настройки при сканировании (разрешение, цвет...) и в каком формате лучше сохранять? Я пытался в ПДФ, но он даже при скромных размерах книги получается почти 60 мег. Что я делаю не так?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 22 часа
laurentina1 RE:Ирина Александровна Велембовская - Немцы 2 дня Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 5 дней Саша из Киева RE:Избранное 1 неделя Alligatoreader RE:Багрепорт - 2 1 неделя fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 1 неделя kopak RE:Таинственная личность админа Флибусты 2 недели blahblahblah2024 RE:Беженцы с Флибусты 2 недели sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 2 недели sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 3 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 4 недели Oleg V.Cat RE:B343695 Александр. Книга 1 1 месяц Isais RE:Калибрятина/Самиздатина 1 месяц md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц ejik.v RE:Viva Stiver! 1 месяц Впечатления о книгах
monochka про Михайлин: Бобер, выдыхай! [заметки о советском анекдоте и об источниках анекдотической традиции] (Анекдоты, Литературоведение)
01 12 какая неприличная книжка однако
S@iRus про Иноходец (Рымжанов)
01 12 У меня сложилось такое же впечатление, как и у Олега, о данной серии.
андрей169 про Шалашов: Господин следователь 1 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
29 11 Забавная книга. Мне лично зашло хорошо. С продолжением обязательно ознакомлюсь. Оценка: хорошо
udrees про Баковец: Не тот господин 3 (Порно, ЛитРПГ, Самиздат, сетевая литература)
29 11 Книга строго для отдыха мозгов, тем кому нравится читать про влажные подростковые фантазии про гарем, воплощенные в реальность, и сексуальные подвиги, перемешанные с фэнтези. Герой настолько крут, что особо не заморачивается ……… Оценка: неплохо
udrees про Михайлов: Без пощады. Книга 3 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
29 11 Последняя книга из серии, но не последняя книга про месть киборга Вертинского. Написано в том же стиле, что и предыдущие книги. Описание во многом уделено экшену, поэтому всегда держит в тонусе, сражения, драки, убийства и ……… Оценка: отлично!
lukmak про Сочинения Иосифа Бродского в 7 томах
29 11 Бродский - гений. А кто его не понимает - что ж... Он непрост. Но, ребята, если вы его не понимаете - может, это ваша проблема?.. И пиндосы тут ни при чём.
nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее)
27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо
neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться.
Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 11 Так себе чтиво, но не скучно. Оценка: неплохо
Chernovol про Коровин: После «Украины» (Политика, Публицистика)
25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо
sem14 про Лазарис: Белая ворона (Историческая проза)
25 11 Леонид Гомберг 24 июля 2007 Роман известного в Израиле прозаика, поэта и переводчика Владимира Лазариса «Белая ворона» (Тель-Авив: Ладо, 2003) в этом году был включен в «лонг-лист» популярной премии «Букер». И это ……… Оценка: отлично!
decim про Осне Сейерстад
25 11 Попробовала бы Сурайя-реис не подать в суд! Муж бы убил. "Для контекста добавлю, что после публикации книги семья героя подала на Сейерстад в суд за клевету, но после апелляции писательница была признана невиновной, а через ……… |
Комментарии
Отв: Как правильно отсканировать?
Разрешение при обычном шрифте - 300, при мелком или если есть мелкий, приходится ставить 600, но это, обычно, медленней выходит. Цвет - если печать четкая, контрастная, лучше выбрать черно-белый, если бумага не особенно белая и печать не фонтан, то приходится ставить серый. Яркость придется подбирать опять же, если качество плохое.
Сохранять конечно в Word с опцией "форматированный текст" (точную копию, редактируемую копию не делать - задолбаешься чистить идиотское форматирование). В опциях убрать всякие сохранять деление на строки, страницы и проч.
Да, картинки, похоже, лучше сканировать отдельно и отдельно обрабатывать, а потом воткнуть сразу в fb2.
Отв: Как правильно отсканировать?
разрешение 300 dpi и в градациях серого (gray scale),
ну а FR умеет и в формат MS Word сохранять, из которого можно и txt и html сделать
Отв: Как правильно отсканировать?
Совершеноо правильно. Это наилучшие параметры для распознавания FR при нормальном шрифте и качестве оригинала.
При большем разрешении (600) начинает вылезать много "лишних" букв, полученных из точек, запятых и просто пятнышек на бумаге. Если с качеством что-то не так, или нужно не распознавание, а сохранение в графике (djvu, pdf) - необходимы эксперименты для достижения наилучшего результата. Если предполагается после сканирования распознать, а вы сами не уверены в своем умении получить валидный fb2, то, возможно, лучше выложить в Сеть сразу графику после сканирования в FR, или, по крайней мере, doc. Кто-нибудь доделает; djvu, pdf для перевода в fb2 потребует нового распознавания. Только не говорите, плз, по txt и html ! Финал любой электронной книги на сегодня - fb2 ! Без этого книга будет невалидна в коллекции, поддерживаемой автоматически, в том числе и на Либрусеке, и тогда - грош ей цена. Иные форматы - только djvu и pdf, в случае, если необходимо (множество формул или картинок). Предпочтительно djvu, т.к. не все в состоянии качать pdf в десятки Мб.
Отв: Как правильно отсканировать?
а чем фб2 печатать? при том что оно будет печататься не в оригинальном размере и отнюдь не на бумажке формата а4. а перед этим хорошо переделано??
Отв: Как правильно отсканировать?
Элементарно, Ватсон! ;) Почти каждая приличная читалка (к примеру, AllReader) достаточно корректно переводит fb2 в txt и html - печатайте на здоровье, и в любом формате! Для изменения форматов при печати есть специальные программы, иногда весьма заумные (если Word не устраивает). А вот наоборот, сделать хороший fb2 из txt - это если и не "высокое искусство", то уж не для чайников, точно ;). Опять же, если на Либрусеке файл в fb2, то вы по желанию можете скачать его в txt или html. Но не наоборот!
А теперь встречный вопрос. У меня в библиотеке примерно 50000 книг. Чем их каталогизировать, если они будут не в fb2? :( Таким образом, ваши любимые форматы - только для тех, кто печатает (таких не так уж много, дороговастенько, извините, и зачем мне печатная книге, если есть e-book или КПК), а fb2 - для всех :). А уж если точно нужен размер оригинала, разметки по страницам и т.п. - так это djvu или pdf. Только к чему это? Читателю в основном интересен текст, а не размер и цвет обложки ;).
Опережая возражения - fb2 не идеал, и не для всех книг подходит, и уж подавно не всегда корректно сделан, увы :(. Но это на сегодня - меньшее из всех зол. С прискорбием вижу, что на Либрусеке появляется все больше txt и html файлов, которые никто и не думает переводить в fb2, и они лежат мертвым грузом. Понятно, что библиотекари не справляются с большими потоками загрузок (я не силен в этом деле, да и времени нет помогать, тем более, что наезды со стороны специалистов, например, на peshehodrost, что, мол, ваш fb2 хуже атомной войны, отбивают и охоту пробовать ;).
Отв: Как правильно отсканировать?
Это Вы не про недавнее ли выступление Анархиста? ;)
Отв: Как правильно отсканировать?
Нет, это было раньше, месяц или два назад, когда кто-то забанил peshehodrost за заливку нескольких невалидных fb2 файлов, потом извинился, и пошел флейм на неделю :(.
Отв: Как правильно отсканировать?
Мертвым грузом??? Я предпочитаю читать в HTML, PDF, DOC или даже DJVU, чем не читать вообще. Качаю обычно HTML а не FB2.
Отв: Как правильно отсканировать?
Вам следовало чуть внимательнее прочитать мой пост ;). При наличии в библиотеке fb2 он может быть скачан в html, а наоборот - нет! Вы можете предпочитать что угодно, но не запрещайте того же и другим, плз! Многие предпочитают как раз fb2 благодаря наличию автоматической обработки таких файлов.
И, пожалуйста, не начинайте очень старый спор: я сам всегда отстаивал позицию, что лучше любой файл, чем никакой, вы говорите то же самое. Но в дальнейшем все файлы должны быть конвертированы в валидные fb2.
Кстати, библиотекари! Как раз сейчас/сегодня кто-то масcово льет невалидные fb2 на Либрусек. Озадачьтесь, плз, и обработайте!
Отв: Как правильно отсканировать?
Для начала определитесь, хотите Вы текст распознавать или нет? (при условии конечно, что это вообще возможно) Если да, то никакого PDF, правильные инструкции дали выше. Если без разпознавания, то сканировать в черно-белый 600dpi и собирать в djvu. Цветные картинки, если есть, вставлять отдельно.
Отв: Как правильно отсканировать?
Вообще, смотря что сканировать. Часто хватает и 200 дпи...
И ещё... не всё так радужно. Отсканировать - это пара пустяков... Распознать тоже. А вот собрать всё вместе, намного сложнее. Может я и сам чего-то не понимаю... Но в файнридере я не нашёл функции удаления номера страниц. Корректного распознавания знаков переноса...
И вообще... Проблемы с переходом со страницы на страницу...
Не знаю кто как. я же состряпал кучу макросов, чтобы полуавтоматизировать процесс обработкт после сканирования...
Отв: Как правильно отсканировать?
Если книжка напечатана качественно, можно выставить область сканирования мимо номеров страниц и мимо колонтитулов сверху. Останется только ликвидировать мягкие переносы в Word'е. Но часто область текста сильно "плавает" и все номера страниц отсечь не удается.
Отв: Как правильно отсканировать?
Эта функция появилась в 9ой версии, чем существенно облегчила жизнь)
Вот только я не совсем понимаю - а зачем сканинь? Это ж прошлый век... Книжка гнется, сканер тарахтит. По-моему, проще прикупить простенький цифровик, пульт к нему, а штативчик для книг можно сготовить самому...
Требования: автофокус, макросъёмка, подешевле.
На мой взляд, самый идеальный для этого аппарат:
Отв: Как правильно отсканировать?
как обладатель фотика говорю что сканить удобнее.
так как при нормальном сканировании нет завалов страниц. а штатив - он нормальный стоит дороже чем сканер. который еще к тому же может сканить немаленькие запасы старой пленки.
Отв: Как правильно отсканировать?
Сканер который стоит дешевле нормального штатива не сможет нормально отсканировать негативы, т.к. несмотря на наличие слайд модуля для этого в общем-то не предназначен.
Отв: Как правильно отсканировать?
У фотоаппарата тоже немало проблем, но он по крайней мере значительно ускоряет процесс сканирования.
Отв: Как правильно отсканировать?
Простенький фотик ускоряет процесс получения снимков страниц (покетбук 400 страниц - за полчаса), но последующие проблемы с получением качественного результата распознавания сводят на нет всю эту скорость.
Особенно при съемке текста на фиговой бумаге, текста с большим кол-вом курсива или некачественной печати книги.
Если гнать текст в тхт, то на многие вышеуказанные проблемы можно смело забить, но однозначного рецепта тут нет.
Крупный текст без кусивов и болдов, без сносок и индексов на приличной бумаге дешевыми фотиками берутся на ура.
На остальных процент ошибок распознавания доходит иногда до 10-15 штук на страницу (против 0-1 на сканере).
Так что быстрота съемки оборачивается заметно более долгой правкой в ФР, если делать качественно, а не гнать в фб2 текст как есть.
Отв: Как правильно отсканировать?
корректные номера страниц влегкую удаляются подходящим макросом или за минуту заменой.
Переносы - надо еще в ФР пройтись поиском связки дефис+разрыв строки, их обычно не так уж много, и про переносы можно забыть.
Макросы, ес-но, рулят.
Отв: Как правильно отсканировать?
http://www.djvu-soft.narod.ru/ - вот хороший ресурс.
Отв: Как правильно отсканировать?
Отсканировать - и распознать пол-беды...
Вот я думаю. Не написать ли маленький ликбез по поводу постобработки и вычитывания.
Во многих книгах встречаются именно недочёты связанные со стыковкой текста.
Вот бы я и мог поделится опытом....
1. Приёмы сканирования, на что обратить внимание
2. Как лучше всего распознать
3. Как провести предварительную проверку.
4. Что делать в Word, после экспорта в него текста
5. На что обратить внимание. Как полуавтоматизировать стыковку.
6. Какие функции нужны и как написать макросы для их выполнения.
Ну и ещё множество мелочей...
Хотя многие сами с усами... Но ошибки остаются...
Отв: Как правильно отсканировать?
Почему бы и нет. Даже у тех многих, которые с усами, какие-то моменты могут быть упущены. А те, кто без усов - получат меньше синяков и шишек. :)
Маленький ликбез - это хорошо.
Отв: Как правильно отсканировать?
1.. ну тут во что гаразд - многое зависит от исходного материала и сканера. елси реально - сразу снести не сканируя всякие номера страниц и верхние повторяющиеся строки - просто заданием области сканирования.
2.1. желательно распозанвать с 1 языком ну или двумя по типу "русский, цифры". распознание "русский, цифры, английский" пройдет уже хуже. и с каждым новым языком все хуже и хуже.
2.2. обучение (создание пользовательского шаблона) имеет смысл только если количество страниц распознавания перевалили за 15-20. иначе чаще всего проще поправить руками...
2.3. после проведения анализа блоков просмотреть полученное и переделать - чем меньше реально блоков на странице тем лучше. то етсь файнридер при приличном расстоянии между абзацами выделит их как два блока. лучше сделать один. мусор потомо можно убрать а вот если файнридер начнет при выводе швыряться фреймами - будет не весело. исправление перекоса - включать только по необходимости - то есть если сканировались книжные развороты. то же с раделением страниц.
ну а остальное вроде как уже написал в предыдущем посте...
p/s еще сильно рулят сканеры с автоподачей - сиильно выручают ( на работе такой) иногда для получения толковой копии проще распотрошить имеющуюся книгу и потом заново ее сшить. или вообще распечатать по новой. при правильной обработке качество получите куда как приличней. или, как минимум, нехуже...
Отв: Как правильно отсканировать?
Ликбезы из закладок (отсортировано по возрастанию детальности):
http://oldsf.ufacom.ru/OCR.html
http://militera.lib.ru/ocr/index.html
http://vgershov.lib.ru/OCR/_Ocr.html
http://yanko.lib.ru/scan.html
Отв: Как правильно отсканировать?
к стати, господа, а почему все умалчивают о том чтот бороться с переносами проще всего как раз оставив форматирование неизменным - то есть пусть себе лепит файн ридер разрывы строк и ентеры везде где подозревает. потом в ворде набрасывается простенькая приблуда, которая бахнет сочетания типа тире + разрыв страницы и тире разрыв строки... и всего делов то...
вот я например с форматированием левых текстов борюсь так:
в основном абзацные отсупы приемлимо отформатированы в большинстве файлов. например пробелами или табуляторами. в примитиве абзацный отступ заменяется на символ которого с гарантией нет в тексте, если форматирование пробелами и больше например 4 то замену проводить взяв за отступ на 1 меньше чем приято в файле - на всякий с лучай (чаще всего проходит тот же табулятор - предварительно проверив а есть ли он) после данного мероприятия сносятся лишние переносы и прочие радости как я уже писал выше, убираются разрывы строк или заменяются на ентер если это надо. потом проводится забавный фортель - все ентеры и разрывы строк заменяются на пробел. после чего табулятор меняется на ентер. все. осталась доводка - снести парные строки, парные пробелы, убрать лишние пробелы вокруг знаков припинания. пробелы в абзацном отсупе и все...
Если же форматирование абзаца явно не задано - часто вполне прилично получается использовать ентер/разрыв строки+отступ либо отступ и первая большая буква в слове...
Отв: Как правильно отсканировать?
ну не надо, так не надо. Что ж поделаешь.... Просто много ручной работы. И я хотел написать как лично я справляюсь со страницами и переносами и так далее... И потом, не многие умеют писать макросы для Word. А они здрово помогают.
Отв: Как правильно отсканировать?
Кто сказал "не надо"? Надо, конечно. И про макросы тоже. ;)
Отв: Как правильно отсканировать?
Переносы и разрывы строк совершенно не критичны, если из ворда в фб2 переводить через БД-ФБД.
Или ocr pad использовать.
Но лучше сразу отключать это в ФР, конечно.
Ну и поиском в ФР по дефис-разрыв строки пробегаться.
Занимает пару минут, зато потом все чисто.
Отв: Как правильно отсканировать?
Кстати , тут такой вопрос "по теме" возник: Я решил сделать техническую книгу , и сразу возникла куча проблем FBE которых не было с художественной:
1. Встроенные картинки , под ними в оригинальной книге часто есть надписи типа "Fig1: Функция Иванова" , как такие надписи правильно добавлять ? Я добавляю как image title , только похоже его никто не показывает ...
2. Как правильно делать сноски ? Я вроде "изобрел" (велосипед ;)) такую систему - делаю снизу раздел "notes" в нем даю строчкам ID что то в стиле id5 , причем каждую сноску начинаю с типа "5 - это означает ..." , в самом тексте использую footnote на #id5 а 5-ку в самой ноте делаю hyperlink на ту строчку в тексте откуда прыгал (обозвав её предварительно что то типа #id5back) это чтобы назад вернутся можно было. Это правильно или есть более простой / лучший способ ?
3. Таблицы, тут проблема по моему именно с Сонькой ибо конвертеры в неё таблиц не переводят. Есть идеи ?
4. Иногда в тексте есть таки "вставки" типа автор на сером фоне пишет "Вот был со мной такой случай" или "Обратите внимание" и кусок текста посреди основного, часто они имеют заголовок, вначале думал вставлять их таблицей 1х1 однако из за (3) выше теперь сомневаюсь. Есть ли другие "правильные" способы ?
5. "Главы" и разделы . Книжка имеет формат что то в стиле PART I , PART II и так далее , внутри каждой части свои главы , я сделал на каждую PART по body с именем, внутри на главы дал по section с тайтлом, вроде выглядит нормально ... в FBE однако AlReader например почему то показывает только первые 2 body (впрочем он и картинки встроенные не показывает). Есть идеи ?
Отв: Как правильно отсканировать?
Я частенько хватаю картинку вместе с надписью к ней каким-либо screenshot-м, а затем в фоторедакторе надпись выделяю, максимально увеличиваю, и тогда она остается элементом картинки. Таким же образом можно увеличивать отдельные плохо различимые элементы изображения, если нужно, в схемах, например.
Еще можно (помимо того, что рассказала Голма) позагонять все сноски в квадратные скобки (или фигурные) возле слов, которые они поясняют. Затем воспользоваться скриптом "примечания из {} или []. Бояться экспериментировать не нужно - Вы же можете наделать кучу копий своего файла и поиздеваться над каждым. А посмотрев на результат издевательств уже решить, как Вам поступать в дальнейшем.
Таблицы в fb2 - беда. Только картинками. Можно попробовать увеличить шрифт в исходнике и взять с экрана. Отдельные эл. можно увеличить, но да - fb2 для них не слишком удобен.
Можно цитатой, как пишет Голма, обратите внимание - субтитлом. Можно вместо цитаты выделить этот текст болдом. Можно поэкспериментировать и сделать в виде картинки.
Лишних body лучше не разводить, а пользоваться все же вложением секций. Тогда проще в читалках будет переходить по содержанию к нужному пункту. В FBE (версии 2.0) есть инструмент, расположенный под структурой документа. C помощью этих стрелочек легко корректируется вложенность секций.
Отв: Как правильно отсканировать?
Спасибо, единственное что по пред последнему пункту - болдом лучше ничего не делать - большинство конвертеров включают болд на все автоматом "чтобы лучше выглядело".
Да, кстати , когда делаю ссылку [1] или что то типа такого то "1" становится суперскриптом - это нормально ?
Отв: Как правильно отсканировать?
Техническая литература нетривиальной сложности делается в djvu. О переводе в fb2 можно сразу забыть, так как во-первых: fb2 не поддерживает необходимое оформление и во-вторых: результат никому нафиг не будет нужен.
Отв: Как правильно отсканировать?
А чем djvu лучше чем текстовый PDF ?
Кстати о последнем , думал вообще то в нем делать но столкнулся с такими проблемами 9-го файнридера :
- он мне с пару тысяч стилей понаделал как это все приивести к 3-м фонтам с 2-3-мя размерами в каждом кроме как "ручками" не понятно, причем там один и та же комбинация фонта/размера/межбуквенного растояния/"выделения" все равно может выглядеть в зависимости от стиля не одинаково, иногда такие огромные буквы получаю ...
- при переносе в PDF или DOC(X) (кстати все 3 дают разные результаты что весьма раздражает, особенно разница между DOC и DOCX) некоторые строчки "вылазят" за страницу. Как это чинить не понятно, если в Файнридере включить показ невидимых символов то можно видеть что там для перехода на другую строчку используется значок выглядящий стрелкой вроде enter-а а иногда (чаще в конце абзацев) значек выглядящий как прописная буква "П". В тех местах где ни одного из вышеперечисленных значков нет получается длинная строка. Впрочем даже если добавлять значек enter руками то возникают проблемы с расположением начала следующей строки, похоже там свои невидимые символы и правила. Короче фигня получается... :(
У кого есть идеи по борьбе с вышеперечисленными проблемами ?
Отв: Как правильно отсканировать?
>>А чем djvu лучше чем текстовый PDF ?
Идеального текстового естественно ничем не лучше. Но беда как раз в том, что техническую литературу как правило невозможно перевести в приличную текстовую форму. Приходится вставлять большие куски картинками. Поэтому правильный вопрос звучит так: А чем djvu лучше чем "картиночный" PDF? Например размером - в 5-10 раз меньше.
Достоинства djvu кроме того: нет потерь информации (отображение документа один к одному), сохраняется целиком авторское оформление, не требуется вычитка. Тем самым дается гарантия отсутствия ошибок сканировщика, которые в технической литературе смерти подобны. Именно по этой причине научная/техническая литература должна сканироваться только в графические форматы, никакой fb2 и иже с ним недопустимы.
Отв: Как правильно отсканировать?
Спасибо , а чем его djvu вообще делаю и где "это" взять ?
Отв: Как правильно отсканировать?
Lizardtech Document Express Editor
Взять можно у jurgennt:
http://reeed.ru/prog_djvu_ee.php
или у Ulenspiegel:
http://www.onlinedisk.ru/file/40608/
http://www.onlinedisk.ru/file/40612/
http://www.onlinedisk.ru/file/40613/
Ну и до кучи:
Ни корысти ради...Конвертация PDF to DJVU-1
Прошу помочь с формирование .djvu
Отв: Как правильно отсканировать?
Спасибо, попробовал djvu качество при nearlossless получилось ужасное, текст пошел пилой-квадратиками, правда размер действительно более чем в 7 раз меньше.
Да кстати вторая группа линков чо вы дали ( от Ulenspiegel) - померли :(
Отв: Как правильно отсканировать?
>>Спасибо, попробовал djvu качество при nearlossless получилось ужасное, текст пошел пилой-квадратиками
Значит что-то не так.. Вы, надеюсь, в tiff сканировали? Выложите куда-нибудь одну страничку, попробую сам сконвертировать.
Отв: Как правильно отсканировать?
TIF , 300 dpi , результаты все тут в либрусеке:
http://lib.rus.ec/b/137391
http://lib.rus.ec/b/142440
огромный PDF и DJVU , источники понятно еще больше. Качество скана хреновенькое , но книга редкая , дорогая и "уезжала" вечером так что сканил в спешке. PDF понятно уже и сам немного "пожатый" по сравнению с оригиналом из которого делал DJVU но все равно на порядок лучше.
Кстати, как бы их вместе обеденить , чтобы книга была одна и два формата для даунлоада.
Отв: Как правильно отсканировать?
Ух. Там размер не в семь, а в 45 раз меньше! 275 MB pdf против 6 MB djvu. С либрусековской скоростью 10 KB/s я этот pdf до посинения качать буду. А нельзя просто пару страниц исходного скана выложить? Чтобы перегнать в djvu и сравнить с Вашим результатом.
Отв: Как правильно отсканировать?
Вот глянь : http://rapidshare.com/files/210615338/0210.tif
это не совсем оригинал , это после того как ФайнРидером deskew сделал и страницы порезал пополам , но оригинала сейчас тут у меня нет - дома.
Теперь глянь на страницу 9 в DJVU - как видишь серьёзно попорчено, особенно раздражает что текст пошел какой то гребенкой.
Отв: Как правильно отсканировать?
И не удивительно, что попорчено :)) Это, простите, не скан, а некое у..хм..божество. По пунктам:
1) Невалидный формат, его не открывает ни Photoshop CS2, ни Кромсатор.
2) Отсканирован в цвета серого. Перевод из серого в ч/б без "лесенки" невозможен.
3) Ну и само качество. Как надо было извернуться, чтобы текст пошел волнами и пятнами?
Из такого действительно сложно сделать что-то приличное. Странно, что получилось еще вполне читаемо и сравнительно небольшого размера. Вот пример djvu, каким он должен быть (не считая OCR слоя): http://lib.rus.ec/b/119872
P.S. Кстати pdf можно тогда из библиотеки наверное удалить?
Отв: Как правильно отсканировать?
1.Что значит "не валидный" ? Что Fainreader 9 сделал такой и формат, кстати по моему обычный TIF, у меня его обычный Microsoft Picture and Fax viewer открывает и Paint.Net.
2. Сканировать для OCR вроде всегда рекомендовали в greyscale а не B/W , изначально идея была сделать про-OCR-еный PDF , типа в графике только картинки, может еще и сделаю, просто задолбался из за неудобства ФайнРидера (см. выше первый пост).
3. Ну тут уж как получилось :) очень спешил , там 400 страниц и отсканировать надо было на медленном сканере за часов 5. Щас кстати себе на день рождения :) заказал Plustek - посмотрим что выйдет но этой книге это уже не поможет :(.
Насчет удалить PDF ..., не знаю, можно наверно , залил в принципе в надежде что может кто то сделает на его основе что получше.
Да, кстати в том примере что ты привел как "хороший" тоже текст весьма размытый.
Отв: Как правильно отсканировать?
>>1.Что значит "не валидный" ? Что Fainreader 9 сделал такой и формат, кстати по моему обычный TIF, у меня его обычный Microsoft Picture and Fax viewer открывает и Paint.Net.
TIF - сам по себе всего лишь контейнер и может содержать внутри много разных форматов. Стандартный Viewer у меня тоже открывает, зато все остальное нет. Поэтому что-то там сильно не так.
>>2. Сканировать для OCR вроде всегда рекомендовали в greyscale а не B/W , изначально идея была сделать про-OCR-еный PDF
Да, для OCR иногда имеет смысл. Но djvu делается всегда в ч/б, за исключением каких-то специальных картинок, фотографий ит.д. Ну и если в ч/б просто не получается по причине ветхости книги или дурости сканера..
>> Щас кстати себе на день рождения :) заказал Plustek
Удачи с ним :) Будем посмотреть на результаты.
>>Да, кстати в том примере что ты привел как "хороший" тоже текст весьма размытый.
Значит просмотрщик неправильно настроен. Возьми WinDjView и поиграй с увеличением, у меня например на 125% абсолютно четкий вид. Можешь поставить максимальное увеличение и посмотреть на края букв - они все ровные. Качество того файла близко к лучшему из возможных.
Отв: Как правильно отсканировать?
Эээ.... Tagged Image File Format ? Пан ничего не путает ?
Отв: Как правильно отсканировать?
>>Пан ничего не путает ?
Что именно? :) Что у меня он не открывается? Нет, не путаю. У кого время есть, проверьте кстати - вдруг у меня одного Photoshop и Kromsator такие странные. Или что TIF - контейнер? Тоже не путаю, по формату можно внутрь хоть JPG запихнуть, если очень хочется.
Отв: Как правильно отсканировать?
Ну вообще то JPEG внутри TIF называется EXIF JPEG :) а TIF действительно бывают разные - uncompressed , LZH compressed (это самые распространенные) и так далее вплоть до TIF с JPEG2K lossless , приведенный выше файл открывается даже видовским Paint , правда глянув на него внутрь пришел к выводу что это похоже вообще BMP которому FineReader зачем то дал extension TIF.
Отв: Как правильно отсканировать?
Именно WinDejavu и смотрел , на FitPage на 22" мониторе с 1600х1280 , впрочем на 135% действительно смотрится получше, размазанность почти не заметна если не искать.
Отв: Как правильно отсканировать?
1. image title, насколько я понимаю, это тот текст, который показывается при наведении курсора на картинку. Не знаю читалку, которая это поддерживает.
Я пишу название под картинкой и выделяю в зависимости от особенностей книги то ли emphasis'ом, то ли subtitle'ом.
2. Вообще не поняла. Есть скрипт - добавить примечание (или вставить примечание, если какое-то была пропущено). В нём есть разные варианты добавления. Удобно пользоваться "с вводом", но если в сноске несколько абзацев, он обрежет текст после первого. В этом случае (или если в тексте сноски много форматированного текста) удобнее пользоваться "с переходом".
3. Таблицы - в виде картинок.
4. Можно попробовать выделить тэгом cite и посмотреть, как выглядит. Или emphasis'ом, в крайнем случае.
5. Тоже не поняла. А чем плохи вложенные секции? Зачем нужно несколько body?
Отв: Как правильно отсканировать?
1. Спасибо , попробую хотя это не лучший вариант.
2. Хм... про скрипт не знал, их там если честно сильно много и пробовать вподряд страшно :) интересно кстати посмотреть как оно реализованно, есть подозрение что внутри будет то что я делал вручную .
3. Хреновенько , видно потом плохо особенно на маленьких девайсах , ну если других вариантов нет ..
4. Попробуем... спасибо.
5. Ну как бы так правильней структуру передовать а впрочем фиг меня знает зачем я так начал :)
Отв: Как правильно отсканировать?
2. Внутри будет так:
< body name="notes" >
< section id="n_1">
< title >
< p>1< /p>
< /title>
< p>
Текст сноски
< /p>
< /section>
и т.д, на каждую сноску по секции.
< /body>
В тексте делать ссылки на соотв. id: < a l:href="#n_1" type="note">[1]< /a>
Страницы