Как правильно отсканировать? | Либрусек

Вы здесь Главная » Блоги » Блог пользователя thirteen Как правильно отсканировать? Опубликовано сб, 14/03/2009 - 12:36 пользователем thirteen Есть сканер, есть Файнридер, есть книга, которую хочу выложить, точно знаю, что в сети её нет. Посоветуйте правильные настройки при сканировании (разрешение, цвет...) и в каком формате лучше сохранять? Я пытался в ПДФ, но он даже при скромных размерах книги получается почти 60 мег. Что я делаю не так? Блог пользователя thirteen Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 13:58 пользователем oldvagrant Разрешение при обычном шрифте - 300, при мелком или если есть мелкий, приходится ставить 600, но это, обычно, медленней выходит. Цвет - если печать четкая, контрастная, лучше выбрать черно-белый, если бумага не особенно белая и печать не фонтан, то приходится ставить серый. Яркость придется подбирать опять же, если качество плохое. Сохранять конечно в Word с опцией "форматированный текст" (точную копию, редактируемую копию не делать - задолбаешься чистить идиотское форматирование). В опциях убрать всякие сохранять деление на строки, страницы и проч. Да, картинки, похоже, лучше сканировать отдельно и отдельно обрабатывать, а потом воткнуть сразу в fb2. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 14:01 пользователем astr разрешение 300 dpi и в градациях серого (gray scale), ну а FR умеет и в формат MS Word сохранять, из которого можно и txt и html сделать Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 21:30 пользователем computers Совершеноо правильно. Это наилучшие параметры для распознавания FR при нормальном шрифте и качестве оригинала. При большем разрешении (600) начинает вылезать много "лишних" букв, полученных из точек, запятых и просто пятнышек на бумаге. Если с качеством что-то не так, или нужно не распознавание, а сохранение в графике (djvu, pdf) - необходимы эксперименты для достижения наилучшего результата. Если предполагается после сканирования распознать, а вы сами не уверены в своем умении получить валидный fb2, то, возможно, лучше выложить в Сеть сразу графику после сканирования в FR, или, по крайней мере, doc. Кто-нибудь доделает; djvu, pdf для перевода в fb2 потребует нового распознавания. Только не говорите, плз, по txt и html ! Финал любой электронной книги на сегодня - fb2 ! Без этого книга будет невалидна в коллекции, поддерживаемой автоматически, в том числе и на Либрусеке, и тогда - грош ей цена. Иные форматы - только djvu и pdf, в случае, если необходимо (множество формул или картинок). Предпочтительно djvu, т.к. не все в состоянии качать pdf в десятки Мб. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 02:29 пользователем mahury а чем фб2 печатать? при том что оно будет печататься не в оригинальном размере и отнюдь не на бумажке формата а4. а перед этим хорошо переделано?? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 05:02 пользователем computers Элементарно, Ватсон! ;) Почти каждая приличная читалка (к примеру, AllReader) достаточно корректно переводит fb2 в txt и html - печатайте на здоровье, и в любом формате! Для изменения форматов при печати есть специальные программы, иногда весьма заумные (если Word не устраивает). А вот наоборот, сделать хороший fb2 из txt - это если и не "высокое искусство", то уж не для чайников, точно ;). Опять же, если на Либрусеке файл в fb2, то вы по желанию можете скачать его в txt или html. Но не наоборот! А теперь встречный вопрос. У меня в библиотеке примерно 50000 книг. Чем их каталогизировать, если они будут не в fb2? :( Таким образом, ваши любимые форматы - только для тех, кто печатает (таких не так уж много, дороговастенько, извините, и зачем мне печатная книге, если есть e-book или КПК), а fb2 - для всех :). А уж если точно нужен размер оригинала, разметки по страницам и т.п. - так это djvu или pdf. Только к чему это? Читателю в основном интересен текст, а не размер и цвет обложки ;). Опережая возражения - fb2 не идеал, и не для всех книг подходит, и уж подавно не всегда корректно сделан, увы :(. Но это на сегодня - меньшее из всех зол. С прискорбием вижу, что на Либрусеке появляется все больше txt и html файлов, которые никто и не думает переводить в fb2, и они лежат мертвым грузом. Понятно, что библиотекари не справляются с большими потоками загрузок (я не силен в этом деле, да и времени нет помогать, тем более, что наезды со стороны специалистов, например, на peshehodrost, что, мол, ваш fb2 хуже атомной войны, отбивают и охоту пробовать ;). Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 05:46 пользователем ew computers написал: ... наезды со стороны специалистов,.... Это Вы не про недавнее ли выступление Анархиста? ;) Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 10:23 пользователем computers Нет, это было раньше, месяц или два назад, когда кто-то забанил peshehodrost за заливку нескольких невалидных fb2 файлов, потом извинился, и пошел флейм на неделю :(. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 06:47 пользователем Serg_BV Мертвым грузом??? Я предпочитаю читать в HTML, PDF, DOC или даже DJVU, чем не читать вообще. Качаю обычно HTML а не FB2. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 10:30 пользователем computers Вам следовало чуть внимательнее прочитать мой пост ;). При наличии в библиотеке fb2 он может быть скачан в html, а наоборот - нет! Вы можете предпочитать что угодно, но не запрещайте того же и другим, плз! Многие предпочитают как раз fb2 благодаря наличию автоматической обработки таких файлов. И, пожалуйста, не начинайте очень старый спор: я сам всегда отстаивал позицию, что лучше любой файл, чем никакой, вы говорите то же самое. Но в дальнейшем все файлы должны быть конвертированы в валидные fb2. Кстати, библиотекари! Как раз сейчас/сегодня кто-то масcово льет невалидные fb2 на Либрусек. Озадачьтесь, плз, и обработайте! Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 14:55 пользователем Stiver Для начала определитесь, хотите Вы текст распознавать или нет? (при условии конечно, что это вообще возможно) Если да, то никакого PDF, правильные инструкции дали выше. Если без разпознавания, то сканировать в черно-белый 600dpi и собирать в djvu. Цветные картинки, если есть, вставлять отдельно. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 16:52 пользователем leoparrd Вообще, смотря что сканировать. Часто хватает и 200 дпи... И ещё... не всё так радужно. Отсканировать - это пара пустяков... Распознать тоже. А вот собрать всё вместе, намного сложнее. Может я и сам чего-то не понимаю... Но в файнридере я не нашёл функции удаления номера страниц. Корректного распознавания знаков переноса... И вообще... Проблемы с переходом со страницы на страницу... Не знаю кто как. я же состряпал кучу макросов, чтобы полуавтоматизировать процесс обработкт после сканирования... Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 17:27 пользователем oldvagrant leoparrd написал: Но в файнридере я не нашёл функции удаления номера страниц. Корректного распознавания знаков переноса... Если книжка напечатана качественно, можно выставить область сканирования мимо номеров страниц и мимо колонтитулов сверху. Останется только ликвидировать мягкие переносы в Word'е. Но часто область текста сильно "плавает" и все номера страниц отсечь не удается. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 02:08 пользователем KOMODOR oldvagrant написал: Если книжка напечатана качественно, можно выставить область сканирования мимо номеров страниц и мимо колонтитулов сверху. Эта функция появилась в 9ой версии, чем существенно облегчила жизнь) Вот только я не совсем понимаю - а зачем сканинь? Это ж прошлый век... Книжка гнется, сканер тарахтит. По-моему, проще прикупить простенький цифровик, пульт к нему, а штативчик для книг можно сготовить самому... Требования: автофокус, макросъёмка, подешевле. На мой взляд, самый идеальный для этого аппарат: Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 02:33 пользователем mahury как обладатель фотика говорю что сканить удобнее. так как при нормальном сканировании нет завалов страниц. а штатив - он нормальный стоит дороже чем сканер. который еще к тому же может сканить немаленькие запасы старой пленки. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 13:37 пользователем AnGord Сканер который стоит дешевле нормального штатива не сможет нормально отсканировать негативы, т.к. несмотря на наличие слайд модуля для этого в общем-то не предназначен. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 13:42 пользователем AnGord У фотоаппарата тоже немало проблем, но он по крайней мере значительно ускоряет процесс сканирования. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 14:30 пользователем TaKir Простенький фотик ускоряет процесс получения снимков страниц (покетбук 400 страниц - за полчаса), но последующие проблемы с получением качественного результата распознавания сводят на нет всю эту скорость. Особенно при съемке текста на фиговой бумаге, текста с большим кол-вом курсива или некачественной печати книги. Если гнать текст в тхт, то на многие вышеуказанные проблемы можно смело забить, но однозначного рецепта тут нет. Крупный текст без кусивов и болдов, без сносок и индексов на приличной бумаге дешевыми фотиками берутся на ура. На остальных процент ошибок распознавания доходит иногда до 10-15 штук на страницу (против 0-1 на сканере). Так что быстрота съемки оборачивается заметно более долгой правкой в ФР, если делать качественно, а не гнать в фб2 текст как есть. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 12:40 пользователем amyat корректные номера страниц влегкую удаляются подходящим макросом или за минуту заменой. Переносы - надо еще в ФР пройтись поиском связки дефис+разрыв строки, их обычно не так уж много, и про переносы можно забыть. Макросы, ес-но, рулят. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 04:36 пользователем Funt http://www.djvu-soft.narod.ru/ - вот хороший ресурс. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 12:15 пользователем leoparrd Отсканировать - и распознать пол-беды... Вот я думаю. Не написать ли маленький ликбез по поводу постобработки и вычитывания. Во многих книгах встречаются именно недочёты связанные со стыковкой текста. Вот бы я и мог поделится опытом.... 1. Приёмы сканирования, на что обратить внимание 2. Как лучше всего распознать 3. Как провести предварительную проверку. 4. Что делать в Word, после экспорта в него текста 5. На что обратить внимание. Как полуавтоматизировать стыковку. 6. Какие функции нужны и как написать макросы для их выполнения. Ну и ещё множество мелочей... Хотя многие сами с усами... Но ошибки остаются... Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 14:26 пользователем Tanja45 leoparrd написал: Отсканировать - и распознать пол-беды... Вот я думаю. Не написать ли маленький ликбез по поводу постобработки и вычитывания. Во многих книгах встречаются именно недочёты связанные со стыковкой текста. Вот бы я и мог поделится опытом... ...Хотя многие сами с усами... Но ошибки остаются... Почему бы и нет. Даже у тех многих, которые с усами, какие-то моменты могут быть упущены. А те, кто без усов - получат меньше синяков и шишек. :) Маленький ликбез - это хорошо. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 03:54 пользователем blackvova 1.. ну тут во что гаразд - многое зависит от исходного материала и сканера. елси реально - сразу снести не сканируя всякие номера страниц и верхние повторяющиеся строки - просто заданием области сканирования. 2.1. желательно распозанвать с 1 языком ну или двумя по типу "русский, цифры". распознание "русский, цифры, английский" пройдет уже хуже. и с каждым новым языком все хуже и хуже. 2.2. обучение (создание пользовательского шаблона) имеет смысл только если количество страниц распознавания перевалили за 15-20. иначе чаще всего проще поправить руками... 2.3. после проведения анализа блоков просмотреть полученное и переделать - чем меньше реально блоков на странице тем лучше. то етсь файнридер при приличном расстоянии между абзацами выделит их как два блока. лучше сделать один. мусор потомо можно убрать а вот если файнридер начнет при выводе швыряться фреймами - будет не весело. исправление перекоса - включать только по необходимости - то есть если сканировались книжные развороты. то же с раделением страниц. ну а остальное вроде как уже написал в предыдущем посте... p/s еще сильно рулят сканеры с автоподачей - сиильно выручают ( на работе такой) иногда для получения толковой копии проще распотрошить имеющуюся книгу и потом заново ее сшить. или вообще распечатать по новой. при правильной обработке качество получите куда как приличней. или, как минимум, нехуже... Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 05:24 пользователем Jolly Roger Ликбезы из закладок (отсортировано по возрастанию детальности): http://oldsf.ufacom.ru/OCR.html http://militera.lib.ru/ocr/index.html http://vgershov.lib.ru/OCR/_Ocr.html http://yanko.lib.ru/scan.html Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 03:45 пользователем blackvova к стати, господа, а почему все умалчивают о том чтот бороться с переносами проще всего как раз оставив форматирование неизменным - то есть пусть себе лепит файн ридер разрывы строк и ентеры везде где подозревает. потом в ворде набрасывается простенькая приблуда, которая бахнет сочетания типа тире + разрыв страницы и тире разрыв строки... и всего делов то... вот я например с форматированием левых текстов борюсь так: в основном абзацные отсупы приемлимо отформатированы в большинстве файлов. например пробелами или табуляторами. в примитиве абзацный отступ заменяется на символ которого с гарантией нет в тексте, если форматирование пробелами и больше например 4 то замену проводить взяв за отступ на 1 меньше чем приято в файле - на всякий с лучай (чаще всего проходит тот же табулятор - предварительно проверив а есть ли он) после данного мероприятия сносятся лишние переносы и прочие радости как я уже писал выше, убираются разрывы строк или заменяются на ентер если это надо. потом проводится забавный фортель - все ентеры и разрывы строк заменяются на пробел. после чего табулятор меняется на ентер. все. осталась доводка - снести парные строки, парные пробелы, убрать лишние пробелы вокруг знаков припинания. пробелы в абзацном отсупе и все... Если же форматирование абзаца явно не задано - часто вполне прилично получается использовать ентер/разрыв строки+отступ либо отступ и первая большая буква в слове... Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 05:44 пользователем leoparrd ну не надо, так не надо. Что ж поделаешь.... Просто много ручной работы. И я хотел написать как лично я справляюсь со страницами и переносами и так далее... И потом, не многие умеют писать макросы для Word. А они здрово помогают. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 06:16 пользователем golma1 leoparrd написал: ну не надо, так не надо. Что ж поделаешь.... Просто много ручной работы. И я хотел написать как лично я справляюсь со страницами и переносами и так далее... И потом, не многие умеют писать макросы для Word. А они здрово помогают. Кто сказал "не надо"? Надо, конечно. И про макросы тоже. ;) Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 07:08 пользователем TaKir Переносы и разрывы строк совершенно не критичны, если из ворда в фб2 переводить через БД-ФБД. Или ocr pad использовать. Но лучше сразу отключать это в ФР, конечно. Ну и поиском в ФР по дефис-разрыв строки пробегаться. Занимает пару минут, зато потом все чисто. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 09:31 пользователем Lord KiRon Кстати , тут такой вопрос "по теме" возник: Я решил сделать техническую книгу , и сразу возникла куча проблем FBE которых не было с художественной: 1. Встроенные картинки , под ними в оригинальной книге часто есть надписи типа "Fig1: Функция Иванова" , как такие надписи правильно добавлять ? Я добавляю как image title , только похоже его никто не показывает ... 2. Как правильно делать сноски ? Я вроде "изобрел" (велосипед ;)) такую систему - делаю снизу раздел "notes" в нем даю строчкам ID что то в стиле id5 , причем каждую сноску начинаю с типа "5 - это означает ..." , в самом тексте использую footnote на #id5 а 5-ку в самой ноте делаю hyperlink на ту строчку в тексте откуда прыгал (обозвав её предварительно что то типа #id5back) это чтобы назад вернутся можно было. Это правильно или есть более простой / лучший способ ? 3. Таблицы, тут проблема по моему именно с Сонькой ибо конвертеры в неё таблиц не переводят. Есть идеи ? 4. Иногда в тексте есть таки "вставки" типа автор на сером фоне пишет "Вот был со мной такой случай" или "Обратите внимание" и кусок текста посреди основного, часто они имеют заголовок, вначале думал вставлять их таблицей 1х1 однако из за (3) выше теперь сомневаюсь. Есть ли другие "правильные" способы ? 5. "Главы" и разделы . Книжка имеет формат что то в стиле PART I , PART II и так далее , внутри каждой части свои главы , я сделал на каждую PART по body с именем, внутри на главы дал по section с тайтлом, вроде выглядит нормально ... в FBE однако AlReader например почему то показывает только первые 2 body (впрочем он и картинки встроенные не показывает). Есть идеи ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 13:53 пользователем Tanja45 Lord KiRon написал: Кстати , тут такой вопрос "по теме" возник: Я решил сделать техническую книгу , и сразу возникла куча проблем FBE которых не было с художественной: 1. Встроенные картинки , под ними в оригинальной книге часто есть надписи типа "Fig1: Функция Иванова" , как такие надписи правильно добавлять ? Я добавляю как image title , только похоже его никто не показывает ... Я частенько хватаю картинку вместе с надписью к ней каким-либо screenshot-м, а затем в фоторедакторе надпись выделяю, максимально увеличиваю, и тогда она остается элементом картинки. Таким же образом можно увеличивать отдельные плохо различимые элементы изображения, если нужно, в схемах, например. Lord KiRon написал: 2. Как правильно делать сноски ? Я вроде "изобрел" (велосипед ;)) такую систему - делаю снизу раздел "notes" в нем даю строчкам ID что то в стиле id5 , причем каждую сноску начинаю с типа "5 - это означает ..." , в самом тексте использую footnote на #id5 а 5-ку в самой ноте делаю hyperlink на ту строчку в тексте откуда прыгал (обозвав её предварительно что то типа #id5back) это чтобы назад вернутся можно было. Это правильно или есть более простой / лучший способ ? Еще можно (помимо того, что рассказала Голма) позагонять все сноски в квадратные скобки (или фигурные) возле слов, которые они поясняют. Затем воспользоваться скриптом "примечания из {} или []. Бояться экспериментировать не нужно - Вы же можете наделать кучу копий своего файла и поиздеваться над каждым. А посмотрев на результат издевательств уже решить, как Вам поступать в дальнейшем. Lord KiRon написал: 3. Таблицы, тут проблема по моему именно с Сонькой ибо конвертеры в неё таблиц не переводят. Есть идеи ? Таблицы в fb2 - беда. Только картинками. Можно попробовать увеличить шрифт в исходнике и взять с экрана. Отдельные эл. можно увеличить, но да - fb2 для них не слишком удобен. Lord KiRon написал: 4. Иногда в тексте есть таки "вставки" типа автор на сером фоне пишет "Вот был со мной такой случай" или "Обратите внимание" и кусок текста посреди основного, часто они имеют заголовок, вначале думал вставлять их таблицей 1х1 однако из за (3) выше теперь сомневаюсь. Есть ли другие "правильные" способы ? Можно цитатой, как пишет Голма, обратите внимание - субтитлом. Можно вместо цитаты выделить этот текст болдом. Можно поэкспериментировать и сделать в виде картинки. Lord KiRon написал: 5. "Главы" и разделы . Книжка имеет формат что то в стиле PART I , PART II и так далее , внутри каждой части свои главы , я сделал на каждую PART по body с именем, внутри на главы дал по section с тайтлом, вроде выглядит нормально ... в FBE однако AlReader например почему то показывает только первые 2 body (впрочем он и картинки встроенные не показывает). Есть идеи ? Лишних body лучше не разводить, а пользоваться все же вложением секций. Тогда проще в читалках будет переходить по содержанию к нужному пункту. В FBE (версии 2.0) есть инструмент, расположенный под структурой документа. C помощью этих стрелочек легко корректируется вложенность секций. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 02:24 пользователем Lord KiRon Спасибо, единственное что по пред последнему пункту - болдом лучше ничего не делать - большинство конвертеров включают болд на все автоматом "чтобы лучше выглядело". Да, кстати , когда делаю ссылку [1] или что то типа такого то "1" становится суперскриптом - это нормально ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 02:35 пользователем Stiver Техническая литература нетривиальной сложности делается в djvu. О переводе в fb2 можно сразу забыть, так как во-первых: fb2 не поддерживает необходимое оформление и во-вторых: результат никому нафиг не будет нужен. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 06:56 пользователем Lord KiRon А чем djvu лучше чем текстовый PDF ? Кстати о последнем , думал вообще то в нем делать но столкнулся с такими проблемами 9-го файнридера : - он мне с пару тысяч стилей понаделал как это все приивести к 3-м фонтам с 2-3-мя размерами в каждом кроме как "ручками" не понятно, причем там один и та же комбинация фонта/размера/межбуквенного растояния/"выделения" все равно может выглядеть в зависимости от стиля не одинаково, иногда такие огромные буквы получаю ... - при переносе в PDF или DOC(X) (кстати все 3 дают разные результаты что весьма раздражает, особенно разница между DOC и DOCX) некоторые строчки "вылазят" за страницу. Как это чинить не понятно, если в Файнридере включить показ невидимых символов то можно видеть что там для перехода на другую строчку используется значок выглядящий стрелкой вроде enter-а а иногда (чаще в конце абзацев) значек выглядящий как прописная буква "П". В тех местах где ни одного из вышеперечисленных значков нет получается длинная строка. Впрочем даже если добавлять значек enter руками то возникают проблемы с расположением начала следующей строки, похоже там свои невидимые символы и правила. Короче фигня получается... :( У кого есть идеи по борьбе с вышеперечисленными проблемами ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 08:03 пользователем Stiver >>А чем djvu лучше чем текстовый PDF ? Идеального текстового естественно ничем не лучше. Но беда как раз в том, что техническую литературу как правило невозможно перевести в приличную текстовую форму. Приходится вставлять большие куски картинками. Поэтому правильный вопрос звучит так: А чем djvu лучше чем "картиночный" PDF? Например размером - в 5-10 раз меньше. Достоинства djvu кроме того: нет потерь информации (отображение документа один к одному), сохраняется целиком авторское оформление, не требуется вычитка. Тем самым дается гарантия отсутствия ошибок сканировщика, которые в технической литературе смерти подобны. Именно по этой причине научная/техническая литература должна сканироваться только в графические форматы, никакой fb2 и иже с ним недопустимы. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 08:39 пользователем Lord KiRon Спасибо , а чем его djvu вообще делаю и где "это" взять ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 09:06 пользователем rr3 Цитата: Спасибо , а чем его djvu вообще делаю и где "это" взять ? Lizardtech Document Express Editor Взять можно у jurgennt: http://reeed.ru/prog_djvu_ee.php или у Ulenspiegel: http://www.onlinedisk.ru/file/40608/ http://www.onlinedisk.ru/file/40612/ http://www.onlinedisk.ru/file/40613/ Ну и до кучи: Ни корысти ради...Конвертация PDF to DJVU-1 Прошу помочь с формирование .djvu Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 11:24 пользователем Lord KiRon Спасибо, попробовал djvu качество при nearlossless получилось ужасное, текст пошел пилой-квадратиками, правда размер действительно более чем в 7 раз меньше. Да кстати вторая группа линков чо вы дали ( от Ulenspiegel) - померли :( Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 11:50 пользователем Stiver >>Спасибо, попробовал djvu качество при nearlossless получилось ужасное, текст пошел пилой-квадратиками Значит что-то не так.. Вы, надеюсь, в tiff сканировали? Выложите куда-нибудь одну страничку, попробую сам сконвертировать. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 16:52 пользователем Lord KiRon TIF , 300 dpi , результаты все тут в либрусеке: http://lib.rus.ec/b/137391 http://lib.rus.ec/b/142440 огромный PDF и DJVU , источники понятно еще больше. Качество скана хреновенькое , но книга редкая , дорогая и "уезжала" вечером так что сканил в спешке. PDF понятно уже и сам немного "пожатый" по сравнению с оригиналом из которого делал DJVU но все равно на порядок лучше. Кстати, как бы их вместе обеденить , чтобы книга была одна и два формата для даунлоада. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 03:09 пользователем Stiver Ух. Там размер не в семь, а в 45 раз меньше! 275 MB pdf против 6 MB djvu. С либрусековской скоростью 10 KB/s я этот pdf до посинения качать буду. А нельзя просто пару страниц исходного скана выложить? Чтобы перегнать в djvu и сравнить с Вашим результатом. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 04:03 пользователем Lord KiRon Вот глянь : http://rapidshare.com/files/210615338/0210.tif это не совсем оригинал , это после того как ФайнРидером deskew сделал и страницы порезал пополам , но оригинала сейчас тут у меня нет - дома. Теперь глянь на страницу 9 в DJVU - как видишь серьёзно попорчено, особенно раздражает что текст пошел какой то гребенкой. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 04:30 пользователем Stiver И не удивительно, что попорчено :)) Это, простите, не скан, а некое у..хм..божество. По пунктам: 1) Невалидный формат, его не открывает ни Photoshop CS2, ни Кромсатор. 2) Отсканирован в цвета серого. Перевод из серого в ч/б без "лесенки" невозможен. 3) Ну и само качество. Как надо было извернуться, чтобы текст пошел волнами и пятнами? Из такого действительно сложно сделать что-то приличное. Странно, что получилось еще вполне читаемо и сравнительно небольшого размера. Вот пример djvu, каким он должен быть (не считая OCR слоя): http://lib.rus.ec/b/119872 P.S. Кстати pdf можно тогда из библиотеки наверное удалить? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 04:50 пользователем Lord KiRon 1.Что значит "не валидный" ? Что Fainreader 9 сделал такой и формат, кстати по моему обычный TIF, у меня его обычный Microsoft Picture and Fax viewer открывает и Paint.Net. 2. Сканировать для OCR вроде всегда рекомендовали в greyscale а не B/W , изначально идея была сделать про-OCR-еный PDF , типа в графике только картинки, может еще и сделаю, просто задолбался из за неудобства ФайнРидера (см. выше первый пост). 3. Ну тут уж как получилось :) очень спешил , там 400 страниц и отсканировать надо было на медленном сканере за часов 5. Щас кстати себе на день рождения :) заказал Plustek - посмотрим что выйдет но этой книге это уже не поможет :(. Насчет удалить PDF ..., не знаю, можно наверно , залил в принципе в надежде что может кто то сделает на его основе что получше. Да, кстати в том примере что ты привел как "хороший" тоже текст весьма размытый. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 05:24 пользователем Stiver >>1.Что значит "не валидный" ? Что Fainreader 9 сделал такой и формат, кстати по моему обычный TIF, у меня его обычный Microsoft Picture and Fax viewer открывает и Paint.Net. TIF - сам по себе всего лишь контейнер и может содержать внутри много разных форматов. Стандартный Viewer у меня тоже открывает, зато все остальное нет. Поэтому что-то там сильно не так. >>2. Сканировать для OCR вроде всегда рекомендовали в greyscale а не B/W , изначально идея была сделать про-OCR-еный PDF Да, для OCR иногда имеет смысл. Но djvu делается всегда в ч/б, за исключением каких-то специальных картинок, фотографий ит.д. Ну и если в ч/б просто не получается по причине ветхости книги или дурости сканера.. >> Щас кстати себе на день рождения :) заказал Plustek Удачи с ним :) Будем посмотреть на результаты. >>Да, кстати в том примере что ты привел как "хороший" тоже текст весьма размытый. Значит просмотрщик неправильно настроен. Возьми WinDjView и поиграй с увеличением, у меня например на 125% абсолютно четкий вид. Можешь поставить максимальное увеличение и посмотреть на края букв - они все ровные. Качество того файла близко к лучшему из возможных. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 06:00 пользователем Ulenspiegel Stiver написал: TIF - сам по себе всего лишь контейнер и может содержать внутри много разных форматов. Стандартный Viewer у меня тоже открывает, зато все остальное нет. Поэтому что-то там сильно не так. Эээ.... Tagged Image File Format ? Пан ничего не путает ? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 06:13 пользователем Stiver >>Пан ничего не путает ? Что именно? :) Что у меня он не открывается? Нет, не путаю. У кого время есть, проверьте кстати - вдруг у меня одного Photoshop и Kromsator такие странные. Или что TIF - контейнер? Тоже не путаю, по формату можно внутрь хоть JPG запихнуть, если очень хочется. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 06:30 пользователем Lord KiRon Ну вообще то JPEG внутри TIF называется EXIF JPEG :) а TIF действительно бывают разные - uncompressed , LZH compressed (это самые распространенные) и так далее вплоть до TIF с JPEG2K lossless , приведенный выше файл открывается даже видовским Paint , правда глянув на него внутрь пришел к выводу что это похоже вообще BMP которому FineReader зачем то дал extension TIF. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано ср, 18/03/2009 - 06:33 пользователем Lord KiRon Именно WinDejavu и смотрел , на FitPage на 22" мониторе с 1600х1280 , впрочем на 135% действительно смотрится получше, размазанность почти не заметна если не искать. Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 11:30 пользователем golma1 1. image title, насколько я понимаю, это тот текст, который показывается при наведении курсора на картинку. Не знаю читалку, которая это поддерживает. Я пишу название под картинкой и выделяю в зависимости от особенностей книги то ли emphasis'ом, то ли subtitle'ом. 2. Вообще не поняла. Есть скрипт - добавить примечание (или вставить примечание, если какое-то была пропущено). В нём есть разные варианты добавления. Удобно пользоваться "с вводом", но если в сноске несколько абзацев, он обрежет текст после первого. В этом случае (или если в тексте сноски много форматированного текста) удобнее пользоваться "с переходом". 3. Таблицы - в виде картинок. 4. Можно попробовать выделить тэгом cite и посмотреть, как выглядит. Или emphasis'ом, в крайнем случае. 5. Тоже не поняла. А чем плохи вложенные секции? Зачем нужно несколько body? Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 13:09 пользователем Lord KiRon 1. Спасибо , попробую хотя это не лучший вариант. 2. Хм... про скрипт не знал, их там если честно сильно много и пробовать вподряд страшно :) интересно кстати посмотреть как оно реализованно, есть подозрение что внутри будет то что я делал вручную . 3. Хреновенько , видно потом плохо особенно на маленьких девайсах , ну если других вариантов нет .. 4. Попробуем... спасибо. 5. Ну как бы так правильней структуру передовать а впрочем фиг меня знает зачем я так начал :) Отв: Как правильно отсканировать? Постоянная ссылка (Permalink) Опубликовано вт, 17/03/2009 - 05:08 пользователем Captain Scarlett 2. Внутри будет так: < body name="notes" > < section id="n_1"> < title > < p>1< /p> < /title> < p> Текст сноски < /p> < /section> и т.д, на каждую сноску по секции. < /body> В тексте делать ссылки на соотв. id: < a l:href="#n_1" type="note">[1]< /a> Страницы 1 2 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии logusss RE:Координация сканирования и вычитки 6 часов Моржехрен RE:Помогите найти!.. #2 1 день babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 дня Isais RE:Мои открытия 3 дня aldan RE:Подайте бедному копеечку на книжку с литреса... 3 дня kopak RE:О группе Дятлова. О той самой, того самого... 5 дней A5. RE:Не присылает пароль на почту 1 неделя babajga RE:Плюмаж 3 недели babajga RE:Блошкинс и Фрю. Опасное путешествие 3 недели alexk RE:Багрепорт - 2 4 недели babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц Впечатления о книгах A5. про Норфолк: В обличье вепря [In the Shape of a Boar ru] (Современная проза) 22 04 Убеждаюсь: обалденный автор. Как и предполагалось, дикое количество объёмистых комментариев и пояснений в сносках отнюдь не облегчает процесс чтения сего опуса на ебуке. Но, как опять же и ожидалось, — удовольствие получено ……… Оценка: отлично! A5. про Топор: Зима под столом [L'Hiver sous la table ru] (Комедия) 22 04 A5 в 12:30 ( 01:00) 30-01-2018, Оценка: отлично! Драма абсурда. Она бы и была просто весёлой, милой драмой абсурда с видимостью плавного перехода в комедию, если бы автор не приделал к ней вот такую концовку. Присовокупил ……… A5. про Якобсен: Чистая вода [Det nye vannet ru] (Современная проза) 22 04 A5 в 10:11 ( 02:00) / 16-07-2017, Оценка: отлично! Оченно понравилось. Атмосферно - скандинавия, дождь, снег, зябко, мрачно, безысходно, дух смятенный, характеры, исчезновение одного персонажа... Любителям холодной скандинавщинки ……… Оценка: хорошо Barbud про Шалашов: Господин следователь. Книга 7 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература) 21 04 Продолжается ровное и неторопливое повествование без особых драматизьмов, потрясений и неожиданных поворотов сюжета. Можно читать на сон грядущий, слегка убаюкивает. Отметил один анахронизм - ГГ лакомится пошехонским сыром, ……… Lan2292 про Сластин: Первый пользователь. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература) 21 04 если вам нравится пересказ бродилки, может и зайдет, скучно. mysevra про Свечин: Завещание Аввакума [litres] (Исторический детектив) 21 04 Интересно написано, декорации понравились даже больше собственно "детектива". Всё так степенно и благополучно, и руководство ценит, осыпает наградами и обучает - милота. Оценка: хорошо mysevra про Нури: Волчий остров [СИ litres] (Ужасы, Самиздат, сетевая литература) 21 04 Изложено хорошо, истории занятные, но нет никаких завязка-развитие-кульминация-развязка, просто эпизоды. Оценка: неплохо mysevra про Кейли: Жатва [litres] (Триллер, Детективы: прочее) 21 04 Невнятно описанный театр абсурда. Сплошной сумбур, и всё слишком узнаваемо, чтобы быть новым и оригинальным. Даже редактору поленились показать: автору все равно что "отринула", что "отпрянула"; какие-то скрепы в цепи и пр. Оценка: плохо [email protected] про Степанова: Корень зла среди трав [litres] (Классический детектив, Детективы: прочее) 20 04 Серия неинтересная, какая то надуманная и далека от реальности Оценка: хорошо nik_ol про Донцова: Кладбище чужих секретов (Иронический детектив, Детективы: прочее) 17 04 Спасибо огромное, что выложили! (❁´◡`❁) Оценка: хорошо Sello про Раззаков: Другой Владимир Высоцкий (Биографии и Мемуары) 17 04 Литературный говномеситель. Мертвые сраму не имут. Тем более, что и ответить говномесителю покойный не может. Оценка: нечитаемо Iron Man про Писарев: «Евгений Онегин» (Публицистика) 17 04 Почему эту статью не изучают в школе? Почему школьники до сих пор пишут бесконечные сочинения про эту якобы "энциклопедию русской жизни"? Оценка: отлично! больше впечатлений