Хотим много книг, или сканировщики всех стран объединяйтесь!

Последнее время озадачился вопросом попадания новых (да и старых) книг в сеть. Что мы имеем на данный момент? - Литресятину и разброд во всем остальном. Плюс еще последние события (вполне логично, однако все так же негативно) дробят наше сообщество сканировщиков и вычитывателей. В результате некоторые книги появляются и покупаются на разных сайтах по два-три раза некоторых совсем нет, люди делают лишнюю работу, за одно создавая потом лишние проблемы "библиотекарям".
Короче нужна определенная централизация.

При всем уважении к Либрусеку, Флибусте, Песочнице , Huge-Library и многим другим я считаю что книги на первичную вычитку нужно брать в одном месте, и на данный момент таким наиболее подходящим местом явл;яется (в силу разных исторических причин) Библиотека Старого Чародея.
Ведь именно там, вдали от Либрусековских "политических бурь" как не странно собралось наибольшее число опытных сканировщиков и вычитывателей которые организовались наилучшим способом и работают создавая новые FB2.

Собственно речь о том что у них очень много книг, на "обработку" , даже больше чем людей и если вы можете помочь то загляните пожалуйста на главную http://oldmaglib.com/ справа или на форум http://bomanuar.com/forum/index.php?topic=231.0 и присмотрите себе книжку "в работу".

За одно, если вы собираетесь купить какую то книжку, вначале проверьте на форуме http://bomanuar.com/forum/index.php?topic=231.0 - может она уже куплена , если вы купили какую то книгу то опять же пожалуйста отметьтесь там же чтобы не производить лишнюю ненужную работу.

Да, и кстати , на Чародее применено очень удобное разделение труда - если вы например вычитываете но не имеете сканера и/или книг сканировать - то вы можете получить скан и вычитывать , если у вас есть сканер и книги а вы не имеете понятия как делать FB2 то вы можете отправить скан админу Старого Чародея и его сконвертирует и вычитает кто то другой.

Короче, за работу товарищи ! :)

Да, еще одна просьба, если вы не уверены что сможете сделать книгу в течении разумного периода времени (ну что то вроде месяца) то пожалуйста не беритесь за работу - этих книг ждут люди.

Updated:
Вообще тут какой еще момент, возможно я упустил его в начальном посте - я не призываю переходить на "Старого Чародея" читателей для них есть Либрусек, Флибуста и прочие, "Старый Чародей" это в первую очередь библиотека созданная теми кто конвертирует книги. Соответственно удобна она в первую очередь не читателям (им то лучше здесь) а тем кто "работает" над книгами. Это ведь не просто место где берутся книги ето место где встречаются люди с определенными знаниями и определенным кругом интересов завязанным на оцифровке книг. Там вам могут помочь, там вы можете разделить с кем то работу, пообщатся, не как читател а именно как оцифровщик.
Понятно этим можно заняться и тут, но ваш вопрос или запрос скорее всего пропадет среди тысяч других обсуждений на миллион разных тем, а там люди занимаются именно оцифровкой.
Не думаю что это была изначальная цель Чародея но так уж сложилось и грез это не использовать.
Кстати это же относится и к вопросу о жанрах - не важно какие именно жанры собирает Чародей, это для читателей, для оцифровщиков это же место встречи и обмена и по этому можно договорится о любом жанре а выложить потом куда угодно.

Комментарии

господа, если кто ещё не понял - я блондинка. вообще. от слова совсем.
1) расширение у отсканированного файла *tif
2) там есть такая кнопочка как "распознать текст".
3) после чего банально выделить мышкой и вставить в ворд. можно контрл с :)
компьютер собирала не я, софт кем только не устанавливался. если для этого самого копипэйста у меня что-то установлено - скажите где искать (пошагово).
если я не поняла тонкого юмора - простите, если я ввела невольно всех в заблуждение - тоже простите)

Ясно.
Кнопочка "распознать текст" - только у программы OCR.
Главное работает, хоть и у блондинки.

Если я спрошу что такое ORC это уже будет злоупотреблением святой невинностью и измывательством над профессионалами? честное слово - чувствую себя идиоткой, которая ещё и делает 20 движений, вместо одного.

OCR переводится с буржуйского как "распознавание букв на картинках".

OCR - это оптическое распознавание текста по аглицки )
Сканируете всю книгу в тифы например, потом все их открывате специальной программой для OCR - FineReader называется.
И в ней сразу все распознаете.
Если отсканировано более-менее хорошо (300 точек на дюйм) то ничего вручную набирать не придется. Тем более 30%, как Вы пишите.
Сканировать можно и сразу через файнридер, там остается только страницы листать, сканер сам сканирует все страницы подряд.

Где в слове OCR вы увидели распознавание текста?

*рассмеявшись* простите, все вопросы сняты. проще будет самой разобраться. если уж в основах единства мнений нет... и кто говорил что компьютерщики не гуманитарии?:))

Optical Character Recognition

Видимо, у блондинки установлен OCR-компонент MS Office (я серьезно, он там входит в полный комплект, но распознает, правда, хуже файнридера). Такой вариант, как достаточно экзотический, упоминался здесь на форуме в разделе soft.

судя по всему - именно так. а может быть вы файнридером поделитесь? пыталась его найти пару месяцев назад - не вышло :(

Дейдре написал:
судя по всему - именно так. а может быть вы файнридером поделитесь? пыталась его найти пару месяцев назад - не вышло :(

http://rapidlinks.ru/link/?lnk=29614

А не подскажете, какие должны быть кавычки в книге? А то 3 разных вида получилось.

Интересно также по поводу вложенных кавычек второй степени. Какие есть мнения?

Борис

Аватар пользователя Ronja_Rovardotter

«» - кавычки первого уровня (Сочетание клавиш: Alt+0171 и Alt+00187 соответственно),
„“ - кавычки второго уровня (Сочетание клавиш: Alt+0132 и Alt+0147 соответственно).

Ronja_Rovardotter написал:
evgen007 написал:
А не подскажете, какие должны быть кавычки в книге? А то 3 разных вида получилось.
«» - кавычки первого уровня (Сочетание клавиш: Alt+0171 и Alt+00187 соответственно),
„“ - кавычки второго уровня (Сочетание клавиш: Alt+0132 и Alt+0147 соответственно).
Хм. Именно ТРИ вида??? Если "третий вид" - это обычные компьютерные кавычки, то это значит, что скрипт "кавычки на ёлочки" не выполнился до конца - попалось нечётное количество кавычек в секции, или кавычка, про которую непонятно - открывающая или закрывающая, или иной непорядок.
А вот если "третий вид" - это кавычки третьего уровня вложенности, то тоже ничего хорошего: поскольку в природе кавычки тройной вложенности практически не встречаются, то можно заподозрить парную потерю кавычек (например, в начале крупного фрагмента потерялась закрывающая кавычка или даже две, а в конце - открывающая).
Типовая причина - принятые в типографии правила расстановки сдвоенных кавычек, если используются кавычки только одного вида (ёлочки). Пример:
Операция "Золото" == «Операция „Золото“» == «Операция «Золото»» (неправильно) == «Операция «Золото» (правильно - одна закрывающая ёлочка вместо двух подряд).
Текст с такой расстановкой ёлочек нуждается в дообработке перед прогоном скрипта "кавычки на ёлочки" - надо найти все места, где под одиночной ёлочкой подразумевается двойная, и добавить недостающую кавычку. Признаком наличия таких мест может быть ненормально большое количество кавычек второго уровня (лапок) и/или наличие кавычек третьего уровня. Найти "урезанную" закрывающую ёлочку несложно - от открывающей лапки искать назад до закрывающей ёлочки. С урезанной открывающей ёлочкой чуть сложнее, но тоже можно, я просто навскидку не помню.

Вообще-то, по-правильному нужно отличать кавычку (какой она направленности) по пробелу и прилепленности ее к слову, а потом уже считать пары. Но возможно компьютерный интеллект еще не готов.

zenopz написал:
Вообще-то, по-правильному нужно отличать кавычку (какой она направленности) по пробелу и прилепленности ее к слову, а потом уже считать пары. Но возможно компьютерный интеллект еще не готов.

Скрипт в FBE отлично справляется с этим. "Ручная работа" нужна в считанных случаях.

ах, спасибо!!! счастье есть и имя ему файнридер!!!! вычитала 20 страниц так, между делом! ох, чудо какое! спасибо огромное!

И не думайте, что это счастье.
Теперь вы порабощены навеки...
:) :) :)

спасибо за ссылку, полезностей много:) попытаюсь в свободное время разобраться...

Посмотрите и здесь: http://publ.lib.ru/publib.html

Уже писал свое мнение, повторюсь - на сегодняшний день считаю более пригодным для получения предварительного материала не сканер, а цифровой фотоаппарат (не менее 5 МПикс). Гораздо быстрее, а результат ничуть не хуже + книги не надо портить (особенно актуально для толстых и ветхих книг).

Ребята, о чем спор? Просто сотрясание воздуха, а не разговор о сканировании. По моему надо просто сканировать. При использовании планшетного сканера, FR и некоторых специализированных программ выдача 600-страничной книги в формате Word занимает от 3 до 5 суток на русском или украинском языках. Надо СКАНИРОВАТЬ и ВЫЧИТЫВАТЬ, а не спорить о ни о чем.

НАДО:) только, как было сказано выше, из-за того, что я не понимаю как оптимизировать процесс у меня несколько месяцев уходит на скан и вычитку 300 страниц. месяц - потому что комментарии вбитые мелким шрифтом только вручную и вбивать - не распознаются. а их много. но если есть возможность основной текст книги распознать по-человечески - поделитесь программой. тем же файнридером, о котором все говорят. но никто не дает. а классическую литературу вряд ли набежит толпа желающих вычитывать. потому и занимаюсь собственноручно.

Аватар пользователя Captain Scarlett

Киньте-ка мне пару страниц с комментариями на пробу, посмотрю, как файнридер справится с распознаванием. Залейте на ифолдер. А там, может, объединим усилия.

большое спасибо за предложение, но файнридер их распознал (о, да! счастье есть!) так что скорость работы серьезно возросла (за 2 дня сделан тот объем работ, на который раньше уходила пару месяцев!!) :) так что спасибо, но лучше если вы потом это в fb2 переведете, этого я пока не умею:)

Аватар пользователя Captain Scarlett

Хорошо, сделайте rtf/doc и пришлите на почту библиотекарей.

Проблема ,имхо, не в классичности литературы, а в том, что мы не умеем вычитывать. Мы - остальные блондинки и я вместе с ними. Как это "вычитывать"? Как вычитывать если нет бумажного экземпляра книги? Или я глупость какую спросила?

Не совсем глупость :) мне без бумаги тоже гораздо тяжелей, но все же не смертельно , просто не люблю когда читаю перед компом сидеть а тут приходится. Хоть экран и 24" а все равно раздражает.

Цитата:
Как вычитывать если нет бумажного экземпляра книги?

А никак. Нет способа сделать качественную вычитку без оригинала. Правда, оригиналом вполне может служить дежавю вычитываемой книги. Не так удобно, но приемлимо.
Вот ведь какие загадочные существа блондинки. Кажется, глупость спросят, а подумаешь - совсем наоборот выходит...

Тьфу-тьфу-тьфу! Пусть продукт жизнедеятельности выходит обычным путем. Совсем наоборот тоже не в радость получится ;)
У меня есть предложение к опытным товарищам: возьмите шефство над чайниками! Сканировщик вырастит сканировщика, спец по вычитке научит блондинку читать. Число участвующих и делающих работу на приемлемом уровне увеличится вдвое - спасем залежи неоцифрованых книг. Как там? Убил бобра - спас дерево. Хм, убил блондинку - спас вычитку...? Возьмите меня в подшефные! Я бестолковая совершенно, но очень терпеливая. Раз уж медведей учат ездить на велосипеде, то я могу научиться вычитывать. Может даже найдется кто из Украины, чтоб можно было запросто связаться по мобильному...

osoba написал:
Убил бобра - спас дерево. Хм, убил блондинку - спас вычитку...?

Клевета на блондинок. Сегодня конвертила два любовных романа в fb2 из доков - идеальная вычитка OCR-а. Никакая чистка не нужна. Такую бы вычитку, да книгам других жанров... :)))

Tanja45 написал:

Клевета на блондинок. Сегодня конвертила два любовных романа в fb2 из доков - идеальная вычитка OCR-а. Никакая чистка не нужна. Такую бы вычитку, да книгам других жанров... :)))

А может это брюнетки, или, свят-свят, рыжие вычитывали? )))

TaKir написал:
Tanja45 написал:

Клевета на блондинок. Сегодня конвертила два любовных романа в fb2 из доков - идеальная вычитка OCR-а. Никакая чистка не нужна. Такую бы вычитку, да книгам других жанров... :)))

А может это брюнетки, или, свят-свят, рыжие вычитывали? )))

Не может этого быть!!! Скан, окр и вычитка - один и то же человек. )))

Tanja45 написал:

Не может этого быть!!! Скан, окр и вычитка - один и то же человек. )))

Т.е. дама, умеющая "Скан, окр и вычитка" по определению не может быть брюнеткой или рыжей? )))
Ларисе респект в любом случае )

TaKir написал:
Т.е. дама, умеющая "Скан, окр и вычитка" по определению не может быть брюнеткой или рыжей? )))
Ларисе респект в любом случае )

Ларисе респект безусловно - очень качественная работа.

Цитата:
Нет способа сделать качественную вычитку без оригинала. Правда, оригиналом вполне может служить дежавю вычитываемой книги. Не так удобно, но приемлимо.

И в бумажном издании бывают опечатки (а с 90х годов - очень даже часто). Такое тоже стоит поправлять, но осторожно.
Djvu, как и pdf, сделанный из djvu, иногда содержат глюки, особенно если закодировали книгу разрешением при 300dpi и менее. И не всегда эти глюки можно распознать. Некоторые буквы просто заменяются в нем другими, - похожими. Мне попадались даже попадались подмены-многозначности, когда по смыслу подходило и так, и эдак (смысл менялся, но логика повествования оставалась).

Я предпочитаю FR7, хотя уже есть 9-й. А делится? Уж слишком он емкий.

Все сканеры сейчас комплектуются программой распознавания IRIS. Это похуже FineReader, но тоже неплохо.

Очень быстрые сканеры без искажения у сгиба книги - Plustek (3 секунды на страницу). Книга раскрывается на 90 градусов (сканирование до сгиба, который приходится на край сканера). Такие сканеры немного дороже. Я, будучи админом в библиотеке, купил вот такой: http://www.plustek.com/product/book4600.asp для сканирования книг, а сейчас закупаю еще 4 штуки. Единственно что драйвер в комплекте был недоделанный, пришлось выкачивать свежий с сайта фирмы. Да, рекомендуется именно Plustek OpticBook 4600, то же самое модели 3600 по сети имеет плохие отзывы.

У 4600 тоже хватает недостатков, особенно в софте и цветопередаче, но в принципе книжки сканировать - само то.
Да , кстати, он у вас тоже с последним драйвером стал после возврата (по окончании сканирования листа) "позиционироваться" (дергаться вперед-назад на сантиметра два)?

я очень извеняюсь но всем спосибо узнал много адресов библиотек
сербезно СПОСИБО

Скачайте словарь для начала.

А Вы - FAQ по сетевой этике.

Дайте ссылку. Пока что у меня есть только толстый-толстый FAQ по троллингу.

Прямо научно-практическая конференция дояров.

Не уж-то читали?
Всё под контролем, слава богу :)

Да. прочитал. И тоже думаю что всё в порядке.
Искатели журналы сейчас сканирую. Никогда в таких масштабах этим не занимался, что-то тяжеловато с непривычки:(

Распределяйте нагрузку. Не надрывайтесь. Вы нам нужны здоровый и веселый.

Спасибо. Постараюсь:)

Цитата:
Искатели журналы сейчас сканирую.

Igorek67 : Выложите их (Искатели) в виде PDF(jpeg)/JPG/DjVu(лучшеphoto) или хоть обычном DjVu, пожалуйста!

Страницы

X