Вы здесьВалидация Либрусечной библиотеки
Опубликовано пт, 16/05/2008 - 03:01 пользователем Roman Gl
А не провести ли валидацию всей библиотеки с помощью FBI? Тогда можно будет вывесить список книг с ошибками, и желающие могли бы править тэги fb2. По-моему большинство ошибок исправляются буквально в 2 щелчка мышкой (жанр, неправильный порядок тэгов и т.п.). Можно за короткое время "причесать" библиотеку.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
NickNem RE:Подайте бедному копеечку на книжку с литреса... 7 часов
Aleks_Sim RE:Ирина Александровна Велембовская - Немцы 1 день Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 дня Саша из Киева RE:Избранное 6 дней Alligatoreader RE:Багрепорт - 2 1 неделя fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 1 неделя kopak RE:Таинственная личность админа Флибусты 1 неделя blahblahblah2024 RE:Беженцы с Флибусты 1 неделя sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 2 недели sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 3 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 недели Oleg V.Cat RE:B343695 Александр. Книга 1 4 недели Isais RE:Калибрятина/Самиздатина 4 недели md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц ejik.v RE:Viva Stiver! 1 месяц Впечатления о книгах
lukmak про Сочинения Иосифа Бродского в 7 томах
29 11 Бродский - гений. А кто его не понимает - что ж... Он непрост. Но, ребята, если вы его не понимаете - может, это ваша проблема?.. И пиндосы тут ни при чём.
nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее)
27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо
neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться.
Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 11 Так себе чтиво, но не скучно. Оценка: неплохо
Chernovol про Коровин: После «Украины» (Политика, Публицистика)
25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо
sem14 про Лазарис: Белая ворона (Историческая проза)
25 11 Леонид Гомберг 24 июля 2007 Роман известного в Израиле прозаика, поэта и переводчика Владимира Лазариса «Белая ворона» (Тель-Авив: Ладо, 2003) в этом году был включен в «лонг-лист» популярной премии «Букер». И это ……… Оценка: отлично!
decim про Осне Сейерстад
25 11 Попробовала бы Сурайя-реис не подать в суд! Муж бы убил. "Для контекста добавлю, что после публикации книги семья героя подала на Сейерстад в суд за клевету, но после апелляции писательница была признана невиновной, а через ………
tvv про Кич: Большой дом [СИ] (Ужасы, Мистика, Фанфик, Юмористическое фэнтези)
24 11 Совершенно замечательное "Оккультное Простоквашино".
decim про Галинакс: Женщина-рыцарь. Самые необычные истории Средневековья (Исторические приключения, История)
24 11 А вот это уже лучше. Подлинник на сей раз не знаю, а компиляция - явно автор чем-то вдохновлялся, но не ссылается на - получилась годная, и хорошо подобраны иллюстрации. Неплохо. Оценка: неплохо
udrees про Быкова: Школьники «ленивой мамы» (Педагогика, Детская психология)
24 11 Очередная книга про воспитание ребенка, теперь уже в школе. Советы в целом ценные, но явно объем книги их все не может вместить, поэтому думаю можно воспринимать текст как информацию к размышлению, а дальше самим продумывать ……… Оценка: хорошо
udrees про Баковец: Обычная жизнь обычного японца (Фэнтези, Самиздат, сетевая литература)
24 11 Угарная книга про приключения попаданца, оказавшегося в теле японского задрота-клерка. Автор видимо в теме про японское общество, имеется множество описаний нюансов про офисную жизнь, иерархию, привычки японцев, домашний быт. ……… Оценка: хорошо
udrees про Кузичева: Чехов. Жизнь «отдельного человека» (Биографии и Мемуары)
24 11 Довольно большая по объему биография известного писателя. Лично мне показалось, что ее писал театрал, поскольку большая часть книги посвящена театру, постановкам пьес Чехова в театре, реакции публики, трудностям постановки, ……… Оценка: хорошо |
Комментарии
Re: Валидация Либрусечной библиотеки
Есть программа fb2fix. Автоматически фиксит большое количество ошибок, которые есть в либрусековских книгах. По моему мнению в идеале нужно прогнать через эту прогу всю библиотеку и уже потом валидацию пытаться провести.
Re: Валидация Либрусечной библиотеки
Спасибо за информацию. Я как раз думал, как буду разгребать 1,5 тысячи книг, сконвертированных із rtf, doc и txt.
А ента программа случайно ничего не испортит? Я тут на фикшнбуковском форуме посмотрел - вроде некоторые файлы после обработки превращаются в null :) .
Re: Валидация Либрусечной библиотеки
Не бойтесь не испортит ;) просто возьмет из одного место в другое скопирует, попутно выполняя пару действий, а вы уже потом глазками проверите. :)
Re: Валидация Либрусечной библиотеки
Только не автоматически! Если читатель, скачавший книгу и лично заинтересованный в её читабельности, сам её отполирует, исправит разметку и всё такое - это да. А просто прогнать скопом все невалидные через авторемонт, чтобы стали валидными... читабельнее ведь они от этого не станут, правда? А удобный признак "невылизанности" книги - её невалидность - пропадёт.
Для тех, кто не в курсе: книга в формате FB2 содержит некоторые важные данные, отсутствующие во всех остальных форматах - например, разбивку на главы/стихи/эпиграфы. Можно, конечно, эпиграф обозвать стихами или стихи эпиграфом, или сделать всю книгу одной сплошной главой - формат это позволяет, FB2Fix и FBI на такое и не пикнут, но надо ли?..
Re: Валидация Либрусечной библиотеки
Полностью поддерживаю. Если каждый будет править те книги, которые читает, и ещё парочку в придачу, то рано или поздно все невалидные книги будут "выловлены". Как минимум, те, которые пользуются популярностью у читателей.
Здесь уместно напомнить о фиче "пожаловаться на плохое качество книги" - одном из способов составить список невалидных книг.
Re: Валидация Либрусечной библиотеки
Кстати, вот неплохой пример "авто-валидной" книги: http://lib.rus.ec/b/103284 - специально в description упомянуто, что FB2Fix прошёл, но что творится в 24-й главе - это кошмар! И нам что, нужно такооое???
(Честно говоря, 24-я глава - это было первое, что попалось на глаза; читать такое не хочу, пока сам всё не проверю и не исправлю.)
Re: Валидация Либрусечной библиотеки
А можно поконкретней, что там такооое? Если программа ошиблась (все мы не без греха), то достаточно написать мне (либо здесь, либо в форуме на fictionbook.org), и проблема будет исправлена. Начиная с версии 1.0.6 (от 10.05.2008), в программу встроен валидатор fb2 по xsd схеме, т.е. невалидные документы вообще попадают в отдельное место. Ну а если у Вас есть свободное время обрабатывать каждый документ руками, то тогда программа Вам действительно не нужна.
Re: Валидация Либрусечной библиотеки
А насчёт "такооого" - вот оно, 24-я глава:
Время есть - а иначе и браться нечего. Но ИМХО тут нужна софтинка, строго проверяющая валидность, берущая под подозрение любую мелочь, подробно (вернее, с регулируемой степенью подробности) объясняющая, что же здесь не так, и позволяющая посмотреть возможные варианты изменений (опять же, комментируя их на предмет чем каждый вариант нехорош) и выбрать наименее деструктивный. Я пока такой программы не знаю - разве что FBI, но он чересчур лаконичен и непонятен для непосвящённого.
Re: Валидация Либрусечной библиотеки
Валидный или нет документ это означает всего лишь соответствует он схеме или не соответствует. Голый каркас - вполне валиден. Вычитаный или нет - другое дело и отдельный вопрос. Лично я понимаю под валидацией: расстановку сносок, исправление структуры, замену эпиграфов на стихи или обратно, склейку разорваных секций, добавление анотации. Если пишу что документ валиден, это означает что как минимум его без проблем сьест библиотекарь и там стоят все сноски. Прочитать всю книгу, перед тем как сюда выкладывать - мягко говоря нереально, особенно если учесть сколько новинок регулярно выдает литрес. Что касается
то это к dimzony откуда такой глюк. Щас проверил - на странице альдебарана все в порядке. Возможно версию книги на альдебаране обновили, после того как увидели эту тему, возможно это новая защита от копирования.
Re: Валидация Либрусечной библиотеки
Угу. Согласен. Но этого или слишком мало, или слишком много: вполне хватает, чтобы никто не заподозрил подделку, но недостаточно, чтобы получилась хорошая книга.
Нууу, знаешь ли!.. Даже суп, сваренный на большую толпу гостей, не мешало бы самому попробовать перед подачей на стол. А давать читать кому-то книгу, в которую сам и не заглядывал... по-моему, это очень нехорошо. :(
Хм. Я сдул оттуда же, той же прогой - чисто; версия на альде - 1.0, т.е. неправленная; полдня поковырялся (правил структуру, "1018 см" заменял на "10-sup-18-/sup-" и т.д.), выложил сюда (http://lib.rus.ec/b/103549).
Может, у нас версии ebookdownloader'а разные? И, кстати, в следующий раз не убирай ebookdownloader из "program-used", ладно?
Re: Валидация Либрусечной библиотеки
Если тебе нужна хорошая книга, с идеальным оформлением либо сделай сам, либо купи ее на литресе и залей сюда. При этом не факт, что оформление будет идеальным.
Спасибо. Молодец. По уму так и надо. Пол дня на книжку, чтобы ее нормально вычитать. Людей мало только. Новинок в день появляется 5-7, да прибавь то, что на либрусеке еще нету, но доступно для чтения и что таки надо выкладывать. Итого получится 20-30 книжек в день. Если этим будет заниматься котя бы человек 10, и каждый будет делать не 20, а 2-3 книги качество естественно поднимется.
Да я и не убирал. Его там и небыло. Он автоматом не прописывается. Впринципе, если видишь FB2Fix в графе "автор документа", то это 98% eBookDownloader.
Непонял, ты хочешь сказать, что я СПЕЦИАЛЬНО впихнул в книгу кусок мусора, вместо текста? Этакая подлянка людям?
Почему не заглядывал? Полностью не читал, это да. Но бегло проглядывал. Полностью читать 15-20 книжек что я добавляю в день нереально. Просто времени не хватит.
Re: Валидация Либрусечной библиотеки
В общем, извини за наезды. Видимо, таки литрес лажанулся со сканом, а потом втихаря, не меняя версию документа, подменил.
О, идея! Давай таки будем показывать в description'е оригинальный ID документа, с которого тянуто ebookdownloader'ом - в поле "src-ocr" или даже просто в custom-info. Можно будет потом в случае чего расплести - что из чего произошло. :)
Re: Валидация Либрусечной библиотеки
+1
Re: Валидация Либрусечной библиотеки
А чем? Есть программы?
Re: Валидация Либрусечной библиотеки
http://vgiv.narod.ru/yo.html
http://python.anabar.ru/yo.htm
Re: Валидация Либрусечной библиотеки
О, сенькс! Эту ещё не пробовал.
Re: Валидация Либрусечной библиотеки
Глазками и руцями. В любом текстовом редакторе - контекстную замену "е" на "ё" и вперёд, до опупения: replace-ignore-ignore-ignore-ignore-replace-replace-ignore... :(
Re: Валидация Либрусечной библиотеки
Ой-ой-ой! Это ж какой труд! Просто подвиг. Респект!
А по поводу программ - я, честно говоря, не увидела, что они работают с fb2. Или просто не разобралась?
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Именно! FB2 - текстовый формат, а не бинарный.
Загружаем в vi - и вперёд.
Отвечать на вопросы придётся меньше, чем если делать поиск-замену, благо скрипт самостоятельно заменит там, где он уверен.
Виндовая софтина, показалось мне, тормозит на больших файлах. Под wine, впрочем, работает. Но UTF-8 не знает.
Re: Валидация Либрусечной библиотеки
Стоит. Поясню почему. Во первых FBE не жрет файkы сразу из под eBookDownloader. А без FBE не будет ссылок. Во вторых мне к примеру удобнее когда я скачал всего автора - импортирую и он целиком сьедается библиотекарем без всяких ошибок. Тоесть после скачивания не надо возится с книгами, валидизировать и т.п. Особенно удобно когда качаешь МНОГО. Большинство читателей не будут "причесывать" книги(тем более не самого любимого автора) - им это просто не надо. Им надо читать. А для этого надо, чтобы книга без проблем импортировалась в библиотекаря.
Хорошая идея. Если сильно много времени отнимать не будет - буду добавлять на равне с аннотацией. В принипе по уму надо бы еще в "src-ocr" ставить адрес, откуда тянулась книга.
Re: Валидация Либрусечной библиотеки
ИМХО, очень похоже на невычитанные ошибки сканера / OCR :(. Скорее всего, на Альде просто успели исправить. А что номер версии не изменился - так это кто же менять будет? Расписавшись тем самым, что версия была плохая ;). У них ведь воще сканов нет, у них версии от издательств - это же для литреса, на продажу! ;D ЕБД вряд ли на такое способен. С таким же успехом можете заподозрить fb2Fix ;).
Re: Валидация Либрусечной библиотеки
Не ссорьтесь, вполне возможно, что это Fb2Fix выкинул, блин за ту структуру документа, которую генерирует ebookdownloader, надо давать пожизненный цык с гвоздями (ц). :) Ну не должен <program-used> находится в <title-info>.
Re: Валидация Либрусечной библиотеки
Я вот тут подумал над тем как это можно исправить... Если в тексте книги встречается слово eBookDownloader - добавлять его в "program-used". В принципе не очень изящно, но много ли вы видели книг, у которых в тексте по сюжету встречается eBookDownloader ;) ?
Re: Валидация Либрусечной библиотеки
А надо ли? Может проще автору петицию написать, что-бы программу исправил? Ну неужели так сложно сразу формировать валидный fb2 документ? Если-бы не было eBoolDownloader'а, "Конвертора Инженера Ларина" и других подобных чудес програмостроения, то глядишь и не было-бы Fb2Fix'a.
P.S. Я никого не хочу обидеть, каждый делает что может, в каждой программе бывают ошибки, но блин если кто-то что-то делает, то давайте хотя-бы пытаться делать это правильно!
Re: Валидация Либрусечной библиотеки
Не хотелось бы показывать пальцем, но у кого-то программа топчется в чужих документах по делу и без. ;-) Уточню - Зачем поднимать версию файла если
а) в документе не было исправлений,
б) структура не правилась,
в) ДАЖЕ табы не проставлялись?
По поводу валидации ВСЕХ книг.
Сейчас я пытаюсь провести валидацию книг созданных LibRusEc Kit ;-) Сразу оговорюсь - я вижу в этом смысл: там попадаются книги, которых я больше в эл. виде не наблюдал.
Вопрос - как потом эти книги залить обратно в библиотеку?
Re: Валидация Либрусечной библиотеки
Исправлять чужие ошибки тяжелее, чем наделать своих. Про версии документов: я всё понял и осознал. Будет сделано для вас персонально.
p.s. Программой пользоваться ни кто не заставляет, а то натопчет ещё в чужих документах.
Re: Валидация Либрусечной библиотеки
Очень полезная, нужная программа!!! За её создание - ОГРОМНОЕ СПАСИБО!!!!!! Вами проделан огромный труд, но не хватает самой малости, чтобы использоватье программу во всю ширину и глубину. ;-)
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Я знаю о добавлении через фтп. Маленькое НО заключается в том, чтобы потом разгрести более 1.7 гига файлов. :-( Если бы было безусловная замена при соблюдении условий: более высокая версия, те же авторы... А в данном варианте это не осуществимо силами одного человека. ИМХО.
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
Угу. Тормозишь. Ну в тексте файла, если так больше нравится :)
Re: Валидация Либрусечной библиотеки
Конечно, "настоящая" книга получается, если после "авто-валидации" её ещё и прочесть. И конечно, для этого необходимо время. И конечно, мало людей, которые этим занимаются. Оттого и не успеть "отвалидировать" все новинки. :-(
Люди, записывайтесь в проект "Вычитка"! :-)))
http://lib.rus.ec/вычитка
Re: Валидация Либрусечной библиотеки
Re: Валидация Либрусечной библиотеки
А я все книги вычитываю... Другие не выкладываю.
Как нас дедушкО Ленин учил: "ЛуЧЧе меньше, да луЧЧе". ;-)
Re: Валидация Либрусечной библиотеки
OK. Спасибо.
Отв: Валидация Либрусечной библиотеки
Господа!
Я насобирал уже почти четыре тысячи "битых" файлов fb2 от либрусека. FB2 Librarian встраивать в базу их отказывается. Попытки разобраться с проблемой пока безуспешны. Редакторы также отказываются открывать эти файлы. Остаётся единственная надёга на FB2Fix. Проблема в том, что не хватает мозгов разобраться с работой этой программы точнее с синтаксисом командной строки. Helpov практически нет, а если есть то в комбинации с батником под библиотеку Траума на предмет её валидности. Если у кого есть время и знания - ответьте.
Заранее благодарю.
Отв: Валидация Либрусечной библиотеки
Примерчик можно попросить ? Если в виде ссылки на Либрусеке - совсем замечательно будет...
Отв: Валидация Либрусечной библиотеки
Хотелось бы узнать, как Вы делали валидацию. Дело в том, что сгружаемые с /allbooks и /all/daily зипы содержат также и файлы, заменённые на лучшие версии. Число "четыре тысячи" наводит на мысль, что в нём участвуют также файлы, заменённые на лучшие версии.
У меня та же проблема, поэтому очень хотелось бы узнать решение.
Отв: Валидация Либрусечной библиотеки
В том-то вся и проблема, что решения её не знаю. Единственная надёга FB2Fix. Но проблема в том, что разобраться с ключами можно только зная структуру файлов fb2, терминологию и, соответственно, владея навыками программирования. Но я не программист... Поэтому и бросаю клич. Если кто-то может по русски описать назначение основных ключей и дать синтаксис командной стрки буду жутко благодарен. Так как жалко потраченных трудов. А выискать четыре тысячи файлов в библиотеке по их именам на предмет наличия правильного?? Может быть эти книги у меня уже закачаны в домашнюю библиотеку, но проверка этого... кошмар.