Вы здесьВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка вынести на обсуждение вопрос минимальных требований к книгам.
Опубликовано чт, 18/12/2008 - 08:36 пользователем yurbox
Вроде как назрело. Не холиварим. Только конструктив Валидность - минимальные требования к файлу для того, чтобы он мог появиться в библиотеке. Валидный файл - это: 2. файл с текстовым содержанием, который поддается прочтению специализированными на его формате программами, либо офисными текстовыми редакторами, обладающими функцией 3. файл, сквозная фрагментация текстового слоя которого не меньше 25% (при условии, что смысловая составляющая такого текста не утрачивается). Текст, удовлетворяющий требованию 25%, являющийся цельным блоком (середина, конец, начало) считается валидным и полным при отсутствии полного текста в библиотеке и выполнении условий п.5. 4. отдельные страницы файлов графического формата фрагментами не являются. 5. в теле файла независимо от его формата ОБЯЗАТЕЛЬНО должны указаны быть автор и название публикуемого документа. 6. минимальный размер. Здесь происходит основная загвоздка, ибо при заниженном минимуме возникает куча трудностей с упорядочиванием, а так же создается почва для спама. При разумном подходе минимальный размер нужно, наверное, все же ограничивать. Это спорно. о формате фб2 Жанр - штука обманчивая и при массовой заливке ее можно упускать, главное, чтобы файл находился поиском по автору или названию. Качество - внешние и внутренние составные части, обеспечивающие улучшение внешнего вида документа. параллельно с этой веткой идет обсуждение на тему качества, думаю, что не стоит спорить какие книги нам нужны - качественные или некачественные. Конечно качественные, и там можно будет поговорить о приоритета одних видов качества над другими.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
NickNem RE:Подайте бедному копеечку на книжку с литреса... 17 часов
Isais RE:Семейственность в литературе 1 день kopak RE:Таинственная личность админа Флибусты 4 дня kopak RE:О группе Дятлова. О той самой, того самого... 4 дня babajga RE:Ласси возвращается домой 6 дней sem14 RE:Подборка о Первой Мировой 1 неделя Isais RE:удаление "двойников" 1 неделя Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 3 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 3 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 месяц Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 месяц Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц Впечатления о книгах
Nevskaya про Сушков: "Ленинградское дело": генеральная чистка колыбели революции (Документальная литература)
22 02 Бралась за книгу с трепетом, родная тема, Блокада, Ленинград и все такое... Прочла со стыдом, дочитывала только потому, что не умею бросать начатое. Вранье сплошное, откровенное, бесстыжее, запредельное. Уже много где на форумах ……… Оценка: нечитаемо
Shelest2000 про Бобров: Эпоха мертворожденных [= Украина в огне] (Альтернативная история)
22 02 Эх, как пуканы рвутся у укров типа Den_Klimov. ==Две войны, две с**а войны развязанных Путиным! ( == А не скажешь,мною не уважаемый, почему, так тобою любимая Украина, официально и неофициально отправляла своих боевиков-нациков ………
Belomor.canal про Акунин: На санях (Современная проза)
22 02 Лучшая, самая лучшая книга Семейной Саги Оценка: отлично!
187 про Царевич: За Отчизну! (История)
21 02 Годная детская книжка, как и Приключения Каспера Берната в Польше и других странах. Оценка: отлично!
Дей про Воспитанник орков
21 02 Какой же ГГ тряпка и слюнтяй. Нет, он храбр и, в общем-то, довольно сообразительный, хоть и несколько тугодум, но он трясётся над жизнью каждой мрази, встречающейся на его пути. Он оставил за спиной несчитанное количество ………
dolle про Корнев: Артефакт острее бритвы (Фэнтези, Приключения: прочее, Самиздат, сетевая литература)
21 02 Неплохо. С каждой книгой сюжет становится динамичнее, интриг и врагов становится больше . Оценка: хорошо
tlittle про Никитин: Бешеный лев (Фэнтези)
20 02 Примитивно. Очень примитивно. Такое впечатление, что художественные "изыски" добавляли в рассказ при втором проходе, они выглядят чужеродными. При этом куча (просто хренова гора) примитивных орфографических ошибок. "Ни как", ……… Оценка: плохо
Barbud про Семин: Конструктор (Попаданцы, Самиздат, сетевая литература)
20 02 Малоинтересное чтиво без художественных достоинств и исторической достоверности. Автор поднаторел на написании сказок с магией и прочими вытребеньками, где не нужно знать историю и следить за отсутствием анахронизмов, поэтому ……… Оценка: нечитаемо
nik_ol про Донцова: Дезертир из рая [litres] (Иронический детектив)
19 02 Ребятки, а что так редко стали выкладывать Донцову, Луганцеву и Полякову? Ну, Полякова-то понятно, там её невестка как бы сейчас книги пишет, а Донцова? Скучаю уже, я её между Пелевеным читаю, например, для разгузки мозга))). Оценка: хорошо
decim про Ксенз: Золотая стена (Современная проза, Публицистика)
19 02 Автор не буйный , это хорошо. Больше ничего хорошего. Ну там Фаэтон, Гиперборея, Атлантида... а Чёрное море, должно быть, выкопали на сдачу. Потомков ассуров(так в книге) сдали на съедение Горбачёв с Волкогоновым. Который ……… Оценка: нечитаемо
mysevra про Зорич: Очень мужская работа [HL] (Боевая фантастика)
19 02 Здесь больше Зорича, чем Жарковского. «Тварь» показалась интереснее. Оценка: плохо
mysevra про Жарковский: Времена смерти [litres] (Космическая фантастика, Научная фантастика)
19 02 Это было необычно, мне бы хотелось продолжения. Оценка: хорошо |
Комментарии
Необычайно бурная и интересная дискуссия
Попытка создания темы для обсуждения по существу встретила живейший отклик в народных массах...
Внесу, пожалуй, свои 5 копеек. Правда, это не совсем относится к валидации, но чтобы не засорять первую страницу кучей тем, думаю, что, поскольку к оформлению файлов это таки имеет отношение, то, имхо, это допустимо.
1. Хотелось бы, чтобы книги хранились преимущественно в текстовых форматах, прежде всего fb2, раз уж он принят тут в качестве стандарта. Графические форматы занимают слишком большой объем и, имея канал всего в 256K, приходится зачастую отказываться от закачки файлов в десятки мегабайт, да и диск у меня не резиновый. Кроме того, некоторые форматы, которые не являются общеупотребительными, также могут вызвать проблему. Например, формат prc на моем настольном компьютере читать довольно проблематично.
2. Хотелось бы, чтобы варианты одной и той же книги, отличающиеся только вычиткой, не плодились в неограниченном количестве. Я лично не понимаю, зачем вообще держать все варианты файла, но если это и впрямь кому-то надо, то ходя бы окончательный (на каждый текущий момент) вариант книги как-то был выделен от остальных. Самое неприятное, что в "последних поступлениях" зачастую также имеется по 3-5 вариантов некоторых книг, причем часто одного и того же размера. Честно говоря, неохота выкачивать все варианты и тем более все их анализировать, чтобы понять, какой вариант - окончательный. Это неудобно.
3. Это довольно мелкий вопрос, но все же. Хотелось бы, чтобы все файлы именовались единообразно (В последнее время, правда, в основном уже соблюдается) и если уж имя файла начиинается с автора книги, то чтобы сначала шла фамилия, а потом имя (а не наоборот, как я смотрю, сложилось на Либрусеке).
Отв: Необычайно бурная и интересная дискуссия
Все так, кроме предпочтения форматов. Именно в графических форматах присутствует чуть не половина уникальных книг и журналов, т.к. нереально перевести в фб2 множество формул, схем и картинок. Вас лично никто ведь не заставляет их скачивать - дело это сугубо добровольное ;), а формат файлов виден. Единственно, я бы посоветовал тем, кто будет в дальнейшем делать сам такие файлы, отказаться от pdf в пользу djvu, т.к. последний гораздо компактнее.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Не хватит ресурсов человеческих. И решение придется кому-то принимать, опять же - дополнительные полномочия и склоки по поводу удаленных версий. Они время от времени и так всплывают.
Вроде бы просто фамилии. без имен.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Я и не требую непременно удалять, но как-то помечать последний вариант все же не мешало бы. Или хотя бы, чтобы каким-то образом была виддна хронология версий. А разбираться в 3,4,5 версиях тем более не хватит ресурсов человеческих. Какой-то выход все же нужен.
Сейчас скачал книгу для пробы, действительно только фамилия. Если это стало новым стандартом и будет применяться ко всем файлам, то замечательно.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Дубли отлавливаем и удаляем. Оставляя лучшие версии. Этим правом также, кстати, наделен любой пользователь библиотеки.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Просто я скачиваю каждый день "Последние поступления" и сразу заношу в свою библиотеку. И практически каждый день несколько книг встречаются в "Последних поступлениях" несколько раз. И, честно говоря, ударность труда отдельных пользователей или библиотекарей, в течении одного дня умудряющихся залить на Либрусек до 5 дублей одной книги, меня просто поражает. ;)
Получается, что в реальном режиме времени отловить дубли вручную совершенно не реально.
А нельзя ли автоматизировать устранение дублей только из "Последних поступлений", например, путем помещения в нее только самого последнего по времени дубля?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
1. Библиотекари - тоже пользователи. Насчет ударности труда: вы же сами ратовали за то, чтоб лили больше, без разбора, а библиотекари
к 3000 годуразберутся. Вот и разбираемся.2. Дубли ловятся не только в последних поступлениях, а во всей библиотеке.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Во-первых, я ратовал за то, чтобы лили больше разных книг, а не по пять дублей одной и той же книги. И непонятно вообще, откуда появляется столько версий за ОДИН день (причем это КАЖДЫЙ день и НЕ С ОДНОЙ книгой)? Не лучше ли заливать только окончательную версию правки? Тогда бы и дублей было бы максимум два, а не 5 и время и усилия тех, кто правит, тоже было бы сэкономлено. Так что для меня такое количество дублей за один день просто загадка.
Во-вторых, я и не требую, как Вы, верно, заметили, чтобы библиотекари разбирались в реальном режиме времени. Я спросил насчет возможности автоматизировать исключение дублей из последних поступлений. Ответа я не услышал.
В любом случае, я предпочитаю вариант много книг, даже если это влечет много дублей, чем мало дублей, но мало и книг.
PS Я заранее признаю, что я злобный и гнусный враг №1 всех библиотекарей Либрусека и это исключительно из-за меня Либрусек далек от совершенства, особенно в плане качества книг. Только, пожалуйста, перестаньте кидаться в меня камушками.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
1. Люди льют, что хотят. Им, видимо, лениво посмотреть на наличие или отсутствие книги. И лениво что-либо делать с тем, что они льют. Не всем, конечно, некоторым.
2. По возможности автоматизации - это не ко мне. Может, agrey знает или pkn. А как, кстати, исключить дубли - их же сначала сверить надо и оставить более качественный вариант.
3. Это не кидание камушками. Просто честный ответ на поставленные вами вопросы предполагает выброс некоторого количества такого гравия: либо мы строго контролируем закачки, и иногда кратковременно могут пострадать невинные люди, либо мы оставляем, как есть, и появляется много сопутствующего мусора.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Поскольку всем дублям присвоены номера, то система видит, что это один и тот же файл. Поэтому при добавлении книги можно было бы усложнить добавление дубля, усиленно спрашивая, точно ли хотят добавить дубль. Тогда ленивый не станет добавлять. Заодно это некая защита и от вандалов.
А я и не предлагаю удалять дубли. Просто в "Последние поступления" помещать только один файл из дублей. Например, последний по времени или самый большой.
Так я и пытаюсь найти вариант, чтобы и библиотекарей не грузить лишней работой и чтобы мне было проще скачивать книги. Но я лучше потерплю неудобства, если альтернативой будет уменьшение количества книг.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Последний по времени или самый большой может быть худшего качества.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Да я все равно все файлы перегоняю в текстовый формат. Так что мне качество не так уж и важно
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Ну, я тоже в rtf перегоняю, но ведь и другие пользователи есть.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
И много поможет другим пользователям куча дублей? Вот сейчас просмотрел последние поступления, так там книга Сергей Тармашова "Катастрофа" представлена в 6 (шести) вариантах! Рекорд! (точнее антирекорд...) С учетом того, что каждый день не одна книга имеет по нескольку дублей, то я не представляю себе, что кто-нибудь может реально просмотреть все эти дубли для выбора наилучшего. Поэтому, имхо, все же лучше выбирать оптимальный (хоть по какому-то критерию) дубль, а при необходимости пользователь может посмотреть и остальные дубли в библиотеке на предмет выбора более подходящего варианта.
чтобы не плодить посты, еще несколько замечаний по другим вопросам.
Конечно, никто не заставляет, но если хочется? ;) А посмотришь на файлы мегабайт в 20 и, хоть рука и дрожит ;), а галочку с них снимешь... Я ж и не писал, что вообще графические файлы не нужны. Я просто хотел бы, чтобы от них по возможности отказывались.
А вот сейчас просмотрел последние поступления, вот там по-прежнему имя файла формируется как <имя автора>_<фамилия автора>_<название книги>.
Нельзя ли и в Последних поступлениях сделать так, чтобы фамилия автора шла на первом месте?
На: http://lib.rus.ec/node/123605#comment-36700
Приношу свои извинения тов. yurbox за то, что развел в его теме оффтоп. Я уже писал, что, поскольку заметил, что, увы, никто длительное время так и не стал обсуждать эту тему по существу (а жаль, имхо), то решил, чтобы не плодить темы начать обсуждение похожмх вопросов. И я, честно скажу, совершенно не ожидал, что ветка развернется на такую длину...
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Не стоит извинений. Просто своим первым постом вы нарушили чудесную картинку того благороднейшего игнора, которого подобная постановка конкретных вопросов на обсуждение, несомненно, заслуживает. Ибо если все будут знать - что такое валидный файл, то становится под угрозу возможность элитарного обладания сакральными знаниям. Толпу завораживают непонятные слова.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
При закачке, развернуть файл в чистую строку, без всех спецсимволов и тегов. Пробелы свернуть в 1, а кавычки в непарные. Привести все к одному регистру и сравнить с такой же строкой уже имеющегося файла. Если совпадение больше 50%(границу подобрать по библиотечной статистике), тупо спрашивать у юзера, раза 3 :), типа "возможно вы закачиваете дубль, т.к. совпадает NN% текста. Вы уверены?". Окно с вопросом показывать на экране со случайным разбросом, что б юзер не тупо жмакал на клавишы.
Вариант не сложный, а дублей может и поуменьшить. Ведь эти дубли рождаются из-за отсутствия серверного инструмента сравнения файлов. Если будет возможность это сделать во время закачки - людям будет проще, т.к. не надо будет искать локальных вариантов.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
...Но, видимо, не для всех книг: http://lib.rus.ec/s/4938
А?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Ряд книг блокируются от правок - в первую очередь новинки. Вандалам именно они не нравятся больше всего.
Но в данном случае удалить дубль сложно по иной причине. 3 дубля этой книги уже удалено, кстати.
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
По теме валидности будем выступать, или оффтоп - это основной принцип?
Уленшпигель (сорри за кирилицу) этот топик по вашей просьбе был сделан. Или ваша просьба была провокацией, как я и предполагал? ТОпик ваш под названием Качество в итоге вылился в обсуждение видов кавычек. Очень как бы, ммм.. ммм... познавательный получился. Но вряд ли конструктивный.
Или я зря тратил время на написание пунктов шапки?
Пусть лучше тут будет пусто, как вчера, чем посторонние разговоры...
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Вопрос в тему. По новому ЧаВо
4.3.3.2.3 Книги в которых отсутствует более 10% текста. Очевидно, что если в тексте набор случайных символов, это тоже сюда попадает.
Ув. библиотекари. На мой взгляд 10% - это слишком жесткая планка, которую необходимо понизить хотя бы до 50%
Приведу основания. Существует файл. Полкниги от начала. Это 50%, что не укладывается в формат и не подлежит выкладке в библиотеку добропорядочным послушным юзером, читавшим ЧаВо. Другой такой же юзер имеет конец этой книги. и тоже не выкладывает на сайт.
В итоге - книга потеряна, а могла бы быть собрана в случае необходимости тем, у кого есть недостающий кусок.
Пример такой книги в библиотеке есть. Это http://lib.rus.ec/b/20500 Я вчера намеренно изменил ей название, чтобы указать на то, что она не в полном объеме. Так вот. В реале - это книга в руку толщиной и здесь представлена как раз на 50% своего объема. Допустим, сейчас при желании, можно отсканировать и выложить только второй кусок и склеить, это и без того немалый труд. при отсутствии же первой части работа увеличивается в два раза.
Это пример, возможно, и исключительный, однако факт остается фактом.
И еще вопрос. Правильно ли я поступил, изменив название таким образом?
Отв: ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка ...
Согласен по обоим вопросам.