Вы здесьУдаление дублей из архивов по 1000 книг.
Опубликовано вт, 20/01/2009 - 15:27 пользователем Bullfear
Есть такая программа myhomelib. Для работы использует архивы либрусека. В этих архивах примерно 20% дублей. В связи с этим возникает вполне закономерное желание эти дубли убрать. pkn написал для этой цели скрипт. Скрипт перловый.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
monochka RE:Подайте бедному копеечку на книжку с литреса... 4 часа
A5. RE:Не присылает пароль на почту 8 часов kopak RE:О группе Дятлова. О той самой, того самого... 6 дней babajga RE:Плюмаж 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя babajga RE:Блошкинс и Фрю. Опасное путешествие 1 неделя alexk RE:Багрепорт - 2 2 недели babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц sem14 RE:«Уроки русского» 1 месяц Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц Впечатления о книгах
udrees про Мантикор: Сверхмиазмы (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
12 04 Хорошее продолжение серии. Она будет явно долгой, раз персонажи застряли на двадцатых уровнях, а упоминаются уровни сороковые и враги там тоже куда ужасающее. Сам персонаж так же друид и со своей лесной магией может удивить ……… Оценка: отлично!
udrees про Дорничев: Королям вход воспрещён. Том 6 [СИ] (Юмористическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
12 04 Примитивно написано, на уровне детских сказок для взрослых. Стилистика такая же – «пошел, взял, сделал…потому что…а значит». В книге много внимания уделяется внешности женского пола, например вот так: «Ворота города распахнулись ……… Оценка: плохо
udrees про Дорничев: Стражам вход воспрещён. Том 5 [СИ] (Фэнтези, Попаданцы, ЛитРПГ, Самиздат, сетевая литература)
12 04 Написано примитивно, как детская сказка или пересказ компьютерной стратегической игры. Персонаж и его окружение развивают свою деревню, получают опыт, строят новые здания, прокачивают новичков, завоевывают и получают новых ……… Оценка: плохо
udrees про Михайлов: Запертый 2 [СИ] (Боевая фантастика, Самиздат, сетевая литература)
12 04 Хорошо написано, продолжение истории сурвера Амадея Амоса. Описания красочные, рассуждения героя тоже под стать, над всем начинает витать политика. Жизнь героя в его руках и подчинена логике выживания – важно то, что полезно ……… Оценка: отлично!
udrees про Михайлов: Пепел доверия (Боевая фантастика, Социальная фантастика, Постапокалипсис, Самиздат, сетевая литература)
12 04 Очень хорошо написанная книга в стиле зомби-апокалипсиса. Традиционных зомби здесь нет, и в то же время есть. И сюжет отличный в стиле «НЕЧТО», когда никому нельзя доверять, когда любой может обратиться в зомби без видимой ……… Оценка: отлично!
udrees про Дюков: За что сражались советские люди. «Русский НЕ должен умереть» (Документальная литература)
12 04 ОЧЕНЬ тяжелая до ужаса книга. Конечно все знают, читали про зверства фашистов во время войны, но обычно все это бывает россыпью, кто-то в книге опишет эпизод, где-то несколько таких случаев описано, где-то чьи-то воспоминания. ……… Оценка: отлично!
udrees про Овчинников: Корни дуба. Впечатления и размышления об Англии и англичанах [с иллюстрациями] (Путешествия и география)
12 04 Не знаю насколько актуальна данная книга в наше время, я так понял, что написана она была в 1974-1978 годы, собственно все цитаты и изречения в конце каждой главы тоже датируются ранее этих дат, не позже. Поэтому я сейчас ……… Оценка: неплохо
udrees про Алексиевич: У войны — не женское лицо… (Публицистика)
12 04 Нужная книга со взглядом на самую страшную войну глазами женщины. Сама книга – сборник воспоминаний женщин, служивших в самых разных родах войск, а также во вспомогательных частях, в тылу, партизанах, подпольщицах. Читать ……… Оценка: неплохо
udrees про Васильченко: Штрафбаты Гитлера [Живые мертвецы вермахта] (История)
12 04 Несколько сложноватая книга, описывающая систему наказаний в вермахте с его испытательными, штрафными и прочими частями. Для историков книга наверное будет представлять интерес. Для меня сложилось впечатление, что в основном ……… Оценка: плохо
udrees про Васильченко: Секс в Третьем рейхе (Публицистика, Эротика, Секс)
12 04 Занимательная книга, открывающая дверь в мир нацистов и их взгляд на отношения между полами, к сексу, к извращениям. Ну и приведены собственно краткие биографии основной верхушки Германии. Понятно, что роль одного человека ……… Оценка: неплохо
udrees про Васильченко: Сексуальный миф Третьего Рейха (Биографии и Мемуары)
12 04 Занимательная книга, открывающая дверь в мир нацистов и их взгляд на отношения между полами, к сексу, к извращениям. Ну и приведены собственно краткие биографии основной верхушки Германии. Понятно, что роль одного человека ……… Оценка: неплохо
udrees про Атаманов: Забаненный 3 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
12 04 Написано сносно, приключения обычные для жанра литРПГ. Немного раздражают вставки сюжетов из реального мира, где на героя тоже ведется охота, но все это выглядит блекло по сравнению с баталиями виртуального мира. Может это ……… Оценка: хорошо |
Комментарии
Отв: kop-librusec-dedead - очень новая версия.
Странно... параметры ОК, вроде должно было нормально сработать... правда, не видно нормально ли загрузились SQL-таблицы... нельзя ли полностью вывод скрипта увидеть?
Убедил. Как руки дойдут - сделаю.
Отв: kop-librusec-dedead - очень новая версия.
Изволь. Распаковка таблиц заняла чуть больше 20 минут. Дальше уже пошло убиение невиновных файлов, посему скрипт был безжалостно остановлен :) И так уже половину придется перекачивать.

Кстати по поводу sql... А работать по спискам myhomelib скрипт разучился? Если да, то жаль - было намного быстрее.
Отв: kop-librusec-dedead - очень новая версия.
Распаковка - это секунды, там парсинг длинный. Но это от компупера зависит, у меня это три минуты занимает :). Но учту, спасибо, если будет возможность - попробую эту часть ускорить.
Ну извини... я честно предупреждал: "НЕ пользуйтесь этой опцией, если не уверены." ;)
Не, это вряд ли получится. Я много пользуюсь частями именно этого скрипта, с SQL-таблицами, и поддерживать два формата - эт я не потяну.
Теперь по сути: похоже, там баг в скрипте. При единственном фильтре "по языку ru" он нашел всего 5409 желаемых (wanted) книг из 123760. Не может быть чтобы в таблицах было всего 5 тысяч книг на русском. И у меня такой же примерно результат, даже ещё меньше, так что это не разница в Перле или в SQL-таблицах, а баг в скрипте. Буду искать, как только дойдут руки. Постараюсь не затягивать, но прямо сейчас - не могу.
Отв: Удаление дублей из архивов по 1000 книг.
Ну дык на настольном и у меня будет около 3-х минут. Ты на ноуте пораспаковывай :Р
Тоесть косяк в единственном фильтре или именно в фильтре по языку?
*обиженным голосом* Но ты не добавлял "... что в скрипте нет бага" :Р
Ясно, спасибо. Бум ждать, благо сейчас либрусек работает и это не так критично ;)
Отв: Удаление дублей из архивов по 1000 книг.
Баг в скрипте есть всегда. Это аксиома.
kop-librusec-dedead - 0.4.3
kop-librusec-dedead верисия 0.4.3 - прицеплена к посту.
Изменения:
1. Пофиксен злобный баг. Предыдущими версиями не пользоваться, они глюкавые на всю голову!
2. Добавлена опция -testrun : Делать всё как настоящее, но не писать/стирать никаких zip-архивных файлов.
3. Добавлена возможность перезаписывать поверх исходных файлов. Для этого надо чтобы -do (dirout, выходной директорий) показывал туда же где лежат исходные зипы (dirzip), и присутствовала опция -removeoriginals.
Отв: kop-librusec-dedead - 0.4.3
Спасибо, щас потестим :)
Отв: kop-librusec-dedead - 0.4.3
Меня терзают смутные сомнения... На первый взгляд все нормально, однако почти в каждом архиве скрипт находит примерно 250-300 дублей. Так и должно быть? Архивы уже были обработаны старой (безглючной) версией скрипта.
Wanted total 96695
Books total 123760
to be squeezed 27065
Или он просто повторно обьединичивает единички? Тогда все в порядке.
Из замеченного: быстрее стали грузится таблицы, это гуд :)
А вот еще что.
WARNING: Bad member name: "Ketrin_A_List_Etika_bl**stva.fb2" zipf="16988-117987"
C этими файлами можно что-то сделать?
Отв: kop-librusec-dedead - 0.4.3
Повторно объединичивает.
Это тебе показалось :) там ничего не делалось.
АХЕЗ. Звёздочки в имени разрушают перловые regexp-ы. Я пока не могу научиться как бы их правильно сравнивать.
Отв: kop-librusec-dedead - 0.4.3
Странно. Тем не менее факт. Тогда одно из трех:
- Я сонный, поэтому думаю медленнее :)
- Они эээ... Закешировались виндой, ибо ноут уже недели две не перезагружался.
- Что третье? Говорю же - сонный я :Р
Отв: kop-librusec-dedead - 0.4.3
Можно экранировать переменную - /^\Q$membername\E$/
А можно использовать строковое сравнение вместо regexp (должно быть быстрее) - grep {$_ eq $membername} @FN_G;
Отв: kop-librusec-dedead - 0.4.3
Спасибо! Перловковар из меня тот ещё...
Страницы