Вы здесьУдаление дублей из архивов по 1000 книг.
Опубликовано вт, 20/01/2009 - 15:27 пользователем Bullfear
Есть такая программа myhomelib. Для работы использует архивы либрусека. В этих архивах примерно 20% дублей. В связи с этим возникает вполне закономерное желание эти дубли убрать. pkn написал для этой цели скрипт. Скрипт перловый.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
monochka RE:Подайте бедному копеечку на книжку с литреса... 3 часа
A5. RE:Не присылает пароль на почту 7 часов kopak RE:О группе Дятлова. О той самой, того самого... 6 дней babajga RE:Плюмаж 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя babajga RE:Блошкинс и Фрю. Опасное путешествие 1 неделя alexk RE:Багрепорт - 2 2 недели babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц edvud RE:Прошу переформатировать, распознать, etc... 1 месяц monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц sem14 RE:«Уроки русского» 1 месяц Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц Впечатления о книгах
Олег Макаров. про Младший сын
12 04 Очень круто. Бояр-аниме в казахском стиле и антураже. Захватывающий боевик. Очень интересно про ислам. Похоже, ислам автора и ислам, который мы видим в современном мире это вообще разные вещи, объединяемые только названием. ………
Belomor.canal про Секисов: Курорт (Современная проза)
11 04 лучшая книга автора, полная гротеска иронии и юмора (черного) Оценка: отлично!
Belomor.canal про Шелестов: Торжество самозванки. Марина Цветаева. Характер и судьба (Историческая проза, Современная проза, Биографии и Мемуары)
11 04 Нехорошая книга. Нельзя так писать о женщине, которое столько выпало в жизни, тем более о Величайшем поэте. Все поэты самозванцы, Лжедмитрии, претендующий по Праву на Царство. И не надо подсовывать всякие сомнительные мелочи ……… Оценка: плохо
Belomor.canal про Шелестов: Смерть Отморозка (Крутой детектив, Детективы: прочее, Современная проза)
11 04 Эпопея по количеству действующих лиц и по основным линиям повествования - Франция за неделю до ковила и далее, СССР 60-х, РФ лихих 90-х. Повествование неспешное, но постепенно разогревается Оценка: отлично!
tarver про Выдрин: Восьмой дан Владимира Путина (Биографии и Мемуары, Публицистика, Документальная литература)
10 04 Два дана: интеллектуальный - недоумок, нравственный - мерзавец
Линтра про Бушков: Времена звездочетов. Наш грустный массаракш (Фэнтези, Самиздат, сетевая литература)
10 04 Ой-бай, неужели Бушков еще пишет про Сварога? Бросила уже, но не так давно, где-то на 20-21 книге... После того, как он угробил Странную компанию.
Лысенко Владимир Андреевич про Тен: Шайтан Иван. Книга 3 [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
10 04 Книга понравилась, хотелось дальнейшего продолжения. Оценка: отлично!
RedRoses3 про Михайлова: Утешение изгоев (Детективы: прочее)
10 04 Очень слащаво, выспренно - какой-то не тот литнегр попался... дочитать не получилось... Оценка: плохо
obivatel про Городничий: Скотина [СИ] (Попаданцы, ЛитРПГ, Самиздат, сетевая литература)
10 04 Да, оригинальненько. Сущности, определяющие отношения и баланс этого мира, ранее никогда не встречал (в других произведениях). Отдалённо перекликается со сказкой о потерянном времени, но о-о-о-очень отдалённо, скорее, как отголосок запредельно многократно отраженного эха. Оценка: хорошо
Олег Макаров. про Диктатор (Berest)
09 04 Великий диктатор 1-3 Обманывающее название, ожидаешь какой-то попаданческой политики, огромных свершений и т.д., а оказывается, речь о попаданце в маленького мальчика в Финляндию конец 19 века. Попаданец безжалостно ………
Oleg68 про Бушков: Времена звездочетов. Наш грустный массаракш (Фэнтези, Самиздат, сетевая литература)
07 04 Не шедевр, но мне понравилось. Опять на самом интересном пауза. Оценка: отлично!
Олег Макаров. про Усманов: Конец или начало? [СИ] (Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
07 04 Белиберда картонная с самого начала. Трёх страниц достаточно, чтобы понять Оценка: нечитаемо |
Комментарии
Отв: kop-librusec-dedead - очень новая версия.
Странно... параметры ОК, вроде должно было нормально сработать... правда, не видно нормально ли загрузились SQL-таблицы... нельзя ли полностью вывод скрипта увидеть?
Убедил. Как руки дойдут - сделаю.
Отв: kop-librusec-dedead - очень новая версия.
Изволь. Распаковка таблиц заняла чуть больше 20 минут. Дальше уже пошло убиение невиновных файлов, посему скрипт был безжалостно остановлен :) И так уже половину придется перекачивать.

Кстати по поводу sql... А работать по спискам myhomelib скрипт разучился? Если да, то жаль - было намного быстрее.
Отв: kop-librusec-dedead - очень новая версия.
Распаковка - это секунды, там парсинг длинный. Но это от компупера зависит, у меня это три минуты занимает :). Но учту, спасибо, если будет возможность - попробую эту часть ускорить.
Ну извини... я честно предупреждал: "НЕ пользуйтесь этой опцией, если не уверены." ;)
Не, это вряд ли получится. Я много пользуюсь частями именно этого скрипта, с SQL-таблицами, и поддерживать два формата - эт я не потяну.
Теперь по сути: похоже, там баг в скрипте. При единственном фильтре "по языку ru" он нашел всего 5409 желаемых (wanted) книг из 123760. Не может быть чтобы в таблицах было всего 5 тысяч книг на русском. И у меня такой же примерно результат, даже ещё меньше, так что это не разница в Перле или в SQL-таблицах, а баг в скрипте. Буду искать, как только дойдут руки. Постараюсь не затягивать, но прямо сейчас - не могу.
Отв: Удаление дублей из архивов по 1000 книг.
Ну дык на настольном и у меня будет около 3-х минут. Ты на ноуте пораспаковывай :Р
Тоесть косяк в единственном фильтре или именно в фильтре по языку?
*обиженным голосом* Но ты не добавлял "... что в скрипте нет бага" :Р
Ясно, спасибо. Бум ждать, благо сейчас либрусек работает и это не так критично ;)
Отв: Удаление дублей из архивов по 1000 книг.
Баг в скрипте есть всегда. Это аксиома.
kop-librusec-dedead - 0.4.3
kop-librusec-dedead верисия 0.4.3 - прицеплена к посту.
Изменения:
1. Пофиксен злобный баг. Предыдущими версиями не пользоваться, они глюкавые на всю голову!
2. Добавлена опция -testrun : Делать всё как настоящее, но не писать/стирать никаких zip-архивных файлов.
3. Добавлена возможность перезаписывать поверх исходных файлов. Для этого надо чтобы -do (dirout, выходной директорий) показывал туда же где лежат исходные зипы (dirzip), и присутствовала опция -removeoriginals.
Отв: kop-librusec-dedead - 0.4.3
Спасибо, щас потестим :)
Отв: kop-librusec-dedead - 0.4.3
Меня терзают смутные сомнения... На первый взгляд все нормально, однако почти в каждом архиве скрипт находит примерно 250-300 дублей. Так и должно быть? Архивы уже были обработаны старой (безглючной) версией скрипта.
Wanted total 96695
Books total 123760
to be squeezed 27065
Или он просто повторно обьединичивает единички? Тогда все в порядке.
Из замеченного: быстрее стали грузится таблицы, это гуд :)
А вот еще что.
WARNING: Bad member name: "Ketrin_A_List_Etika_bl**stva.fb2" zipf="16988-117987"
C этими файлами можно что-то сделать?
Отв: kop-librusec-dedead - 0.4.3
Повторно объединичивает.
Это тебе показалось :) там ничего не делалось.
АХЕЗ. Звёздочки в имени разрушают перловые regexp-ы. Я пока не могу научиться как бы их правильно сравнивать.
Отв: kop-librusec-dedead - 0.4.3
Странно. Тем не менее факт. Тогда одно из трех:
- Я сонный, поэтому думаю медленнее :)
- Они эээ... Закешировались виндой, ибо ноут уже недели две не перезагружался.
- Что третье? Говорю же - сонный я :Р
Отв: kop-librusec-dedead - 0.4.3
Можно экранировать переменную - /^\Q$membername\E$/
А можно использовать строковое сравнение вместо regexp (должно быть быстрее) - grep {$_ eq $membername} @FN_G;
Отв: kop-librusec-dedead - 0.4.3
Спасибо! Перловковар из меня тот ещё...
Страницы