Вы здесьИндекс к Library Genesis
Опубликовано вс, 18/01/2009 - 18:42 пользователем bookwarrior
добавил индексный XLS-файл к науч. лит. Присутствуют все позиции с самой важной инфой. Содержимое правда не будет в точности соответствовать тому, что выводится в поиске. Так получилось исторически. В индексе названия с большим числом исправлений. Файл расположен под линком index в верхнем левом углу http://gen.lib.rus.ec/
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
kopak RE:О группе Дятлова. О той самой, того самого... 1 день
aldan RE:Подайте бедному копеечку на книжку с литреса... 1 день Isais RE:Катя Водянова - Дом и два жениха в придачу 2 дня Aleks_Sim RE:Прошу переформатировать, распознать, etc... 2 дня kopak RE:Таинственная личность админа Флибусты 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 неделя Саша из Киева RE:Детям о Ленине (Издание 1965 года) 2 недели Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 2 недели babajga RE:Белая княжна 3 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 3 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 4 недели zlyaka RE:С Новым годом! 4 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Саша из Киева RE:Сказки далёких островов 1 месяц Впечатления о книгах
obivatel про Игра [Земляной]
31 01 Кооперативные движения обеспечивающие 40% ВВП в 1978 (эпиграф ко второй главе) это, безусловно, параллельная реальность. Такое могло сложиться только если Сталин не умер в 53 и Берия стал преемником. Очень параллельная реальность, ………
Belomor.canal про Свечин: Пуля времени [litres] (Детективная фантастика, Исторический детектив, Попаданцы)
31 01 Вполне читаемо, хотя местами ну уж очень затянуто. Маловато фактуры, а хотелось бы - таки центр Москвы в 12 году можно было и более детально описать - первые авто, гаражи и конки... Посмотрим, что во второй части Оценка: неплохо
Chernovol про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
30 01 При чем тут "гражданская война"? Разве что граждане рф пришли убивать граждан Украины. Оценка: нечитаемо
Aleks_Sim про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
30 01 Лысенко Владимир Андреевич" - а что "Азов" это современный украинский мир ? Оценка: отлично!
Лысенко Владимир Андреевич про Полтавченко: В прицеле «Азов» (Современная проза, О войне, Роман)
30 01 Нечитаемо, как хорошо убивать всех несогласных с русским миром, все наши правильные, а кто думает по другому должны быть убиты, осталось только Аляску захватить. Оценка: нечитаемо
Barbud про Фонд: Баба Люба. Вернуть СССР 4 (СИ) (Попаданцы, Самиздат, сетевая литература, Фантастика)
29 01 Дерьмище редкостной зловонности. Главное, что автор писать умеет, пишет образно, без "картона", коим грешат очень многие кропатели нетленки. Но боже мой, какую же херню он пишет! Первые две части осилил, остальные пролистнул по диагонали, ибо чушь. Оценка: нечитаемо
decim про Р. Дж. Баркер
29 01 Хорошо, а местами и отлично. Было бы совсем отлично, если бы автор не растянул историю на три тома, но это обычное дело.
mysevra про Баркер: Алые песнопения (Ужасы, Триллер, Детективы: прочее)
29 01 Как часть истории «Восставшего» - мило и познавательно. Но зачем такое изобилие обсценной лексики уличного разлива? Для реализьму, так сказать? Так у меня дл вас плохие новости, мои маленькие друзья, это лет 30 назад такое ………
lukyanelena про Гремучий ручей
29 01 Хотите серию про вампиров? Пожалуйста! Только забудьте про романтичные истории с загадочными красавцами и красавицами. Будет больно, будет страшно, будет неприятно, но я скорее поверю в таких тварей, чем в слащавых вампирчиков.
Лысенко Владимир Андреевич про Земляной: Игровой практикум [СИ] (Боевая фантастика, Фэнтези, ЛитРПГ)
29 01 Книга понравилась, читается легко, жду продолжения. Оценка: отлично!
Nicout про Сушков: "Ленинградское дело": генеральная чистка колыбели революции (Документальная литература)
29 01 Говорите, во время блокады Ленинграда руководство города голодало, как и остальные жители, а все рассказы про пирожные, колбасу и икру для коммуняк - вранье и клевета? Ну так прочтите что из себя представляли питерские деятели, ……… Оценка: отлично!
Синявский про Николай Егорович Дронников
28 01 На 95-м году жизни скончался Николай Дронников - советский и французский художник, график, скульптор, прозаик и издатель авторских книг, "летописец русской эмиграции". |
Комментарии
Отв: Индекс к Library Genesis
можно где-нибудь рядом sql-дамп положить? начал прикручивать генезис к MyHomeLib, имеет смысл делать это с актуальным дампом.
Отв: Индекс к Library Genesis
xls -> csv -> LOAD DATA INFILE myfile INTO TABLE mytable...
Но вообще xls - дурной тон... И .7z - жопа. Зачем?
Отв: Индекс к Library Genesis
xls: есть др. варианты?
7z:
1) даёт наилучшую компрессию;
2) у всех есть.
bw
Отв: Индекс к Library Genesis
csv
1) Расслабьтесь, молодой человек
2) У меня нет.
Я могу понять бескомпромиссный экстремизм в стремлении к крутизне, но со временем приходит понимание ценности гармонии. Или не приходит...
Чисто для конкретных поклонников 7z, rar и прочей лабуды: архив - это не только средство хранения, это ещё и средство распространения и архивирования. Поэтому неизменность формы важнее эффективности результата. Особенно если эффективность в состоянии оценить лишь пылкие юноши с горящим взором. Поэтому, если хотите хорошо выглядеть - не майтесь дурью, используйте zip. Вас поймут.
Отв: Индекс к Library Genesis
Отв: Индекс к Library Genesis
Ага, и каждый второй будет вас спрашивать, чем открыть файл ;).
А интернета тоже нет? ;D
Отв: Индекс к Library Genesis
Сорри, чья жопа? ;) Не понял! Платный RAR что, лучше? Или zip лучше жмет? Как-то несовременно звучит, сударь!
Отв: Индекс к Library Genesis
зип универсальнее - : ) Как думаешь почему либрусек в основном держит и работает с зипов, а не 7z? или это ошибочное решение по твоему
Отв: Индекс к Library Genesis
потому что для LZMA не существует нормального API, а для зипа существует и большинством поддерживается.
а что касается либрусека, то рар тут тоже был бы неплох - на документах компрессия лучше. И распаковщик бесплатный.
думаете tar.gz под юниксом (двойная упаковка: tar-ом без компрессии, просто сбор в один файл-ленту, и gzip-ом с компрессией) - это тоже лучше? это не лучше - это дань истории, со времён станций на ленточных накопителях (tar как раз оттуда: Tape Archive). И под юниксом tar.gz распространён кудаааа больше, чем "более универсальный" .zip.
Отв: Индекс к Library Genesis
Так не все же пользователи под юниксам сидят?
Насчет rar-a пишите Ларину но как я уже сказал - по моему лучшее сжатие не окупает другие недостатки для *данном публичном проекте* (т.е. либрусека)
Отв: Индекс к Library Genesis
Дело, наверное, просто в том, что нет движка библиотеки, расчитанного на 7z ;). А вообще, это спор ни о чем. Человек выложил индекс, благодаря чему можно будет наконец нормально пользоваться данным разделом библиотеки, а вы его критикуете, что не в том формате выложил! Хамство какое... ;D Ну, и делайте себе в каком хотите формате, кто вам не велит? Можете хоть KGB запаковать, слышали о таком?
Отв: Индекс к Library Genesis
Движок библиотеки делает Ларин, так что "дело" не в этом - : )
Насчет "хамства" :
- Я сперва благодарил, потом высказал свое мнение
- Это какой то дурацкий аргумент - теперь что никакие улучшения никому кто сделал хоть кое что, не предлагать?
- В KGB именно вы себе пакуйте, очевидно он вам полезен и нужен, и утилиты у вас есть - : )
Отв: Индекс к Library Genesis
я туда подкладывать не буду, потому что БД постоянно меняется, да и не место там этому. Когда-нибудь отдельную страничку сделаю со всей нужной инфой. Пока загрузил сюда http://rapidshare.de/files/42531016/bookwarrior.updated_20090119_1956.rar.html
Это последняя версия, которая очень сильно отличается от того, по чему ищет либген. В лучшую сторону, разумеется.
Вообще по поводу апдейтов базы лучше связываться лично, я тогда буду по мере обновления высылать и оповещать, если что значимое происходит.
PS
подумываю явное поле имени файла ввести... наверное так было бы легче всем...
Отв: Индекс к Library Genesis
ИМХО, не обязательно.
Отв: Индекс к Library Genesis
Спасибо большое! Почти 50000 книг... Вызывает уважение! :)
Отв: Индекс к Library Genesis
Отлично, спасибо!
Еще, пожалуй присоединюсь к рекомендации Stager-а про csv и zip, основный аргумент - нельзя умножать сущности и усложнять без необходимости;
csv versus ексель - ексель формат сложнее, да и поверх этого проприетарный - при этом какие фичи нужны в данном дампе которые поддерживает формат xls, а сsv нет? (а ексель легко откроет csv)
zip vs 7z - по моему, выигрыш в компрессии и/или скорости распаковки - ничтожный плюс, по сравнению с удобством распространенности архиватора. 7z у меня тоже нет /хотя прежде был/
Отв: Индекс к Library Genesis
csv - это текстовый файл, в котором элементы списков разделены точкой с запятой. Его можно выложить и с расширением txt без каких-либо проблем и открывать хоть Word'ом, хоть Notepad'ом. Только здоровый он. Для тех, кто не боится Excel, пояснить, чтобы сменили расширение на csv или открывали Excel'ем.
Из Excel файл сохранить в формате csv и изменить расширение на txt.
Отв: Индекс к Library Genesis
за csv и zip
Отв: Индекс к Library Genesis
похоже далеко не все понимают, о чём просют: CSV будет содержать UTF-8 кодировку, а это значит, что вы его откроете, но просто так не увидите в нём ничего, кроме латиницы. Это действительно то, чего вы хотите? Notepad с этим не справится. Более того, с этим вообще ничто не справится, поскольку в CSV файлах нет маркера формата, указывающего на кодировку содержимого. Т.е. каждая прога будет открывать в тех кодах, в которых ей взбрендит. Случайным образом может наткнуться и на UTF-8.
Эксель за этим следит, открывает быстро, позволяет любую обработку и я могу гарантировать, что вы увидите название таким, каким я его туда засунул. Это первое - гарантия доставки. Альтернативного формата "под ключ" просто не вижу. (HTML был бы опцией, если бы не размер - завалит любой браузер).
Теперь архив: как хотите конечно, но LZMA (7-Zip) даёт на 3 МБ (30%) меньше, чем ZIP.
Отв: Индекс к Library Genesis
C UTF-8 ?Справится-справится. И vim справится, и krviewer, и OpenOffice. И с ZIPом лично мне работать намного удобнее, нежели с 7zip.
Мое личное мнение - (DBF | CSV ).zip
Отв: Индекс к Library Genesis
А вот как бы справляется, сцуко ? :);) : Даже знает что у него "очень длинные строки", и сепараторы строк какие.
ИИ, не иначе;) Хотя текст не только "инглиш" но это он так, оговорился...
Отв: Индекс к Library Genesis
гляжу на "РџРѕРёСЃРє РєРЅРёРіРё РїРѕ точному" и понимаю - это UTF-8...
и как у меня это получается?
как загадочно...
Отв: Индекс к Library Genesis
короче там ещё уголок свободный был, я туда вам csv.zip выложил (utf-8). Мучайтесь на здоровье!
Отв: Индекс к Library Genesis
Спасибо! Вот это мудрое разрешение вопроса - : )
Не понял как часто этот список обновляется... или генерится на лету?
Отв: Индекс к Library Genesis
Отв: Индекс к Library Genesis
у тебя есть полная база (bookwarrior.updated 20090105 0619) см. почту, ещё в прошлом году высылал.
Отв: Индекс к Library Genesis
И, заметьте, что Notepad по прежнему открывает файл index.csv корректно - все видать.
Ну и scalc из OO любезно спрашивает, какая кодировка и после указания на utf-8 все нормально кажет.
А вот Excel почему-то не хотит нормально показать index.csv.
Отв: Индекс к Library Genesis
ужасно невнимательный народ. Я не говорил, что Notepad не откроет или что в принципе невозможно прочитать содержимое. Я сказал, что проги сами не в состоянии в принципе и однозначно определить кодировку в таком файле - потому что там нет никаких однозначных её признаков. Определить можно только вероятностно. Поэтому абсолютно никакая прога не справится с открытием файла в наверняка правильном виде у всех и всегда. Варианта два: либо вы сами укажете кодировку, либо она отгадает. Но гарантии нет! И измените вы имя файла, забудете, что это UTF-8, или вообще о такой не слышали - будете неистово тыкать мышкой в экран, пока не проклюёте в нём паз. Это что, аргументы в пользу удобства??? Увольте, мне трудно такой дендроцефализм понять... Единственное оправдание желанию использовать этот формат - это то, что большинство присутствующих так или иначе касаются разработки, а для этого он как раз самый удобный. Поэтому на моём месте грех отпираться и давить исключительно на XLS для всех - кому-то действительно может оказаться нужнее CSV. Хотя повторюсь: ни CSV, ни XLS не являются полным дампами базы - это её самые важные поля. Если кому-то нужно для разработки - берите SQL-дамп базы. Там всё.
Поэтому XLS - формат идеальный с точки зрения доставки индекса: кем бы вы ни были, индекс я до вас доставлю в девственном виде. А CSV с этой функцией не справляется.
Отв: Индекс к Library Genesis
Возможно тогда отдавать все в открытом формате odf(ods)?
Отв: Индекс к Library Genesis
вот это уже натурально хардкор =)
Отв: Индекс к Library Genesis
абсолютно ничем не хуже XLS, к тому же это по сути xml поэтому хорошо парсится будет, при необходимости.
Отв: Индекс к Library Genesis
последние эксели - тоже xml/zip, а ods открывать большинству будет нечем. Вынуждать бомонд сливать сотни МБ и ставить альтернативный офис - некошерно.
Отв: Индекс к Library Genesis
Как бы вынуждать ставить пиратский офис тоже некошерно. (Нет уверенности что OO.o откроет документ xls корректно), поэтому оптимальным все таки будет CSV в utf8.
Отв: Индекс к Library Genesis
я не вынуждаю: мои файлы OOo откроет правильно гарантированно. Я с обоими офисами работаю всю дорогу и не было замечено никаких проблем. Более того, вся разработка, даже если вы попытаетесь воздвигнуть либген у себя на домашнем компьютере, сделана на Open Source продуктах. Так что не пережывайте, пожалуйсто.
Отв: Индекс к Library Genesis
сейчас вот взял *.xlsx (одна из библиотек уже не вмещает свой список хешей в 65 тыщ строк), переименовал в test.zip, распаковал, запаковал в ZIP 7-Zip-ом, выиграл на этом 3 МБ из 16-ти, переименовал обратно в *.xlsx и он открылся в Excel 2007... Так что внутренности в виде XML можно вообще без участия экселя обрабатывать. Пока остерегаюсь сильных утверждений, но похоже новый формат экселя вполне заменяет базу данных.
Отв: Индекс к Library Genesis
У моей библиотеки (http://libelli.ru/works/n_o.htm) с базой на BookSeer'e опытным путем установленное ограничение 65375 позиций, по практически больше, порядка 65,5 тыс. Работает шустренько, как самолет. И конвертируется база во что угодно в один нажим. Гляньте, обсудим, проблемы у меня с Вами явно принципиально одинаковые.
Отв: Индекс к Library Genesis
Вдогонку: файлы с базой bon, работающей с приложением BookSeer, и с html внутри zip'а.
Отв: Индекс к Library Genesis
Да ладно тебе....
Никаких "однозначных признаков" и быть не может *принципиально*. И не "в таком файле" - а *вообще* - в произвольном файле.
Вопрос ВСЕГДА идет про интерпретации содержимого бинарных файлов - т.е. "отгадыванием" (и евентуально, каких-нибудь соглашений или "конвенций" про его интерпретации).
Так что ничего нового ты тут не сказал (и никаких *однозначных* "маркеров формата" про которых ты гнал в XSL и быть не может)
Отв: Индекс к Library Genesis
ууу... как всё запущено.... =)
ЗЫ - а если серьёзно, то оставьте мне заботу о вас, раз у вас такое... "отвлечённое" представление о реальности ;)
Отв: Индекс к Library Genesis
Для некодеров-простых пользователей (нас) теперь открыта возможность маасовой скачки через довнлодеры. Спасибо. ))
Отв: Индекс к Library Genesis
ну вот это неправильно и именно поэтому полная индексация сайта была отключена
вы загрузите сервак запросами к БД вида http://gen.lib.rus.ec/get?md5=2f2dba2a621b693bb95601c16ed680f8
а можно выкачать всё без нагрузки на БД, напрямую из каталогов:
http://gen.lib.rus.ec/repository/
юзер: gen
пароль: gen
Отв: Индекс к Library Genesis
Спасибо. Здорово! А он в режиме фтп работать не умеет?
Отв: Индекс к Library Genesis
к сожалению нет. Это называется докачка, т.е. когда у вас уже есть часть файла и сервер умеет начинать отдачу не только сначала, а с произвольной позиции в файле. Народ с самого начала просит сделать, я уже выяснил как, но пока руки не доходили: там надо кодить, а значит отлаживать. Лучше с гарантией, что работает, чем где-нибудь недотестить, а у вас потом сотня ГБ окажется битыми. Когда-нибудь наверное сделаю.
Но вам это не должно мешать: если вы замахиваетесь на такие размеры (300 ГБ), так чего вам режим докачки? Видимо у вас достаточно хорошая сеть, чтобы об этом не задумываться.
Отв: Индекс к Library Genesis
Да нет, я на такие размеры не замахиваюсь. Наверно выкачаю около 30 книг интересующей тематики, ибо инет не вечен, возможно через пол-года его у меня не будет в наличии, а книги всегда пригодятся. Просто по фтп удобнее работать, не более. В любом случае спасибо вам за огромную работу по каталогизации столь нужных всем знаний.