Есть в Genesis-е нет у нас. Приглашаем залить файлы DJVU на FTP. Куратор темы TaF

Forums: 

Удачно поохотился на Альдебаране, попались ссылки на файлы, которых нет у нас, но есть
в библиотеке GENESIS:

1. Гаскин Дж.Е. "Администрирование Novell Netware 6-6.5" (2003) 11 МБ djvu
2. Бленд Д. "Нелинейная динамическая теория упругости" (Мир 1972, 184) 2 МБ djvu

Просьба, кому не в лом и у кого есть соотвествующий опыт обращения с FTP:
залить их через FTP и сообщить об этом в данной теме.

А может не надо DjVu , а ? Вот если сконвертировать тогда да а так базу раздувать ...

А зачем?
Генезис лежит на нашем сервере.
Наоборот, надо бы нехудожественные сканы туда убрать.

Честно говоря я сам думал о том, чтобы предложить нечто подобное - перенести в Генезис книги в пдф и джвю, и в том числе подборки журналов ХиЖ, Квант и др. Здесь же можно было бы оставить гуманитарные книги небольших размеров (до 20 Мб).

Но возникает вопрос о том, как быть с новыми поступлениями? Как отражаются пополнения на ген.либ.рус.эк?

Цитата:
Как отражаются пополнения на ген.либ.рус.эк?

никак,
последняя заливка была в феврале,
загрузить самостоятельно книгу туда нельзя, в ближайший месяц сдвигов в этом направлении не придвидится

>> 1. Гаскин Дж.Е. "Администрирование Novell Netware 6-6.5" (2003) 11 МБ djvu

Хм, а такой литературе вообще место в Genesis'e? В колхозе точно не место было и, если поразмыслить, сюда бы я наверное тоже не заливал.

Цитата:
Хм, а такой литературе вообще место в Genesis'e

да

Мусор плодить? Ну ну.. Мне проверенная временем колхозная позиция ближе.

мусор?
и что же вы делаете на помойке?

если коллекция имеет механизмы дифференцировать нужное/ненужное, то можно не бояться, что вся коллекция превратится в мусор. В колхозе такого механизма нет, поэтому там это чревато бедствием. В либгене это есть, поэтому мусор можно выкинуть на любом этапе: достаточно дёрнуть книгу и отметить это в базе данных.

Вся комп. лит. там выделяется либо по топику, либо по имени оригинальной библиотеки. Т.е. в любой момент можно удалить с дисков и из базы всю коллекцию, которая оказалась мусорной. Но поскольку трудно не собрать кучу книг (у меня списки для осла валяются в несчётных кол-вах, у биллГ терабайты литературы на хардах и т.п.), а именно разделить по признакам, чтобы это стало юзабельным, то сумев сегментировать, можно увеличивать коллекцию до любых размеров, т.е. организованная (дифференцирующая контент до необходимого уровня) коллекция становится масштабируемой.

Stiver написал:
Хм, а такой литературе вообще место в Genesis'e? В колхозе точно не место было и, если поразмыслить, сюда бы я наверное тоже не заливал.
Нужно отметить, что не только в Колхозе, но и в http://techlibrary.ru/ была довольно экстремистская позиция насчет программистских книг. Когда я спросил, нельзя ли залить к ним 3-хтомник Кнута, они ответили, что книжки по программированию не держат. :( Видит бог, это чересчур. Хотя программистский мусор плодится бысрее всего, наверное, вслед за выходом новых версий ПО.

Здесь бы хотелось как-то различать pdf-файлы. Я, скажем, залил сюда несколько учебников, и теперь в лекциях просто отсылаю на Либрусек за этими книжками. Очень удобно. И учебники очень ходовые - 300-400 скачек с начала года.

Идеально было бы организовать перелив на Genesis pdf и djvu документов, имеющих, скажем, менее N скачек за год. Но это, видимо, сложно.

В колхозе было просто - закачивать все, что представляет собой ценность общую и непреходящую. И Кнут вполне присутствовал, как и вся алгоритмика. А такую дребедень как вышеупомянутый Novell можно лить сотнями и тысячами, через 5-6 лет она годится только кривоногие столы подпирать.

>>Идеально было бы организовать перелив на Genesis pdf и djvu документов, имеющих, скажем, менее N скачек за год. Но это, видимо, сложно.

Лучше уж не надо, иначе в Genesis'e окажется вся немецкая литература, которую я из I2P библиотеки вытащил :) pdf и djvu бывают и художественными.

Stiver написал:
В колхозе было просто - закачивать все, что представляет собой ценность общую и непреходящую. И Кнут вполне присутствовал, как и вся алгоритмика. А такую дребедень как вышеупомянутый Novell можно лить сотнями и тысячами, через 5-6 лет она годится только кривоногие столы подпирать.

>>Идеально было бы организовать перелив на Genesis pdf и djvu документов, имеющих, скажем, менее N скачек за год. Но это, видимо, сложно.

Лучше уж не надо, иначе в Genesis'e окажется вся немецкая литература, которую я из I2P библиотеки вытащил :) pdf и djvu бывают и художественными.


да, в основном либген следует именно такой селекции, унаследованной от колхоза. Но в плане программирования несколько мягче, потому что:
1) её просто оттуда выкинуть при необходимости (основную массу);
2) она всё-таки нужна, причём именно в образовательном смысле: стол любого программера завален книгами по программированию;
3) исследователи меньше, чем другие профессионалы, разбираются в компьютерных делах - пусть это будет им подспорьем; программинг - это ежедневный инструмент всех профессий, поэтому смысл в этом некоторый есть, безусловно, если это не вредит основному смыслу коллекции - а оно не вредит в силу п. 1 и рубрикации (она есть на хороший процент, просто пока не высунута никуда из БД).

В либген не берётся только то, что не несёт знаний вообще. Например детская энциклопедия: да, она энциклопедия, но после 1-го класса это уже мусор. Попадаются там советы по удлиннению пениса и лженаучные опусы - но это издержки того, что мы роботы, а роботам свойственно ломаться.

Кратко так: спектр поглощения либгена по большей степени совпадает с колхозным и несколько уширяется в сторону техники (в том числе и компьютеров).

Подборка немецкой литературы колхозниками мне тоже режет глаз периодически, потому что там очень мало ценного. Но это всё мелочи, дешевле просто это не замечать.

В общем-то заливать к нам не обязательно, только просьба ко всем - наткнетесь на неизвестного автора со ссылочкой на Генезис киньте сюда, а уж кому надо пусть потом сюда и заглянут.
Это чтобы новую тему уже не заводить... Вообще надо бы с ней (библитекой Генезис) поближе познакомиться...

Да, пожалуй не ту тему я выбрал, но интересно стало, что за ссылочки при поиске появляются...
Значит речь пойдет о разгрузке от нехудожественной литературы основной базы??? Тоже дело.

мы делали точные оценки пересечений, для этого я просил ларина посчитать хеши на не-fb2 где-то в марте-апреле. Список сравнивался с тогдашним состоянием либгена. Навскидку что-то около 1-2 тысяч пересечений общей массой несколько гигов. Т.е. по меркам либгена плевок плевка, по меркам либрусека, где одни тексты, причём запакованные, это на порядок более заметно, но всё-равно плевок.

Мне лично было интересно, откуда постоянно появляются коллекции с книгами, которые есть в либгене, но хеши не совпадают (типа ландафшица, сивухина и т.п.). Этот анализ привёл к первому выпуску колхоза, который либрусек проглотил год-два назад. Этот выпуск колхозники потом целиком переделали, довесив OCR - это стало стандартной методикой обработки тогда, до этого не было. Ну и выпуск похерили, перераздав всё в новом качестве. Поэтому то, что сейчас висит научно-техническим мертвяком в либрусеке - давно пора удалить. В либген эти книги не залить, потому что я их аккуратно прописал в базе, как известные нам и забаненные на загрузку - мы достоверно имеем лучшие версии и тем самым предотвращаем размножение лишнего мусора.

У меня до сих пор сохранилась эта таблица в базе, после грядущего апдейта либгена могу сравнить его с тем, что давал илья ранее опять, и выложить, чтобы вы могли удалить. Можно вообще тотальную сепарацию устроить: сравнить MD5 на всё, что есть в либрусеке (FB2 можно сразу отбросить, у меня ни одного такого файла нет) с либгеном, и дать список файлов на удаление из либрусека. Тогда коллекции станут абсолютно ортогональными. Поскольку у вас тут всё в FB2 стремится быть, можно в код либрусека для заливки добавить проверку через базу либгена, есть ли там такой MD5, и соотв., отказываться заливать, если в либгене уже есть. У ларина уже есть кусок в поиске, который обращается к БД-либгена, вот в том же духе.

Т.е. интеграцию гораздо проще заменить такой агрегацией, оставив коллекции полностью независимыми.

Подвох есть, пожалуй, только один: у вас там какая-то инфа в базе об этих книгах, из неё то, чего нет в либгене, очевидно похерится. Но одновременно мне кажется процент использующих либрусек как библиотеку науки минимален, поэтому инфы именно на эти книги там много сверх либгеновского не будет и можно спокойно это вынести. Или как у нас: убрать файлы книг, убрать их из поиска, но в базе оставить, чтобы их больше не загружали, как устаревшие.

Тогда вопрос - каков механизм заливки книг на Genesis ? И какие ограничения (по тематике, формату и т.д.)

поскольку мы идём от крупных коллекций к мелким, заливается всё вручную: нет смысла писать автомат и задействовать сотни пользователей, когда эффективнее сделать это в составе 2-3 человек. Писать автоматизацию под нестандартизированные даже внутри себя коллекции - безумие. Когда мегаресурсы закончатся, этот автомат можно будет выбросить. Заставлять юзеров заливать десятки тысяч книг по одной - ещё большее безумие. Поэтому мы просто делаем так, как наиболее эффективно по силозатратам: вручную. Когда коллекции станут совсем мелкими, можно будет доделать заливалку, чтобы уже по одной книжке пичкали, и откинуться на спинку кресла. Сейчас пока непонятно, когда этот момент настанет. Два крупных апдейта ещё точно выгоднее сделать без автомата.

Чтобы отдать, просто отпишите в форуме, мы заберём. Тематику я выше описал, кратко: наука, техника, учебное. То, что нужно людям делающим, исследующим, обучающимся. Ничего, связанного с развлечениями любого рода, отдыхом и непроверенными источниками (вроде лженаучных трудов). Практически вся литература аккуратно отобрана профессионалами, собиравшими исходные коллекции, поэтому в либгене не так нужен рейтинг - там всё пригодное, на более качественном уровне надо консультироваться уже у своих руководителей, начальников, более опытных коллег и т.п., которые знают вашу узкую область.

Форматы стандартно: DjVu, PDF, CHM. Остального менее 10%, приплывает в запакованном виде. В TXT науки не бывает, поэтому там этих файлов исключительно мало.

угу. Лучше это делать после регистрации: все вопросы о контенте мы в закрытых топиках обсуждаем. Рег-ция правда, фолит безбожно, я тут ни причём, причину тоже не знаю, просто в половине случаев письмо активации не приходит, поэтому там есть один подфорум, чтобы можно было написать, какой ник активировать - воспользуйтесь, если будет эта проблема.

Ага, фолит. Отписался.

сори за задержку: Ulenspiegel и arteume активированы.

Кто-нибудь в курсе, почему письма отсылаются почтовиком с сервера, а до граждан не доходят? Илья отправлял с sql.rus.ec, чтобы проверить, есть ли проблема с доменным именем 4-го уровня (gen.lib.rus.ec) - у него та же беда - не приходит письмо. Любое.

Про все не скажу, на mail.ru стоит спамфильтр.

понятное дело, но в спам-отстойник это не попадает тоже. Значит либо домен почтовыми серверами банится и любая корреспонденция срезается до диспетчеризации по ящикам, либо даже не знаю что.

Спам-фильтр не на уровне клиента, а на уровне самого сервера. Не уверен, что пользователь его видит/контролирует.

На мылору вы точно не контролируете спам-фильтр. Было дело, у меня там заблокировали личное письмо - как оказалось просто из-за ссылок в письме (ссылки были на муз-сайты, рунетовские, не варезные и т. п.). Вообще там могут причислить к спаму любое письмо, особенно если адрес отправителя не внесен в вашу адресную книгу (ту, что на самом сайте).

Меня интересует вот какой аксепт. Есть гуманитарные книги в джвю, например кэмбриджская древняя история. Они тоже пойдут в либген? Может быть их есть смысл оставить здесь? Отсюда их удобнее доставать.

безусловно сюда. Установленного разделения либгена и либрусека по форматам нет - оно случается de facto, поскольку нет научных книг без формул.

Если бы это была какая-то монография по антропологической/исторической реконструкции (событий, морфологии чего-нибудь или кого-нибудь и т.п.) - это, несмотря на яркую историческую ориентацию, была бы чисто либгеновская вещь.

Чтобы понять, подходит или нет, достаточно на форуме написать, мы на это глянем, и решим.

bookwarrior написал:
Т.е. интеграцию гораздо проще заменить такой агрегацией, оставив коллекции полностью независимыми.
А нельзя ли организовать в Либрусеке что-то вроде файлов-заглушек (html например), которые можно было бы описать в Либрусеке, как книги (обложки, аннотации и пр.), но при нажатии "скачать" открывалась бы стандартная промежуточная страничка с линком на книгу в Genesis'е?

На либрусеке есть поиск, где вываливаются линки на либген.

В остальном в либгене нет ни обложек, ни аннотаций. Это оценивалось до создания либгена, смысла в этом большого нет, а собирать их - дело неподъёмное. Я вообще не помню, читал ли когда-нибудь аннотацию. Содержание да, а аннотацию... - разве что как одно из возможных мнений. Признайтесь, вы же не купите книгу по аннотации, не глядя на содержание! А вот обратное - регулярная практика.

Обложка в научке - вообще бесполезная трата места. Это в худ.лит., наверное, более актуально.

X