Вы здесьУчебные материалы на Либрусеке
Опубликовано пт, 15/02/2008 - 05:19 пользователем kirushik
В сообществе МГУ возникла мысль создать централизованную онлайн-коллекцию учебно-научных материалов. И теперь нужна площадка для этого действа. Как многоуважаемая публика отнеслась бы к такому использованию Либрусека?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 14 часов
Isais RE:Древняя Греция. Читаем... 1 день Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 1 день laurentina1 RE:Ирина Александровна Велембовская - Немцы 3 дня Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 6 дней Саша из Киева RE:Избранное 1 неделя Alligatoreader RE:Багрепорт - 2 1 неделя fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 2 недели kopak RE:Таинственная личность админа Флибусты 2 недели blahblahblah2024 RE:Беженцы с Флибусты 2 недели sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 2 недели sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 4 недели Oleg V.Cat RE:B343695 Александр. Книга 1 1 месяц Isais RE:Калибрятина/Самиздатина 1 месяц md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц Впечатления о книгах
kolombok про Попаданец в Таларею
02 12 Детский сад с трахом. В самом начале герою были выданы такие рояли, я думал ну может нормализуется. Я был не прав.
Isais про Крылова: Сказки Деда Мороза (Сказка, Самиздат, сетевая литература)
01 12 На Либрусеке нет тэга "Творчество умственно отсталых графоманов"? Только "Творчество душевнобольных"? Ради такого вот стоило бы завести... Оценка: нечитаемо
Iron Man про Ахмадулина: Свеча (Поэзия: прочее)
01 12 Из интервью с Беллой Ахмадулиной: «— Вы знаете, что останется от моих стихов? Останутся только... письма читателей. Своего литературного значения я никогда не преувеличивала. Я знаю, что была человеком своего времени и ………
S@iRus про Иноходец (Рымжанов)
01 12 У меня сложилось такое же впечатление, как и у Олега, о данной серии.
андрей169 про Шалашов: Господин следователь 1 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
29 11 Забавная книга. Мне лично зашло хорошо. С продолжением обязательно ознакомлюсь. Оценка: хорошо
udrees про Баковец: Не тот господин 3 (Порно, ЛитРПГ, Самиздат, сетевая литература)
29 11 Книга строго для отдыха мозгов, тем кому нравится читать про влажные подростковые фантазии про гарем, воплощенные в реальность, и сексуальные подвиги, перемешанные с фэнтези. Герой настолько крут, что особо не заморачивается ……… Оценка: неплохо
udrees про Михайлов: Без пощады. Книга 3 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
29 11 Последняя книга из серии, но не последняя книга про месть киборга Вертинского. Написано в том же стиле, что и предыдущие книги. Описание во многом уделено экшену, поэтому всегда держит в тонусе, сражения, драки, убийства и ……… Оценка: отлично!
lukmak про Сочинения Иосифа Бродского в 7 томах
29 11 Бродский - гений. А кто его не понимает - что ж... Он непрост. Но, ребята, если вы его не понимаете - может, это ваша проблема?.. И пиндосы тут ни при чём.
nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее)
27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо
neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться.
Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 11 Так себе чтиво, но не скучно. Оценка: неплохо
Chernovol про Коровин: После «Украины» (Политика, Публицистика)
25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо |
Комментарии
Re: Учебные материалы на Либрусеке
+1
Если выкладывают деловые книги, научную, околонаучную и псевдонаучную литературу и, прости Господи, эзотерику, то почему бы не выкладывать учебные материалы?
Re: Учебные материалы на Либрусеке
Еще раз (уже писал) обращаю внимание публики на библиотеку http://ihtik.lib.ru, где множество учебной литературы, а также, что еще более ценно - научная и техническая. Ее тоже совсем неплохо бы закинуть на Либресек, целиком. Скачка там пока свободная, а что завтра будет - неизвестно. Для скачки - там адресная строка и модифицируемый номер, простейший скрипт будет работать - нужен просто хороший канал и ftp. У кого есть возможность перекинуть - подумайте! У меня, с компьютером дома и каналом 128 kbps - такой возможности нет.
Re: Учебные материалы на Либрусеке
Кое-что я у них брал.
К сожалению, это не так просто, как хотелось бы.
Качается-то замечательно, а вот потом начинаются сложности.
Книги повторяются по несколько раз, никакой системы в названиях нет, автоматическая обработка невозможна.
Re: Учебные материалы на Либрусеке
Да, это так. К тому же все в основном djvu, и немного - pdf. Поэтому для массовой выкачки и упорядочения и потребуются добровольцы. Я, вообще, удивлен, что Ихтик еще не прикрыли, с российским рвением и идиотизмом ;). С другой стороны, поразительно, какой труд вложен создателями ресурса в сканирование книг. Жаль будет, если пропадет. Нигде дольше нет такого! Может, не мудрствуя лукаво, просто создать на Либрусеке копию? А систематика - ну ее в баню? Кому надо - разберется ;).
Re: Учебные материалы на Либрусеке
Движок либрусека требует, чтобы у книги было название, авторы, жанр и т.п.
Из всего этого можно автоматом проставить только жанр. Название, авторы и прочая информация у ихтика забита в имя файла, причём неединообразно, автоматической обработке не подлежит. Я замучался всё это богатство причёсывать прорабатывая компьютерный раздел. Одних только дублей было несколько сотен. Причём когда я ему прислал список дублей - он не понял зачем это вообще нужно.
К тому же большая часть ихтика не выложена онлайн, доступна только на dvd.
Было бы неплохо выкупить у них всю коллекцию, причесать, поудалять дубли, проставить метаинформацию - но у меня сейчас на это времени нет. Да и сервер понадобится побольше, большая она очень. Хотя это как раз самое простое.
Re: Учебные материалы на Либрусеке
Можно выкладывать, я не против.
Подумайте какой функционал для того потребен будет.
Re: Учебные материалы на Либрусеке
Вообще было бы неплохо перекинуть на либрусек библиотеку колхоза
(lib.homelinux.org) А то ее состояние(пароли и общее удобство пользования) вызывает некоторые опасения...
Re: Учебные материалы на Либрусеке
Возьмёшься?
Re: Учебные материалы на Либрусеке
А вот и ещё идея - раздел (просто пост, скажем), в котором вывешены текущие нужды библиотеки. Типа "Вон хттп://там лежат книги, их надо понемножку перевести к нам" или "Нужен такой модуль к Друпалу, который делает такую кнопку, от которой всем сразу становится хорошо". Эти задачи ставит только руководство:), а пользователи-волонтёры отмечаются и берутся решать ту или иную.
Таким образом достаточно много народу можно мобилизовать, ИМХО. Из тех, кто просто не знает, как бы можно было поучаствовать...
Я сам попытаюсь организовать МГУшную движуху, чтобы просто продумать, что нам конкретно понадобится. И потом, вероятно, и буду это реализвывать.
---------
Терминаторы апокалипсис предотвращали-предотвращали, да не выпредотвратили; никак апокалипсис не предотвратить, не перепредотвратить, не перевыпредотвратить.
Re: Учебные материалы на Либрусеке
У библиотеки нужд нет. Ну, почти. Так, отлов багов.
Нужды у пользователей - для того есть раздел на форуме http://lib.rus.ec/forums-6
Можно выбирать любую и слать патчи. Исходники доступны.
Re: Учебные материалы на Либрусеке
А, да. Форум же есть. Виноват, не приметил:)
А под "библиотекой" я понимаю не только собственно сайт, но и его посетителей. (Их-то нужды я и имел в виду)
---------
Терминаторы апокалипсис предотвращали-предотвращали, да не выпредотвратили; никак апокалипсис не предотвратить, не перепредотвратить, не перевыпредотвратить.
Re: Учебные материалы на Либрусеке
А поделить работу никак нельзя..?
Я возмусь сделать из основного индекса http://lib.homelinux.org/_djvu/_catalog/index_1.html, и всех страничек типа http://lib.homelinux.org/_djvu/_catalog/index_2.html ,
большой индексный текстовой файл, легко парсируемый где в каждой строке автор, название, год выпуска, тип файла, язык, ссылка для wget-a.
Потом можно сделать скрипт который с того индекса заливает книжки в либрусеке и базу - но ето лучше сделать с твоей стороны - проще будет (не надо возиться с роботом который заливает на ftp, потом емулирует браузер для заливки каждого файла в либрусека и пр). И, бессмысленно сливать гигы с колхоза локально (он и без того у меня больно медленный) и потом обратно аплоадить в либрусеке.
Re: Учебные материалы на Либрусеке
Логично.
Если будет легко парсируемый файл, то выкачать уже не составит проблем.
Давай.
Еще бы как-нибудь про дубли подумать...
Можешь заодно и ихтиком заняться, той его частью, которая выкачивабельна.
Re: Учебные материалы на Либрусеке
Договорились.
Ихтик пока не хочу, там не вижу метод автоматически отделять имя автора от имя книги... Обычно разделены дефисом " - " но не всегда, имхо много хлама будет.
Re: Учебные материалы на Либрусеке
Там не только отделять.
Там может быть Иван Иванов, может Иван Иванович Иванов, может быть Иванов Иван Иванович и т.п.
А уж когда несколько авторов, что часто для научной литературы - совсем весело.
Я аж в скрипт загнал часто встречающиеся имена и фамилии, чтоб он хоть как-то разбирался.
Нужен ли народу неестественный интеллект? Имхо не нужен.
Придётся ждать, пока ихтик осознает необходимость следования стандарту. (любому - лишь бы одному)
Re: Учебные материалы на Либрусеке
Колхоз:
Сделал индекс и залил на ftp, в директорию /kolhoz-superindex. Инструкции там же.
Я сохранил классификацию колхоза в одно из полей, она очень хороша для поиска (типа поиск "Differential geometry"... и получил все книжки). Можно наверное создать новые "научные жанры", либо добавить к имени книжки /первое, конечно лучше/. Можешь и ее игнорировать.
Иначе обычный текстовой файл, каждая строка - книжка. Удобно парсить с awk и пр.
Я перекодировал кирилицу с 1251 на utf, надеюсь проблемы не будут.
Если найдешь глюки или что-либо нужно изменить - скажи, перегенерю как надо /теперь ето просто/.
Когда свой скрипт делаешь, обрати внимание на трансакционность... Колхоз довольно шаткий, нельзя рассчитывать что будет доступен или ошибки ни возникнут... У меня качается очень и очень медленно (1-5К/s). Тут только cron спасет.
Re: Учебные материалы на Либрусеке
запустил выкачку.
мда, скорость ужасна.
выкачиваться такими темпами будет не один месяц :(
ладно, пусть качается.
Может проверишь как-нибудь список на предмет дублей? Хотя бы крупные файлы чтоб не перекачивать.
Re: Учебные материалы на Либрусеке
Дублей не должно быть. (внутри самого индекса, конечно - иначе насчет либрусека не знаю....)
Вот проверяю по уникальность имени файла внизу.
Но оказывается, проскользнули несколько "пустых" строк /без файла для скачки, может другое есть.../, скрипт что-то не так пропарсил или у них были пустые строки в таблиц.
Все же делай простую верификацию...
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | wc -l
20886
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq | wc -l
20833
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq -d
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq -d | wc -l
37
manul@siduxbox:~/piratek/homelinux$ cat kolhoz-superindex.txt | wc -l
20886
manul@siduxbox:~/piratek/homelinux$ cat kolhoz-superindex.txt | uniq | wc -l
20886
manul@siduxbox:~/piratek/homelinux$
Кстати, прежде когда я заливал файлы через ftp (много fb2 упакованные в zip) твой скрипт отлова дублей отлично работал предоставляя вручную разборку дублей или подозрительных.
Теперь ето не работает... Все заливается молчаливо. И точно дубли появляются каждый раз...
Нельзя ли восстановить ето, когда у тебя время есть. Так хорошо было;)
Re: Учебные материалы на Либрусеке
интересно именно насчёт либрусека.
чтобы не тянуть то, что уже есть. бо долго
хотя бы самые толстые файлы проверить
пустые строки моему скрипту пофиг, сожрёт
дуполовку посмотрю.
Re: Учебные материалы на Либрусеке
Насчет либрусека думаю много не будут... Не так уж много у тебя научной литературы.
Иначе несколько точно есть... Я залил Хофштадтера и Пенроуза с колхоза же.
Но 20000 книг вручную не проверить?
Насчет размеров.. Там вообще почти все файлы толстые, не шутка. Total size of collection: 80 гига...
Re: Учебные материалы на Либрусеке
80 гиг текущими темпами (1K/s) будет качаться больше трёх лет...
Если поднимется до 5, как у тебя - управимся за год.
Как-то это неправильно, тебе не кажется?
Re: Учебные материалы на Либрусеке
;) Неправильно конечно.
Они весь уикенд были в дауне, я сегодня 1 день только html-индексы качал чтобы пропарсить.
С другой стороны я думаю они специально лимитят скорость... Для всех IP или только для зарубежных не знаю.
Можешь попытаться связаться с ними чтобы предоставили тебе канал потолще... Или лучше выслать все по почте;)
Re: Учебные материалы на Либрусеке
Чего то исчезли "Последние поступления".. /только первая страница, остальные нормально/.
Re: Учебные материалы на Либрусеке
Хоть одна книжка за день скачалась с колхоза?
В каком жанре у тебя они поступать будут, а то не видно....
Re: Учебные материалы на Либрусеке
Да, работа там большая. Но в принципе, если брать за имя автора (или сериала ;) просто первое слово строки, то процентов на 90 это решит вопрос. А 10%, конечно, будет хлам. Однако, во-первых, это не будет хуже, чем на самом Ихтике, а намного лучше ;) - все же по авторам сортировка получится. Во-вторых же, потом понемногу разгребем мусор вместе. Только для этого нужно будет на Либрусеке разместить материалы с Ихтика в отдельных разделах как-то, не мешать авторов в общую кучу. Вот тогда и я охотно помогу - когда качать не надо, а можно на месте почистить мусор. На первых порах можно английские/латинские названия исключить вообще, ограничившись только русскими - там гораздо лучше упорядочено - автор почти всегда на первом месте.
ЗЫ. Лучше я знаком с разделом "Электроника", и предложения мои - в основном основаны на нем. Но во всех разделах как будто похоже в смысле мусора. Насчет ряда разделов (например, "Восточные учения, эзотерика, теософия, оккультизм, каббалистика и т.п.") можно не торопиться ;). Пусть меня назовут скептиком (или еще как ;), но, ИМХО, эта чушь не нужна вообще, ни там, ни тут. Опасная чушь, более того. Далеко не каждый может позволить себе риск читать это. ИМХО, конечно.
Re: Учебные материалы на Либрусеке
По учебным материалам советую глянуть на http://dmbooksprog.narod.ru/
Установка очень простая а литературы огромное количество
Re: Учебные материалы на Либрусеке
(ихтик) Много ручной работы.
1) Описания файлов могут не соответствовать содержимому файла.
2) Файл внутри архива может быть испорчен, как правило, из-за неполного скачивания.
3) Внутри архива может оказаться не сама книжка, а только её оглавление.
4) Много архивов, содержащие отдельные статьи, похожих на "Тезисы доклада 'к вопросу о что-то-там-в-носу'".
Re: Учебные материалы на Либрусеке
Нельзя все книги, например, по математике, когда их будет действительно много, держать в одном "разделе" sci_math. Для того, чтобы найти что-то подходящее, придётся просмотреть весь раздел. Либо надо делать древовидную систему жанров, либо делать поиск, например, по ключевым словам, либо делать механизм для работы с УДК, либо ёще что-то.
Во времена, когда не было компьютеров,
если надо было найти книгу в обычной библиотеке, то в каталоге искалась карточка. Если книги нет или она "на руках", с карточки переписывался УДК (или его узнавали заранее), затем просматривались в каталоге все карточки книг с похожими УДК, и подбиралась книжка (и не одна!) нужной темы.
Т.е. нужен некий механизм поиска, которые сократит список найденных книг "по теме" до разумного размера.
Нынешних поисков -- по жанру, по автору и по названию не хватает.