Неправильные книги

Решил вот заменить свою библиотеку, скачанную оттуда-отсюда, на fb2 файлы... Смотрю на Либрусеке (по алфавиту, как у меня книги в папках лежат): Айзек Азимов "Тупик". Здесь вместо него лежит рассказ Генри Каттнера "Порочный круг". Следующая папка - Кевин Андерсон, серия "Сага Семи Солнц". Первые две книги здесь на либрусеке поменяны местами. (названия правильные, текст неправильный). Эта ошибка распространенная, так как в астовском издании в серии "Золотая библиотека фантастики" они тоже поменяны местами. На фензине, кстати, лежит аналогично... Следующая книга Пол Андерсон "Орион взойдет". Скачал, открываю - там только "от автора" и полторы строчки текста... и все.
Люди, имейте совесть, смотрите, что заливаете!
P.S. Сейчас меняю эти книги на правильные.

Комментарии

Цитата:
Следующая книга Пол Андерсон "Орион взойдет". Скачал, открываю - там только "от автора" и полторы строчки текста... и все.

НЕ СКАЧИВАЙТЕ КНИГИ-FB2 В ФОРМАТЕ TXT !!!

rr3 написал:
НЕ СКАЧИВАЙТЕ КНИГИ-FB2 В ФОРМАТЕ TXT !!!

Интересно... А зачем тогда в выпадающем списке есть txt? Для красоты? Или "шоб было"?
...Не поверю, что из fb2 так трудно сделать текст автоматом.

MaxKam написал:
rr3 написал:
НЕ СКАЧИВАЙТЕ КНИГИ-FB2 В ФОРМАТЕ TXT !!!

Интересно... А зачем тогда в выпадающем списке есть txt? Для красоты? Или "шоб было"?
...Не поверю, что из fb2 так трудно сделать текст автоматом.

Сделать нетрудно.
Текущий конвертор использует встроенный в пых парсер XML, который молча падает на любой ошибке.
Всё никак не соберусь переписать.

larin написал:

Текущий конвертор использует встроенный в пых парсер XML, который молча падает на любой ошибке.

А-а. Так вот оно почему не стреляет - не заряжено...
larin написал:

Всё никак не соберусь переписать.

Илья, я вскоре всё равно для одной затеи буду писать на Перле "извлекатель текста из fb2". Без парсера, конечно. Если тебя Перл устроит, можно будет сделать перловую тхт-конвертилку.

pkn написал:
Илья, я вскоре всё равно для одной затеи буду писать на Перле "извлекатель текста из fb2". Без парсера, конечно. Если тебя Перл устроит, можно будет сделать перловую тхт-конвертилку.

Лучше бы перловую xml-проверялку, а в идеале и чинилку.
Глянь parcer.inc, туда встроить внешнюю утилиту будет непросто.

larin написал:

Лучше бы перловую xml-проверялку, а в идеале и чинилку.

Не, это я точно не потяну :(

larin написал:

Текущий конвертор использует встроенный в пых парсер XML, который молча падает на любой ошибке.
Всё никак не соберусь переписать.

Эээ... не замечал. Но в принципе - могу помочь. К тому же - в PHP больше одного xml-парсера.
Другой путь получения txt - выбросить всю разметку регулярным выражением.

Stager написал:
larin написал:

Текущий конвертор использует встроенный в пых парсер XML, который молча падает на любой ошибке.
Всё никак не соберусь переписать.

Эээ... не замечал. Но в принципе - могу помочь. К тому же - в PHP больше одного xml-парсера.

Перловому можно сказать, что ошибки XML нужно игнорировать.
Есть ли такое решение для пыха? Если есть - это было бы идеально, мне проще поменять парсер, чем писать его самому.

Stager написал:
Другой путь получения txt - выбросить всю разметку регулярным выражением.

Получение txt - побочный результат.
Основные задачи, решаемые парсером:
1. Вытаскивание оглавления и обложки
2. Онлайн-чтение
3. Генерация html для выкачки
4. Генерация txt.

rr3 написал:

НЕ СКАЧИВАЙТЕ КНИГИ-FB2 В ФОРМАТЕ TXT !!!

Я скачивал в формате fb2 :) А также открывал онлайн. Одинаково - только одна строчка...

Файл книги "Орион взойдет" - 1082 K. Это при том, что он текстовый, без обложки, иллюстраций и прочих изображений. Подумайте, могут ли полторы строчки текста весить больше мегабайта? Откройте в любом текстовом редакторе, включая "блокнот" - и убедитесь в том, что кроме второй строчки текста есть и третья.

Невалидный, с точки зрения fb2, символ в 42-й строке файла - это, согласитесь, отличается от неполного текста книги.

rr3 написал:
Невалидный, с точки зрения fb2, символ в 42-й строке файла - это, согласитесь, отличается от неполного текста книги.

Правильно, а также с точки зрения программ, fb2 читающих...

Насчет текста - скачивается зип размером 1.22 Кбайта. Почему - Ларин уже ответил, "недостаток конструкции", как говорили в известном фильме :)
Но зип с fb2 скачивается вполне "нормальный" - размером 460 Кбайт. Хотя... Его действительно не могут открыть FBReader и CoolReader, но AlReader все же открывает. Что-то не так...

В данном случае - да, файл полный. Однако нормально его прочитать проблематично. Тот кто делал файл, видимо, не осознал, что теги <> - зарезервированы в XML. В файле в галочки выделены комментарии переводчика. Отсюда и ошибки при открытии - программы думают, что это тег. В любом случае - это ошибка, просто другая. Так что все равно нужно проверять, что создается и заливается...

Marked написал:
Тот кто делал файл...

Файл сделан с помощью LibRusEc kit. Все претензии к злобному тупому компьютеру :)

Ну, тогда уж к программисту. Надо учесть знаки <> в исходном файле (если не html/xml) и заменять их при конвертации на другие скобки... Попробую заменить скобки вручную и перезалить...

Может, кто и Агатой Кристи займется? У нее в половине книг используются знаки <>...

foxm написал:
Может, кто и Агатой Кристи займется?

Точно не я, у меня к детективам весьма негативное отношение(кроме Маклина). Вот фантастика и фэнтези - это пожалуйста...

Потихоньку делаю, но никак не соберусь сделать всё и сразу...

Сделал больше половины файла "ориона", а тут уже выложили нормальную версию... Вот так вот, хочешь сделать, а все равно не дадут. В следующий раз промолчу :)

Marked написал:
Сделал больше половины файла "ориона", а тут уже выложили нормальную версию... Вот так вот, хочешь сделать, а все равно не дадут. В следующий раз промолчу :)

Конечно, это обидно. Но если бы Вы в названии файла, который взялись починять, добавили бы слово "правка" или "вычитка", то вероятность пересечения с кем-либо еще все таки сильно уменьшилась бы.

Гм, не знал, не знал...

Можно попробывать прогнать тексты через FB2Fix. Большая часть невалидных файлов исправляется, правда я не уверен, что он что либо важное в структуре документа не гробит.

sc_pasechnik написал:
Большая часть невалидных файлов исправляется, правда я не уверен, что он что либо важное в структуре документа не гробит.

Не гробит. У rusec-файлов нет структуры. У других файлов правда тоже не гробит ;) Оччень полезная программка.

Попробовал на старой версии "Ориона" - действительно помогло. Правда, программка консольная (по крайней мере та версия, что я скачал). Кстати, в той версии файла, что там появился, нет этих самых примечаний переводчика. Хотя в плане разметки она лучше. Думаю, стоит выложить рядом еще одну версию.

X