Вы здесьЗа что я ненавижу XML
Опубликовано вс, 08/11/2009 - 20:32 пользователем larin
Наконец-то я смог сформулировать, за что я ненавижу XML. В применении к книгам, очевидно - прочие использования этого незаконнорождённого отпрыска пьяной макаки и запаршивевшего верблюда меня волнуют мало, хотя встречаться с конфигами, где ради одного значения надо написать четыре вложенных тега по полсотни символов тоже удовольствия мало. Да и типичный вебсайт по сути своей от книги мало отличается, а чисто флэшевые поделки лично мне не интересны.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aleks_Sim RE:Ирина Александровна Велембовская - Немцы 7 мин.
monochka RE:Подайте бедному копеечку на книжку с литреса... 3 часа Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 день Саша из Киева RE:Избранное 5 дней Alligatoreader RE:Багрепорт - 2 6 дней fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 1 неделя kopak RE:Таинственная личность админа Флибусты 1 неделя blahblahblah2024 RE:Беженцы с Флибусты 1 неделя sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 1 неделя sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 3 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 недели Oleg V.Cat RE:B343695 Александр. Книга 1 3 недели Isais RE:Калибрятина/Самиздатина 4 недели md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц ejik.v RE:Viva Stiver! 1 месяц Впечатления о книгах
nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее)
27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо
neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться.
Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 11 Так себе чтиво, но не скучно. Оценка: неплохо
Chernovol про Коровин: После «Украины» (Политика, Публицистика)
25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо
sem14 про Лазарис: Белая ворона (Историческая проза)
25 11 Леонид Гомберг 24 июля 2007 Роман известного в Израиле прозаика, поэта и переводчика Владимира Лазариса «Белая ворона» (Тель-Авив: Ладо, 2003) в этом году был включен в «лонг-лист» популярной премии «Букер». И это ……… Оценка: отлично!
decim про Осне Сейерстад
25 11 Попробовала бы Сурайя-реис не подать в суд! Муж бы убил. "Для контекста добавлю, что после публикации книги семья героя подала на Сейерстад в суд за клевету, но после апелляции писательница была признана невиновной, а через ………
tvv про Кич: Большой дом [СИ] (Ужасы, Мистика, Фанфик, Юмористическое фэнтези)
24 11 Совершенно замечательное "Оккультное Простоквашино".
decim про Галинакс: Женщина-рыцарь. Самые необычные истории Средневековья (Исторические приключения, История)
24 11 А вот это уже лучше. Подлинник на сей раз не знаю, а компиляция - явно автор чем-то вдохновлялся, но не ссылается на - получилась годная, и хорошо подобраны иллюстрации. Неплохо. Оценка: неплохо
udrees про Быкова: Школьники «ленивой мамы» (Педагогика, Детская психология)
24 11 Очередная книга про воспитание ребенка, теперь уже в школе. Советы в целом ценные, но явно объем книги их все не может вместить, поэтому думаю можно воспринимать текст как информацию к размышлению, а дальше самим продумывать ……… Оценка: хорошо
udrees про Баковец: Обычная жизнь обычного японца (Фэнтези, Самиздат, сетевая литература)
24 11 Угарная книга про приключения попаданца, оказавшегося в теле японского задрота-клерка. Автор видимо в теме про японское общество, имеется множество описаний нюансов про офисную жизнь, иерархию, привычки японцев, домашний быт. ……… Оценка: хорошо
udrees про Кузичева: Чехов. Жизнь «отдельного человека» (Биографии и Мемуары)
24 11 Довольно большая по объему биография известного писателя. Лично мне показалось, что ее писал театрал, поскольку большая часть книги посвящена театру, постановкам пьес Чехова в театре, реакции публики, трудностям постановки, ……… Оценка: хорошо
udrees про Тесленок: Сладкая История (Фэнтези, Самиздат, сетевая литература)
24 11 Отстой, очередное продолжение гаремника, и что радует – совсем небольшое на 20 страниц с иллюстрациями. Ценности никакой, язык примитивный как валенок. Описание действий как у озабоченного подростка со спермотоксикозом, кругом ……… |
Комментарии
Отв: За что я ненавижу XML
ларин, вы меня сразили. прочитала. поняла, что ничего не поняла. нашла пару знакомых слов: ненавижу, текст, книга. пойду в петлю )))
Отв: За что я ненавижу XML
Не надо в петлю.
Помимо гадкого XML в мире есть масса приятных вещей.
Отв: За что я ненавижу XML
Конечно. Гадкий SGML, например :) По поводу subj - кроме DOMовских парсеров, которые, действительно, пытаются засосать весь текст одним куском и умирают при нарушении структуры, есть еще и SAX2-парсеры. Они позволяют определить пользовательские callback'и при некоторых распространенных ошибках (непарный тег, например). Как бонус- менее ресурсоемки. Как штраф - внутренней организацией разобранного текста приходится заниматься самому.
Отв: За что я ненавижу XML
Это счастье можно прикрутить к пыху, и если да - то как?
Я бы парсер переписал.
Отв: За что я ненавижу XML
Простым образом - нет. Поскольку PHP - интерпретатор, и передать в .so-шку адрес-функции-которую-надо-позвать - проблематично. Есть метода написания на C/C++ расширений для PHP, которая гарантированно позволяет манипулировать переменными, определенными внутри PHP. Позволяет ли она позвать PHP-процедуру - ответить не готов. Если описать требования к такому расширению (например, на входе - имя XML-файла, реакция на незакрытый тег выбирается по содержимому переменной UnclosedTag_Bold, результаты парсинга выводятся в file stream) - готов заняться, но не с очень высоким быстродействием :(
Отв: За что я ненавижу XML
С той же оговоркой готов присоединиться.
ЗЫ: По тем же причинам не люблю fb2 (как разновидность xml).
Source в LaTeX с последующей генераций pdf (размер шрифта по вкусу) рулит (для просмотра можно генерить html)! :)
Отв: За что я ненавижу XML
В parser.inc разве не SAX?
Отв: За что я ненавижу XML
Х.З. Либо не видел, либо не помню. Ссылка есть ?
Отв: За что я ненавижу XML
http://github.com/larin/librusec/blob/master/parser.inc
Отв: За что я ненавижу XML
Угу. Он самый. Хорошая новость - адреса PHP-callback'ов передавать в расширение можно. Плохая - в используемом расширении (обертка expat для PHP, James'а Clark) callback'ов для обработчиков ошибок не обнаружено.
Утверждается, что в 5м PHP встроено расширение для работы с XML, написанное именно вокруг libxml2, с дивной производительностью/надежностью. Проверить сейчас не могу, при хорошем раскладе - завтра утром. Если руки у кого доберутся раньше - отпишитесь, плиз.
2Larin:
1) на сервере какая версия PHP ?
2) кроме плохого самочуствия при невалидном документе, какие ещё недостатки у парсера ?
Отв: За что я ненавижу XML
1. 5.2.11
2. Это главное.
Отв: За что я ненавижу XML
Понял. Ссылку на невалидный документ, на котором падает, можно попросить ?
Отв: За что я ненавижу XML
А если собственно текст положить в
<![CDATA[...]]>
будет все спец. символы игнорировать с остальным согласен.
Отв: За что я ненавижу XML
Иногда думается, что... помимо гадкого XML в мире есть масса ещё более гадких вещей.
Отв: За что я ненавижу XML
МОТОРОЛЛЕР НЕ МОЙ! Я ПРОСТО РАЗМЕСТИЛ ОБЪЯВУ!
Отв: За что я ненавижу XML
Иногда думается, что... помимо гадкого XML в мире есть масса ещё более гадких вещей.
Отв: За что я ненавижу XML
МОТОРОЛЛЕР НЕ МОЙ! Я ПРОСТО РАЗМЕСТИЛ ОБЪЯВУ!
Отв: За что я ненавижу XML
А редактор fb2 из текста пустые строки убирает!
Когда автор разделяет эпизоды пустой строкой, то в скачанной книге, если заливший не додумался вручную пустые строки после конвертации восстановить, начинаешь мучительно соображать, где действие происходит или чья реплика звучит. :(
Отв: За что я ненавижу XML
Потому как с точки зрения XML пустые строки и пробелы - это тоже его внутренние служебные символы, а не часть Текста. А это для него важнее.
Отв: За что я ненавижу XML
Так что, нужна отдельная кодировка? Я не программёр, с XML знакомился "в плане общего развития", но, как я понимаю, создать дополнительный набор символов не такая уж большая проблема - не было в изначальной винде русской кодировки, теперь есть. А в ранешние времена, помнится, русификаторы писались... может и здесь некое подобие "русификатора" надо?
Или сама концепция разметки длинной цепочкой вложенных тэгов не меньше раздражает? Тогда, наверное, вопрос к лингвистам, к тем, кто структурами языков занимается...
В таком разрезе проблема-то получается значительно шире, нежели использование XML при создании fb2... ИМХО.
Все это, конечно, рассуждения дилетанта... :)
Отв: За что я ненавижу XML
Нужно думать головой при создании стандартов. К сожалению, в компьютерной индустрии это не принято.
Я, к примеру, не могу понять, почему у обычного ПК вместо двух видов подключения прочих устройств, проводного с питанием и беспроводного, грубо говоря USB и WIFI, используется больше десятка - PS2, LPT, COM, USB, FireWare, VGA, DVI, WIFI, BlueTooth, infrared, ... - да что там, каждый может пересчитать самостоятельно. И все убогие.
Казалось бы, возьми ты в качестве спецсимвола нечто, что в человеческих текстах не встречается, или встречается крайне редко. Да хоть [[, или там {[{, если не хватает мозгов на какой-нибудь спецсимвол.
Нет, надо забанить несколько нужных знаков. А потом доблестно их эскейпить туда-сюда.
Отв: За что я ненавижу XML
Так все просто же. ровным счетом потому же почему человечество использует все эти пароходы и самолеты и поезда и даже автомобили вместо удобной и простой телепортации. Как, что вы говорите? телепортацию не изобрели еше, да точно...
ну так не поленитесь разложить по шкале времени все эти шины и интерфейсы доступа, чтоб убедится, что появлялись они последовательно и постепенно вытесняя предыдущие формы. Скажем счас комп с ком-портом сильно поискать, то же касается VGA разьемов на видеокарте итд.
Отв: За что я ненавижу XML
Какая шкала времени, ты о чём?
Специально залез под стол посчитать.
На обычном десктопе, с которого я сейчас пишу, на задней стенке 15 разъёмов. Из них 6 USB, взамозаменяемых, все остальные разные. Каждое устройство можно пихнуть только в специальный разъём. Это только проводных, с беспроводными тот же бардак. Да и внутри ещё шесть, SATA+ATA+floppy, три пары разных разъёмов для одной и той же функции.
А должно быть несколько одинаковых, с парой медных контактов для питания + оптика для данных, в один из которых воткнут монитор, и на мониторе ещё несколько таких же, куда вотнута всякая периферия, которая ближе к монитору, чем к CPU. И это не телепортация, это всё уже давно изобретено и работает. Ещё c прошолого тысячелетия.
Пароход, самолёт и автомобиль выполняют разные функции и не взамозаменяемые.
А PS2, ATA, SATA, FireWare, USB и т.п - одну и ту же.
Отв: За что я ненавижу XML
я не знаю что у вас стоит под столом и какие разьемы сзади на корпусе компьютера, но могу предположить что там принтерный порт, пару СОМ портов, порт PS2 для мыши и клавы, возможно еше fireware и esta
А теперь проделайте домашнюю работу - пойдите на гугл, и убедитесь, что компорт и lpt порт появились задолго до usb , то же самое касается и PS2 для мыши и клавы - не было еше ЮСБ в те времена когда появился этот стандарт. И теперь пока он окончательно не вымрет сам по себе - его будут продолжать ставить на матери, чтоб не потерять покупателей которые взяли бы такой продукт будь у него этот разьем.
Та же картина с IDE /SATA - ничего такого что было бы револьюционно новым и приятным для пользователя (обычного пользователя лаптопа или десктопа) в новом SATA нету. Однако у меня в сервере счас 6 винтов по 250 гиг IDE. Ну какой смысл их выбрасывать если они вполне себе работают и не думают даже ломаться, а половина из них еще на гарантии (были времена с 5-ти летней гарантией) поэтому два года назад пересобирая сервер я взял в него мать которая умеет оба.
Так что пока телепорт не изобрели - будете ездить на параходах и автомащинах. А когда изобретут - будете продолжать ездить на них, пока телепорт не вытеснит эти пережитки прошлого
Отв: За что я ненавижу XML
В современных материнках уже практически не бывает LPT. А жаль.
Отв: За что я ненавижу XML
Не совсем так. Убираются только группы из пустых строк, если была одна пустая строка, то она так и останется, а вот если было 2 или более пустых строк, то FBE после скрипта "Генеральная уборка" оставит только 1 пустую строку.
IMHO, совершенно правильно, не к чему плодить много лишних <empty-line/>
на понимание текста не повлияет, одна там пустая строка или две, лишь бы была.
Отв: За что я ненавижу XML
Как уже отмечал - профан есмь! Однако отсканил и вычитал книгу с единичными пустыми строками меж эпизодами, попросил сконвертить - эпизоды слиплись... :( исправляли, как я понял, вручную.
Отв: За что я ненавижу XML
ну дык... то ведь конвертер
виноват, а я-то про редактор.
FBE не конвертит, а редактирует.
Если в редакторе конвертили, то может это был БукДизайнер или ФикшенБукДизайнер но не ФикшенБукЭдитор.
Отв: За что я ненавижу XML
Zadd > FBE не конвертит, а редактирует.
"А вот тут-то мы вас и попгавим!" (L) :)
FBE2 принимает копипаст (по крайней мере, из браузеров и WordViewer'а) с сохранением жирностей/курсивностей. Очень удобно, сам только таким способом и конвертирую. Правда, пустые строки тоже теряет - приходится дорабатывать руками. :(
Отв: За что я ненавижу XML
IMHO, заменить привычный, общеупотребительный двухбуквенный тег BR на десятибуквенный empty-line с ровно тем же функционалом, бессмысленно и беспощадно ухудшив тем совместимость с html, мог только психически альтернативный разработчик.
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
ога! вот оно как! (*радостно прыгает на одной ноге)
не одного меня тошнит от xml.
какой хороший стимул возобновить занятия с форматом nfb.
(*ушел обдумывать план конвертации всех книг в простой текстовый формат)
Отв: За что я ненавижу XML
Отв: За что я ненавижу XML
Вначале было Слово. И Слово было - 2 байта...
И это нам аукается аномально долго.
Отв: За что я ненавижу XML
Вообще-то слово было 4 байта, а 2 байта называлось halfword т.е. полуслово. Потом пришла эра персональных компьютеров, сначала 8-битных(у них слово было байтом 8 бит), потом персоналки c 16-битным словом(2 байта), потом стали понимать 32-разрядные(4 байта), а потом 64-разрядные (8 байтов), но что сейчас называется словом, не в курсе, наверно, так и осталось 2 байта, чтобы сохранить совместимость со старыми программами(проще ввести новые термины DWORD, QWORD и т.д., чем менять ассемблер)
Отв: За что я ненавижу XML
в начале байтом называлась группа бит от 5 до 9, у Кнута виртуальная машина с байтом в 6 бит.
16-битные машины появились до персоналок - PDP-11 (она же СМ-4), например. И именно на них и появилось слово = 16 бит.
Отв: За что я ненавижу XML
про процессоры с не 8битным байтом знаю, также еще был процессор CYBER, у которого байт=слово=60 бит.
Кроме того, есть еще НЕбитовые процессоры, у которых 1разряд не двоичный, а троичный (принимает 3 значения: -1/0/1, очень удобно для параллельных вычислений на суперкомпьютерах(не в курсе, чем именно это удобнее, но читал, что для параллельных вычислений на многопроцессорных суперкомпьютерах это удобнее, чем двоичный бит))
А слово из 4 байт применялось на компьютерах IBM, с которых у нас скоммуниздили серию компьютеров ЕС.
Отв: За что я ненавижу XML
кстати, о птицах. есть интересная метОда, применяемая, злобными монстрами из фирмы микрософт - класть текст отдельно, а разметку и форматирование - отдельно, пусть даже в тот же файл (doc старых версий так устроен). есть некоторые грабли в случае, если текст кто-то поменяет ручками, а блок форматирования не синхронизирует - фактически вся разметка/форматирование идёт по бороде. но при наличии правильных и удобных инструментов возможно обеспечить некоторую гарантию целостности.
проблема тут собственно не в xml. она в другом. сохранится ли ценность текста, если будет утрачена его разметка? не разбивка на абзацы, а именно разметка - где заголовок, где эпиграф, где стихи. опять же, если внедренные иллюстрации потеряются или просто окажутся не на своих местах, то тоже будет мало приятного.
как ни крути, всё сводится к наличию (а точнее отсутствию) правильного инструментария. как только будет сделан стабильный и работоспособный редактор с набором конвертеров - всё распрямится само собой. можно даже оставить в основе это убожество (xml, имел я его ввиду), при условии, что редактор(ы) позволит гарантированно избежать косяков с псевдотегами и нарушением разбивки/форматирования текста.
но всё равно, специализированный формат против универсального однозначно выигрывает.
Отв: За что я ненавижу XML
Не, такой бред как бинарные форматы, которые без спец утилиты ни посмотреть, ни поправить, мы не рассматриваем в принципе. Во времена XT может выгода от прямой загрузки структур в память может и была, хотя не уверен что заметная. С тех пор процессоры стали быстрее в тысячи раз и распарсить любой разумный формат проблем не представляет никаких.
Отв: За что я ненавижу XML
Илья, это подсознание бунтует. :)
Ларин ненавидит xml, xml=fb2, fb2=Грибов, Грибов - копираст, ненавидит Либрусек и Ларина.
Ларин ненавидит xml... :)
Отв: За что я ненавижу XML
Ларин сомневается в xml уже третий год - http://rusec.livejournal.com/11740.html
Грибов тогда про Либрусек и не знал, какая уж там ненависть.
Да и не он XML придумывал, он портил с уже готовой базы.
Отв: За что я ненавижу XML
Портил - это метко сказано.
Отв: За что я ненавижу XML
Бедный Грибов, как его, простите "обосрали", и кто вечно молчащий Ларин... это война ! :)
Отв: За что я ненавижу XML
Грибов создал хоть какой-то стандарт.
Остальные не сделали вообще ничего. В том числе я.
У меня были разработки для личного пользования, но мне даже в голову не пришло довести их до публичного релиза.
А жаль. Оно было заметно удобнее.
Но винить-то некого, ССЗБ.
Отв: За что я ненавижу XML
А что, поезд ушел?
PS Я не даром спрашиваю - у меня сканы трех книг на вычитке, не все ж за меня конвертить будут?
Отв: За что я ненавижу XML
в студию, если сохранилось. или хотя бы тезисы. буратин тут много, мне как минимум человек пять попадалось. и каждый сам по себе. может надо просто объединить усилия? глядишь, коллективный разум сможет родить нормальный жизнеспособный формат.
Отв: За что я ненавижу XML
...нормальный жизнеспособный формат.
Вот объясните мне, пожалуйста, чем плох ХТМЛ как формат для электронных книг?
Отв: За что я ненавижу XML
Я этот вопрос второй год задаю. Ответ и ныне там.
Отв: За что я ненавижу XML
Самостоятельно подумать конечно лен. Диалектика вышла из моды...
Например:
Вас не затруднит привести цитатку из спецификации формата HTML, в которой раскрыта тема классического книжного отображения сносок.
Отв: За что я ненавижу XML
После Вас: приведите такую цитатку из спецификации формата XML.
Нахуй иди, думатель.
Страницы