Вопрос по оформлению

Forums: 

Как средствами fb2 оформить данные страницы? Какие будут соображения?

А может не стоит издеваться над книгой и в дежавю ее сделать?

По структуре похоже на технические журналы. В принципе аналогичный подход - ручная разметка страниц в любом OCR. Минусы конкретного варианта - очень некачественный скан не очень хорошего источника(похоже больше на фото) и отсюда плохое распознавание (пример оного ниже). Что потребует ручной правки.
А дальше понять цель работы - сохранение исторического документа или интересного текста. В первом случает pdf или djvu образов страниц с подложенным текстом? Во втором чистый текст в fb2.

(пример прямого распознавания без правки) паружпл панический ужас перед полицией, давал столь бессвязные показании, так изысканно и красноречиво уверил, что ои тут ни при чем, наконец так неожиданно забормотал на допросе по-французски, что полиция подвергла его обыску. Когда сунули руку ему за пазуху, там оказался вчетверо сложенный лист бумаги. Турок, при виде листа, вырвался из рук полиции, успел схватить и оторвать кусок этого листа, сунул его в рот и проглотил. Оставшийся в руках иолиции клочок оказался превосходным планом Бу-Ульгенского кряжа, как раз той его части, где мы с вами находимся. Месторождение свинца было указано на нем совершенно точио и обозначено латинскими буквами. Русским властям стало ясно, что они имеют дело со шпионом, и турок был заключен в Батумскую тюрьму. Но самое любопытное случилось позже.

Когда и камеру арестованного пришли, чтоб вести его на допрос, лицо и грудь ого оказались и крови: у турка был откушен мык. Узнать что-нибудь от него стало совершенно невозможно, и доло о шпионаже на Бу-Ульгене пришлось прекратить. Но свницовое месторождение привлекло наконец внимание нашего правительства, и разработка была начата. В будущем она обещает стать одною из до-ходнейшнх отраслей нашего горного хозяйства.

Очерк мой был бы далеко не полон, если б я не перечислил вам другие богатства нашего края. В первую очередь следует упомянуть о дубильных вещества, нужных кожевенным заводам и в изобилии имеющихся в здешних лесах. Затем следует самшитовое дерево, могущее стать предметом вывоза. Наконец, немалое аиачение имеют граниты, прорезанные пегматитовыми жилами, в которых, весьма вероятно, водятся драгоценные камни, что и собирается выясиить возглавляемая мною научная экспедиция. Если принять во внимание, что часть местных лесов по своей дикости и непроходимости ие без основапня может быть названа девственной, так как в ней пн разу не
была нога культурного человека (за исключением погибшей экспедиции фон Юсса), то мы можем серьезно надеяться на новые богатейшие и неожиданные открытия в будущем.

Проф. Казанков

Цитата:
варианта - очень некачественный скан не очень хорошего источника

Для форума размер картинок уменьшил, поэтому и качество соответствующее. Распознавать данные страницы не нужно.

Значит в первую очередь определить цель.
Например для исторической библиотеки где важен и внешний вид уникальных документов лучший вариант pdf, образы страниц с подложеным OCR текстом.
fb2 на многоколоночный текст не расчитан.
Но в любом случае при распознавании придется вручную размечать области.

Аватар пользователя s_Sergius

chahlik написал:
А дальше понять цель работы - сохранение исторического документа или интересного текста. В первом случает pdf или djvu образов страниц с подложенным текстом? Во втором чистый текст в fb2.

По моему, четкая и правильная формулировка.

Спасибо ответившим. В общем, итог такой: по 1-2 картинке сложностей не будет. Крайние колонки со слогами - всего лишь элемент оформления, который можно проигнорировать. Объявления можно дать картинками или заключить их в тег "cite". С "Протоколом торжественного митинга" сложнее, поскольку он дан как бы с пометками на полях, но и здесь можно что-нибудь придумать. Например, заключить эти пометки в тег "code". Посмотрим, что получится. Еще раз спасибо!

X