Вы здесьТехническая тема о распознавании скриншотов
Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1
Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 2 дня
kopak RE:О группе Дятлова. О той самой, того самого... 3 дня ProstoTac RE:Таинственная личность админа Флибусты 5 дней Isais RE:Кармен Мола - Пурпурная сеть [litres] 6 дней Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 6 дней Isais RE:Катя Водянова - Дом и два жениха в придачу 1 неделя Aleks_Sim RE:Прошу переформатировать, распознать, etc... 2 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 3 недели Саша из Киева RE:Детям о Ленине (Издание 1965 года) 3 недели Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Впечатления о книгах
blahblah про Наумов: Спецзона для бывших (Биографии и Мемуары, Публицистика)
12 02 Неужели хоть кто-нибудь может поверить, что Наумову говорили правду? Сами заключённые ему говорят:"нельзя не перед кем раскрывать душу..", а потом начинают заливаться соловьем? Не верю. Оценка: плохо
obivatel про Калинин: Крым 1942 [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
11 02 Отлично написано: разобраны отдельные эпизоды и ошибки командования. Ну да, и соломинка может сломить спину верблюду, а на войне это бывает особенно часто. . Все изложенные факты общеизвестны и легко доступны в сети, ……… Оценка: отлично!
Belomor.canal про Сергеев: Альбом для марок [litres] (Современная проза, Биографии и Мемуары)
11 02 Великолепная обложка А. Бондаренко - стоит половины содержания книги. Сам же текст - это скорее не роман а ЖЖ, куда автор понапихал всякой всячины - справки выданные его родителям, частушки, присказки и прочая дребедень. Чего ……… Оценка: неплохо
Paul von Sokolovski про Ангелов: Когда время штормит (СИ) (Героическая фантастика, Попаданцы, Самиздат, сетевая литература)
11 02 Пусть будет неплохо, но работающие на связь смартфоны у попададанцев во времена Дрейка просто убивают... Без сотовых вышек, просто автору захотелось :) Оценка: неплохо
mysevra про Чайлд: Третьи врата [The Third Gate ru] (Ужасы, Фэнтези)
10 02 Это было ужасно предсказуемо. "Проклятие" разочаровало, в экспедиции бардак и отсутствие дисциплины, начальник-визионер туповат и ограничен, доктор - садист, с иезуитской нежностью истязающий свою жену, а главный герой оказался ……… Оценка: неплохо
DGOBLEK про Линч: Избранные места из «Экологии лабиринта» [Selected Scenes from the Ecologies of the Labyrinth ru] (Фэнтези)
10 02 На флибе нормальный файл есть, притом давным давно лежит, а не это самодельное убожество - без указания переводчика, оригинального названия и обложки.
udrees про Жак: Нефертити и Эхнатон [Nefertiti et Akhenaton ru] (История, Биографии и Мемуары)
09 02 Небольшая по объему исследовательская книга про знаменитую чету из Древнего Египта. Про Нефертити – супругу фараона Эхнатона – я как-то со школы слышал, а про Эхнатона не очень. В книге автор постарался описать их жизнь и ……… Оценка: плохо
udrees про Мансуров: Под игом чудовища (Боевая фантастика, Героическая фантастика, Эротика, Самиздат, сетевая литература)
09 02 Очень добро написанная книга в жанре фэнтези, ну или близком к нему, магии только нет. Средневековый антураж с его мечами и стрелами после деградации человечества после какой-то катастрофы, случившейся видимо давно. Так давно, ……… Оценка: отлично!
udrees про Мансуров: Под игом чудовищ. Книга 2 (Боевая фантастика, Героическая фантастика, Эротика, Самиздат, сетевая литература)
09 02 Хорошо написанная 2-я книга про события в средневековом антураже, только действие происходит в будущем после какой-то катастрофы, когда люди скатились в варварство. Описания событий хорошие, подробные, сюжет захватывает, по ……… Оценка: отлично!
udrees про Корнев: Аспект белее смерти [СИ] (Фэнтези, Приключения: прочее, Самиздат, сетевая литература)
09 02 Хорошо написанная книга про приключения беспризорника в жестоком фэнтезийном мире. Напоминает чем-то серию книг Шелега Дмитрия «Нелюдь», там такое же описание дна жизни банды малолетних беспризорников в жестоком видимо средневековом ……… Оценка: отлично!
udrees про Корнев: Лед. Кусочек юга (Альтернативная история, Боевая фантастика)
09 02 Прекрасное завершение серии про Льда. Написано все в таком же динамичном стиле, описания хорошие, диалоги тоже не раздражают. Экшен присутствует постоянно, практически без передышек. На сей раз действие по большей части проходит ……… |
Комментарии
Отв: Техническая тема о распознавании скриншотов
Вот мне тоже интересно. Иногда все же получается, но так редко
Отв: Техническая тема о распознавании скриншотов
Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась.
...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного.
Подойдет ли к гуглобуксу - ХЗ.
Отв: Техническая тема о распознавании скриншотов
через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то?
Отв: Техническая тема о распознавании скриншотов
Отв: Техническая тема о распознавании скриншотов
На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий..
Отв: Техническая тема о распознавании скриншотов
Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет.
Отв: Техническая тема о распознавании скриншотов
Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста.
А программка полезная, пригодится.
Отв: Техническая тема о распознавании скриншотов
Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах).
Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150.
Прожка полезная.
Отв: Техническая тема о распознавании скриншотов
Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт?
Отв: Техническая тема о распознавании скриншотов
У меня скриншоты с Адоберидера на ура распознались.
Отв: Техническая тема о распознавании скриншотов
По-английски? Я в данный момент конкретно с английским текстом вожусь.
Отв: Техническая тема о распознавании скриншотов
Нет, на русском.
Шрифты увеличивать пробовали?
Отв: Техническая тема о распознавании скриншотов
Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении.
В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье.
Отв: Техническая тема о распознавании скриншотов
В FastStone Photo Resizer.
1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё.
2. В закладке «dpi» ставим галку и выбираем dpi 150×150.
3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%.
Отв: Техническая тема о распознавании скриншотов
Скриншот выглядит примерно так (уменьшенный, понятное дело):
Распознанный текст вот такой:
Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания.
Лично мне это напоминает диверсию и саботаж.
Отв: Техническая тема о распознавании скриншотов
Стрёмные буквы W в этом шрифте.
А нельзя его поменять в читалке на рубленый (без засечек)?
Отв: Техническая тема о распознавании скриншотов
О, и я о том же.
Отв: Техническая тема о распознавании скриншотов
Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка.
Попробуйте пройтись с обучением. Научить распознавать именно "w".
Отв: Техническая тема о распознавании скриншотов
Используйте Corel Capture и будет вам счасте )
Отв: Техническая тема о распознавании скриншотов
Где взять? Чтоб чего лишнего не прихватить
Отв: Техническая тема о распознавании скриншотов
Скриншот сохранять не в JPEG, а в TIFF.
И потом уже с ним работать.
Отв: Техническая тема о распознавании скриншотов
Хм, а если у меня только в ping сохраняет?