Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 часа
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 8 часов Isais RE:Древний Рим. Подборка книг 2 дня Isais RE:Семейственность в литературе 4 дня kopak RE:Таинственная личность админа Флибусты 1 неделя kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя babajga RE:Ласси возвращается домой 1 неделя sem14 RE:Подборка о Первой Мировой 1 неделя Isais RE:удаление "двойников" 1 неделя Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 3 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 4 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 месяц Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц Впечатления о книгах
Lan2292 про Nooby: Торговец (Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
26 02 чЕЛОВЕК ПИСАЛ, ТРАТИЛ ВРЕМЯ, НО К СОЖАЛЕНИЮ НА ВЫХОДЕ ПОЛУЧИЛАСЬ ХРЕНЬ, А Я ЧЕСТНО ПЫТАЛАСЬ ПРОРВАТЬСЯ ЧЕРЕЗ СТРОЧКИ, НО УВЫ И АХ. Оценка: плохо
iggy71 про Маканин: Валечка Чекина (Современная проза)
25 02 Писатель намеревался, видимо, создать загадочный образ провинциалки, "в которой что-то есть", и типа все хотят с ней познакомиться поближе, и она такая себе любвеобильная, духовная и проч. Автор ей симпатизирует, но вот образ ……… Оценка: плохо
konst1 про Рубина: Окна [Авторский сборник] (Современная проза)
25 02 Вдруг Борис заметил: – Между прочим, знаешь ли ты, что еще совсем недавно, в XVIII веке, жители Корнуолла промышляли таким вот способом: в особо сильный шторм выносили на берег большие фонари и расставляли рядами там, ……… Оценка: отлично!
Дей про Господин следователь
25 02 Очень интересно. Детективная и, скажем так, бытовая линии отличные, любовная же не понравилась. Влюбился с первого взгляда, лучше её нет (это ещё даже не разговаривал с ней ни разу), вот эти китайские церемонии с ухаживаниями ………
Олег Макаров. про Капба: Как приручить дракона - 4 [СИ] (Альтернативная история, Киберпанк, Фэнтези, Попаданцы, Самиздат, сетевая литература)
24 02 Капба прекрасен как всегда. Четвёртый том не хуже (лучше!) предыдущих, хотя казалось бы куда ещё. Очень отличная книга. Оценка: отлично!
obivatel про Калинин: Вторая Отечественная [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
24 02 Автор датэл: "если именно благодаря революционерам Россия потеряла шанс выйти из нее в качестве главного победителя". . Если пишешь что-то о периоде, не поленись узнать как оно было. Царя опрокинули крупнейшие промышленники ……… Оценка: плохо
mysevra про Себастьянович: Новая книга о сыроедении, или Почему коровы хищники (Здоровье)
24 02 Подход для таких ленивых как я - нет обязательных самостоятельных чисток. «Мягким тканям потребуется не менее 2 лет, а скелету - около 7.» Непонятно, есть ли это время. Оценка: отлично!
mysevra про Артюшкина: Голем [litres] (Детективная фантастика, Социальная фантастика, Научная фантастика)
24 02 Такой замечательный мир, отличный язык, но невыносимо неспешное развитие событий – кажется вот-вот случится что-то значимое, а нет, очередной проходной момент. Оценка: неплохо
Isais про Абдуллаев: Заговор в начале эры (Исторический детектив, Политический детектив)
24 02 Скучно, нудно, нехудожественно. Вместо живых картин -- картонные декорации, никто из персонажей не вызывает эмоций -- ни любви, ни ненависти, каждый абзац сопровождается таким же по размеру морализаторским поучением, высказанным ……… Оценка: плохо
Nevskaya про Сушков: «Ленинградское дело»: генеральная чистка колыбели революции (Документальная литература)
22 02 Бралась за книгу с трепетом, родная тема, Блокада, Ленинград и все такое... Прочла со стыдом, дочитывала только потому, что не умею бросать начатое. Вранье сплошное, откровенное, бесстыжее, запредельное. Уже много где на форумах ……… Оценка: нечитаемо
Belomor.canal про Акунин: На санях (Современная проза)
22 02 Лучшая, самая лучшая книга Семейной Саги Оценка: отлично!
187 про Царевич: За Отчизну! (История)
21 02 Годная детская книжка, как и Приключения Каспера Берната в Польше и других странах. Оценка: отлично! |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня на памяти только 3 часто встречающихся варианта с "ф":
фоб -гроб
неф - негр
фаната - граната
Отв: Типичные ошибки распознавания - собираем статистику ...
фазу - сразу
Отв: Типичные ошибки распознавания - собираем статистику ...
А если рядом получаются Ь или Ы и любая специфическая буква кириллицы - то тоже крах. : типа -ьф, -шь, -ьш, итд..
Отв: Типичные ошибки распознавания - собираем статистику ...
угу, бьш и бьша у меня просто фавориты из последнего скана.... (был и была)
Отв: Типичные ошибки распознавания - собираем статистику ...
Самая безнадега в распознавании дореформенной орфографии. А Файны всё хвалятся...
Отв: Типичные ошибки распознавания - собираем статистику ...
Как раз сейчас делаю книжку с дореформенной орфографией. Ошибок не больше, чем при обычном скане. Все ошибки типичны и исправляются обычным "Изменить на...".
Отв: Типичные ошибки распознавания - собираем статистику ...
Вам повезло.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не сказал бы, что все так страшно. Дореформенные книги FR9 распознаются вполне на уровне. Яти, фиты, еры и прочее распознаются на ура.
С дореформенными сложность скорее возникает в правке орфографии. Впрочем от скрипта чистящего старую орфографию я бы тоже не отказался бы.)
Отв: Типичные ошибки распознавания - собираем статистику ...
Скрипту совершенно по барабану правила любого языка. Что напишут - то и будет искать
Так что набрасывайте примеров косяков из старой орфографии и пользуйтесь )
Отв: Типичные ошибки распознавания - собираем статистику ...
есть такакая прога ocr pad
статистика там большая вроде
но как её взять не знаю
Отв: Типичные ошибки распознавания - собираем статистику ...
. 1/1 -> . И
Отв: Типичные ошибки распознавания - собираем статистику ...
пропустил своп, (хотя это свои) пропустил па (на) , пропустил слово просплп ( просили)
малень– кой ( маленькой) Поляиовке ( Поляновке ) Дем?нтий (Дементий) M це иске ( Mценске ) поляновски? (поляновские) до– черьми (дочерьми) Лйя (Лия) втот (этот) втот (этот) ваписка (записка) втот (этот) стоа (стон ) Ht (ж) їдейственная (единственная) обрывкн (обрывки) маркиэка (маркизка)
Отв: Типичные ошибки распознавания - собираем статистику ...
В каждой книжке есть свои заморочки.
"Малень- кой", "до- черьми" - не распознан знак переноса.
"Дем?нтий" - скорей всего буква вместо вопросительного знака стояла под ударением.
Надо ли всё это включать в общий скрипт?
Отв: Типичные ошибки распознавания - собираем статистику ...
Стоит включить "- ".
"?" в середине слова ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
"- " вроде тоже ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Часто встречаю: "ведено" вместо "велено", "юнкере" вместо "юнкерс" (второй, вероятно, родственник "Тайме").
Отв: Типичные ошибки распознавания - собираем статистику ...
Внесены добавки в скрипт, согласно многим вашим комментам...
На всякий случай уточняю, что скрипт только ищет подозрительные места, и ничего автоматом не заменяет, во избежание...
Любую строчку можно поправить или отключить, (стерев полностью или закомментировав ее с помощью // )
Не получается запостить корректно все строки скрипта, поэтому просто дам ссылку на обновленную версию:
http://narod.ru/disk/3209760001/Poisk_po_naboru_regexpov_TaKir_2_6.rar.html
Если какие-то еще явные косяки кто вспомнит-придумает - прошу отзываться.
Также прошу комментировать неправильную работу поиска, если такая проявится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сегодня опять "дошлифовала" твоим скриптом новый файл. И это снова повод сказать - огромное спасибо.

Твой скрипт вошёл в число обязательных.
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь. Прицепил этот скрипт на F4. Теперь это одна из «любимых» клавиш.
Отв: Типичные ошибки распознавания - собираем статистику ...
Решил попробовать...
Сразу же несколько вопросов:
Скрипт действует только до первого сомнительного места? Чтобы продолжать, его надо снова включать?
Застрял на слове "хозяин". Сочетание "яи" оказалось слишком частым, и меня это стало раздражать.
Почему-то скрипт останавливается на кавычках - «. Они что, тоже записаны в сомнительные символы?
Частица "б" в текстах используется часто. Надо ли ее включать в скрипт?
А вот что еще можно включить, так это однобуквенные предлоги и частицы с последующей запятой, типа: "в," "б," "о,".
Отв: Типичные ошибки распознавания - собираем статистику ...
Тоже показывает только «, яи и ). Щелкаю минут пять уже и ничего пока другого. :)
Чуть позже:
Находит, кое что, все-таки. Можно пользоваться.:)
Отв: Типичные ошибки распознавания - собираем статистику ...
Я пользуюсь предыдущей версией. Никаких "яи" и прочего упомянутого не заметила.
Может, дело в этом?
Отв: Типичные ошибки распознавания - собираем статистику ...
Согласен, остановки на словах типа «хозяин» несколько раздражают, но никто ведь не мешает убрать из скрипта соответствующую строчку.
А вот если бы он еще и обучался по ходу дела, вообще бы цены не было.
Отв: Типичные ошибки распознавания - собираем статистику ...
В скрипте надо поправить соответствующие строки:
1) чтобы не искало кавычку в начале строки, строку:
addRegExp("^[\]».,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
заменить на:
addRegExp("^[-\\]».,:;!\?·)(]","","Найдено:знаки препинания в начале строки");
2) поправить "хозяина", чтобы не мешал ))
tagRegExp("(яи)[а-м,о-я]","i","Найдено: часть слова \"яи\" (\"ян\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Чтобы не экранировать кавычки (т.е. не ставить рядом с ними слэш), можно снаружи аргумента функции написать одинарные кавычки:
tagRegExp("(?<![а-яё])ке(?![а-яё])","i",'Найдено: слово "ке" ("не" с опечаткой).');
Так исходник скрипта, наверное, будет читаться приятней.
Отв: Типичные ошибки распознавания - собираем статистику ...
Sclex:
Ага, спасибо!
А как все же задать начало или конец слова при поиске в ФБЕ?
стандартные варианты типа >, <, \b что-то не хотят у меня работать...
Отв: Типичные ошибки распознавания - собираем статистику ...
\b работает, но только для английских букв. Ничего лучше, чем (?<![а-яёa-z]), предложить не могу.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Где можно взять Ваш скрипт? И как его использовать? Извините, я с такими вещами не сталкивался и проверял проверкой правописания.
Отв: Типичные ошибки распознавания - собираем статистику ...
Еще ФР часто разрывает аббревиатуры типа "ССС Р"
Отв: Типичные ошибки распознавания - собираем статистику ...
В последнее время книжках в трех с обилием курсива массово встречалось распознавание "рк" вместо "уж"...
Не придумал, как массово контролировать.:(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отличный скрипт! Сам все собирался написать что-то вроде этого, но...
TaKir-у респектище!!! Человек-гигант!
По скрипту: я себе добавил еще вот это:
tagRegExp("(?<![а-яё])мыс(?![а-яё])","i","Найдено: слово \"мыс\" (\"мы с\" с опечаткой).");
tagRegExp("(?<![а-яё])ноты(?![а-яё])","i","Найдено: слово \"ноты\" (\"но ты\" с опечаткой).");
tagRegExp("(?<![а-яё])нотам(?![а-яё])","i","Найдено: слово \"нотам\" (\"но там\" с опечаткой).");
tagRegExp("(?<![а-яё])ода(?![а-яё])","i","Найдено: слово \"ода\" (\"о да\" с опечаткой).");
tagRegExp("(?<![а-яё])яс(?![а-яё])","i","Найдено: слово \"яс\" (\"я с\" с опечаткой).");
tagRegExp("(?<![а-яё])яв(?![а-яё])","i","Найдено: слово \"яв\" (\"я в\" с опечаткой).");
tagRegExp("(?<![а-яё])атак(?![а-яё])","i","Найдено: слово \"атак\" (\"а так\" с опечаткой).");
tagRegExp("(?<![а-яё])итак(?![а-яё])","i","Найдено: слово \"итак\" (\"и так\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
tagRegExp("(?<![а-яё])гак(?![а-яё])","i","Найдено: слово \"гак\" (\"так\" с опечаткой).");
tagRegExp("(?<![а-яё])гут(?![а-яё])","i","Найдено: слово \"гут\" (\"тут\" с опечаткой).");
tagRegExp("(?<![а-яё])тог(?![а-яё])","i","Найдено: слово \"тог\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])гот(?![а-яё])","i","Найдено: слово \"гот\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])еше(?![а-яё])","i","Найдено: слово \"еше\" (\"еще\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Обычно прилипшие тире чистятся скриптом "генуборка", но не все варианты (спасибо shokons за подсказку).
Добавка в скрипт "Поиск по набору регэкспов", автор Sclex для тех случаев, которые генуборка не исправляет:
прилипшие тире:
addRegExp("[A-Za-zА-яЁё][—]","","Найдено: прилипшее тире в конце и середине слова");
addRegExp("[—][A-Za-zА-яЁё]","","Найдено: прилипшее тире в начале и середине слова");
Отв: Типичные ошибки распознавания - собираем статистику ...
Неожиданно.
Грецию -> Грешно
Польши -> Полыни
Отв: Типичные ошибки распознавания - собираем статистику ...
Странно - это только у меня при OCR окончание сти превращется в трейд марк на конце - вместо "сущности" получаем "сущностм
а что есть за tagRegExp? Это в каком редакторе? Я пользуюсь FBE 2.6
Отв: Типичные ошибки распознавания - собираем статистику ...
Я думаю, что это скорее всего, сущности
У меня тоже бывает, когда некоторые буквы распознаются как будто бы они были в верхнем индексе, хотя на самом деле на скане ничего подобного не было. Возможно, тут виноват перекос скана.(Сканировщик сканировал страницу под углом, который FR не смог распознать). Иногда из-за перекоса текст становится курсивным.
Отв: Типичные ошибки распознавания - собираем статистику ...
В принципе можно добавить
tagRegExp("[а-яёa-z]< sup>[а-яёa-z]+?< /sup>|< sup>[а-яёa-z]+?< /sup>[а-яёa-z]","i","Найдено: Найдено: верхний индекс в средней части слова.");
tagRegExp("[а-яё]< sup>[а-яё]+?< /sup>|< sup>[а-яё]+?< /sup>[а-яё]","i","Найдено: Найдено: верхний индекс.");
tagRegExp("< sup>[а-яёa-z]+?< /sup>[а-яёa-z]|[а-яёa-z]< sup>[а-яёa-z]+?< /sup>","","Найдено: верхний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< sub>[а-яёa-z]+?< /sub>|< sub>[а-яёa-z]+?< /sub>[а-яёa-z]","i","Найдено: нижний индекс в средней части слова.");
tagRegExp("[а-яё]< sub>[а-яё]+?< /sub>|< sub>[а-яё]+?< /sub>[а-яё]","i","Найдено: нижний индекс части слова.");
tagRegExp("< sub>[а-яёa-z]+?< /sub>[а-яёa-z]|[а-яёa-z]< sub>[а-яёa-z]+?< /sub>","","Найдено: нижний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< strong>[а-яёa-z]+?< /strong>|< strong>[а-яёa-z]+?< /strong>[а-яёa-z]","i","Найдено: жирность в средней части слова.");
tagRegExp("[а-яё]< strong>[а-яё]+?< /strong>|< strong>[а-яё]+?< /strong>[а-яё]","i","Найдено: жирность части слова.");
tagRegExp("< strong>[а-яёa-z]+?< /strong>[а-яёa-z]|[а-яёa-z]< strong>[а-яёa-z]+?< /strong>","","Найдено: жирность в начале или конце слова.");
tagRegExp("(ыи)","i","Найдено: часть слова \"ыи\" (\"ьш\" с опечаткой).");
--------------------------------
Вот только не знаю - будет ли скрипт тормозить из-за увеличения кол-ва выражений?
Я себе поставил - вроде изменения скорости визуально не заметил, а специально мерить неохота )))
Кстати - по поводу тире.
А где-нибудь нужно, чтобы тире "прилипало" к слову? (текст— текст )
Если нет ( а я так и не вспомнил - где нужно ) то можно регеспом массово: (текст — текст )
([а-яё\d"».,)])([—])(\s)
в замену: $1 — $3
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет это именн превращение в тм!
оставлености получилось оставленное™
захваченности получилось захваченное™
Отв: Типичные ошибки распознавания - собираем статистику ...
Неоднократно тоже встречал такое в ФР.
Отв: Типичные ошибки распознавания - собираем статистику ...
А где теперь дополнение? У меня поход по ссылека приводит к
SearchWithRegexpSet_v21.rar (3.2 КБ)
Файл удален.
Отв: Типичные ошибки распознавания - собираем статистику ...
http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384/e200b7b6f319c4c8
Актуальная на сегодня версия - 2.7.
Скрипт "Поиск по набору регэкспов v2.7":
Скачать:
http://rghost.ru/3955874
или
http://scripts.fictionbook.org/files/SearchWithRegexpSet_v27.rar
Напоминаю, что исходный скрипт не содержит поисковых строк. Их надо скопировать из старой версии, которой вы сейчас пользуетесь и закомментарить следующую строку:
addRegExp("","i","Задайте список регэкспов, отредактировав скрипт в текстовом редакторе (кодировка UTF-8). Инструкция – в скрипте.");
Ускорена работа скрипта.
Теперь у функций addRegExp и tagRegExp появился пятый параметр:
ограничение на длину строки, которую могут находить конструкции просмотра назад, т.е. (?<= ...) и (?
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри, почему-то не отражаются теги. Поставлю пробел после угловой скобки
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Кто-нибудь, выложите пожалуйста скрипт со всеми поисковыми строками, и закомменченый, где нужно... У меня с этим проблемы.
Отв: Типичные ошибки распознавания - собираем статистику ...
Это мой вариант ( со всеми здешними дополнениями) http://ifolder.ru/upload/?session=e304e600145a5b151f77b967e9ab7b2a
Отв: Типичные ошибки распознавания - собираем статистику ...
спасибо..
Страницы