Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 5 часов
Isais RE:Древний Рим. Подборка книг 2 дня NickNem RE:Подайте бедному копеечку на книжку с литреса... 4 дня Isais RE:Семейственность в литературе 4 дня kopak RE:Таинственная личность админа Флибусты 1 неделя kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя babajga RE:Ласси возвращается домой 1 неделя sem14 RE:Подборка о Первой Мировой 1 неделя Isais RE:удаление "двойников" 1 неделя Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 4 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 4 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 месяц Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц Впечатления о книгах
Lan2292 про Nooby: Торговец (Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
26 02 чЕЛОВЕК ПИСАЛ, ТРАТИЛ ВРЕМЯ, НО К СОЖАЛЕНИЮ НА ВЫХОДЕ ПОЛУЧИЛАСЬ ХРЕНЬ, А Я ЧЕСТНО ПЫТАЛАСЬ ПРОРВАТЬСЯ ЧЕРЕЗ СТРОЧКИ, НО УВЫ И АХ. Оценка: плохо
iggy71 про Маканин: Валечка Чекина (Современная проза)
25 02 Писатель намеревался, видимо, создать загадочный образ провинциалки, "в которой что-то есть", и типа все хотят с ней познакомиться поближе, и она такая себе любвеобильная, духовная и проч. Автор ей симпатизирует, но вот образ ……… Оценка: плохо
konst1 про Рубина: Окна [Авторский сборник] (Современная проза)
25 02 Вдруг Борис заметил: – Между прочим, знаешь ли ты, что еще совсем недавно, в XVIII веке, жители Корнуолла промышляли таким вот способом: в особо сильный шторм выносили на берег большие фонари и расставляли рядами там, ……… Оценка: отлично!
Дей про Господин следователь
25 02 Очень интересно. Детективная и, скажем так, бытовая линии отличные, любовная же не понравилась. Влюбился с первого взгляда, лучше её нет (это ещё даже не разговаривал с ней ни разу), вот эти китайские церемонии с ухаживаниями ………
Олег Макаров. про Капба: Как приручить дракона - 4 [СИ] (Альтернативная история, Киберпанк, Фэнтези, Попаданцы, Самиздат, сетевая литература)
24 02 Капба прекрасен как всегда. Четвёртый том не хуже (лучше!) предыдущих, хотя казалось бы куда ещё. Очень отличная книга. Оценка: отлично!
obivatel про Калинин: Вторая Отечественная [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
24 02 Автор датэл: "если именно благодаря революционерам Россия потеряла шанс выйти из нее в качестве главного победителя". . Если пишешь что-то о периоде, не поленись узнать как оно было. Царя опрокинули крупнейшие промышленники ……… Оценка: плохо
mysevra про Себастьянович: Новая книга о сыроедении, или Почему коровы хищники (Здоровье)
24 02 Подход для таких ленивых как я - нет обязательных самостоятельных чисток. «Мягким тканям потребуется не менее 2 лет, а скелету - около 7.» Непонятно, есть ли это время. Оценка: отлично!
mysevra про Артюшкина: Голем [litres] (Детективная фантастика, Социальная фантастика, Научная фантастика)
24 02 Такой замечательный мир, отличный язык, но невыносимо неспешное развитие событий – кажется вот-вот случится что-то значимое, а нет, очередной проходной момент. Оценка: неплохо
Isais про Абдуллаев: Заговор в начале эры (Исторический детектив, Политический детектив)
24 02 Скучно, нудно, нехудожественно. Вместо живых картин -- картонные декорации, никто из персонажей не вызывает эмоций -- ни любви, ни ненависти, каждый абзац сопровождается таким же по размеру морализаторским поучением, высказанным ……… Оценка: плохо
Nevskaya про Сушков: «Ленинградское дело»: генеральная чистка колыбели революции (Документальная литература)
22 02 Бралась за книгу с трепетом, родная тема, Блокада, Ленинград и все такое... Прочла со стыдом, дочитывала только потому, что не умею бросать начатое. Вранье сплошное, откровенное, бесстыжее, запредельное. Уже много где на форумах ……… Оценка: нечитаемо
Belomor.canal про Акунин: На санях (Современная проза)
22 02 Лучшая, самая лучшая книга Семейной Саги Оценка: отлично!
187 про Царевич: За Отчизну! (История)
21 02 Годная детская книжка, как и Приключения Каспера Берната в Польше и других странах. Оценка: отлично! |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
странно.. у меня ОК
УПД: ЕСЛИ У ТЕБЯ ТАМ НЕРАЗРЫВНЫЙ ПРОБЕЛ, то тогда понятно, да
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня вообще находит один раз из трёх "но", которые я поставила в строку. Не понимаю. :((((
Нет, какой же неразрывный, я от руки написала строку.
Ладно, отложим. Не получается. :(((
Доделаю книгу, буду дальше пробовать. Спасибо сирамно. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот такую строчку отлично проверил
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня теперь тоже. Кстати, скрипт Алдио с запятой тоже всё у меня нашёл.
Но "точка, тире, буква" более комплексный. Там можно не только знак препинания менять, но и регистр буквы. И у него обзор лучше.
Скрипт Алдио хорош для второго прогона и, как я уже писала, для нахождения пропущенной точки. Это важно.
Коллеги, я получаю огромное удовольствие от того, как совместными усилиями мы улучшаем качество наших книг. Для меня огромная честь и радость общаться со всеми вами!

Отв: Типичные ошибки распознавания - собираем статистику ...
як, вместо я к
Отв: Типичные ошибки распознавания - собираем статистику ...
А если добавить:
", по" - найдем все не правильно распознанные ", но"...
TaKir Такой вопрос - может имеет смысл перенести "ыи" поиск сочетания только в конце слова?
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Иногда встречается "ыо" вместо "ью".
Отв: Типичные ошибки распознавания - собираем статистику ...
Это, по-моему, есть в первоначальном варианте...
Отв: Типичные ошибки распознавания - собираем статистику ...
Пробовал ставить поиск "фа"->"гра" - хватило меня на 2 минуты - слишком много ошибочных нахождений...
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Подтверждаю. И ещё фуппа - группа и Уильяме - Уильямс.
Отв: Типичные ошибки распознавания - собираем статистику ...
Из этой же серии встретилась фация - грация.
Отв: Типичные ошибки распознавания - собираем статистику ...
если книжка про войнушку, можно прогнать поиском по слову фанат, и посмотреть что найдется... давно так делаю
Отв: Типичные ошибки распознавания - собираем статистику ...
Фраза "open the window" была распознана как "орёл не видел"
Отв: Типичные ошибки распознавания - собираем статистику ...
Лучше было язык распознавания задать английский, тогда не стал бы по-русски распознавать.
FR тем и хорош, что можно любую область распознать отдельно от других и каждой области распознавания задать свой язык - очень помогает при распознавании многоязычных текстов, особенно там, где не только русско-английский, но и другие языки присутствуют.
Отв: Типичные ошибки распознавания - собираем статистику ...
Точка в середине предложения (мусор, неправильная запятая).
Отв: Типичные ошибки распознавания - собираем статистику ...
... ловится скриптом "Слипшиеся слова".
Отв: Типичные ошибки распознавания - собираем статистику ...
Попробовал. Чевой-то неудобным он мне показался. Два слова только показывает, надо все равно по тексту проверять, вариант замены вручную править. Запихнуть бы это дело в Единый Великий Скрипт :))
Отв: Типичные ошибки распознавания - собираем статистику ...
Насколько я понимаю, не все знают КАК добавить в Единый скрипт тот или иной регесп.
Попробую описать максимально просто:
1. Скачиваем или открываем скрипт.Я поместил его в папку чистка: FictionBook Editor - Scripts - 06_Чистка
2. Открываем его при помощи блокнота: Рекомендую Notepad++. В нём нерабочие строки будут выделяться зелёным цветом:
3. Читаем комментарий. (комментарий кончается словами : -------------начало блока TaKir - регэкспы:--------------- )

Если категорически непонятно - пропускаем.:
4. Вставляем нужный или скопированный регесп из этой темы. Для удобства выделите его пустыми строками ( они в данном случае никакой роли не играют):

5. Жмём на "Сохранить"
6. Пробуем
Ещё немного:

Для удобства можно вывести ярлык этого скрипты на рабочий стол и редактировать его по мере необходимости. Скрипт начинает работать сразу по сохранению. Перезапускать FBE не требуется
Ненужный регэсп можно отключить, поставив в начале строки два слеша (//). В Notepad++ эта строчка изменит цвет на зелёный. Сохраняем.
Отв: Типичные ошибки распознавания - собираем статистику ...
Дело в том, что этот скрипт ловит намного больше, чем точку в середине предложения. У меня он - в списке обязательных скриптов. Ну и заодно и точку ловит. ;)
Отв: Типичные ошибки распознавания - собираем статистику ...
Ага. У меня просто скан попался такой, вот этих самых точек много. Показалось проще вылавливать поиском [а-я][.] [а-я], учит. регистр, рег. выражения. А так многие скрипты пользую.
Да, и wotti спасибо за это:
Не знал.
А, еще вспомнил по случаю - вот этого скриптика у Вас не завалялось случаем? А то потерялся у меня, теперь вспоминаю с тоской:))
Отв: Типичные ошибки распознавания - собираем статистику ...
http://www.multiupload.com/RWM7NPFQ5R
Отв: Типичные ошибки распознавания - собираем статистику ...
Благодарствую:))
Отв: Типичные ошибки распознавания - собираем статистику ...
Туда же можно засунуть конструкцию "[а-я] — [А-Я]" с учётом регистра (т.е. "i" убрать). Отлавливает места, где в диалогах пропала точка.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ну и до кучи ", — [А-Я]" с учётом регистра (т.е. "i" убрать). Отлавливает места, где в диалогах запятая вместо точки.
Отв: Типичные ошибки распознавания - собираем статистику ...
addRegExp("[а-я] — [А-Я]","","Найдено: возможно, пропущена точка в диалоге");
addRegExp(", — [А-Я]","","Найдено: возможно, запятая вместо точки в диалоге");
addRegExp("[а-я] но ","i","Найдено: -но- после слова и в обрамлении пробелов, скорее всего нужно -по-");
Отв: Типичные ошибки распознавания - собираем статистику ...
Yeeeeessss!

Спасибо, Алдио!
Wotti, и тебе.
Отв: Типичные ошибки распознавания - собираем статистику ...
с запятой почему-то не работает. Завтра посмотрю :-)
Отв: Типичные ошибки распознавания - собираем статистику ...
Запятую отлично ищет тот скрипт, о котором я писала - "точка тире буква", а вот пропущенную точку только что нашла с твоим скриптом. Кла-а-а-а-ассс!!!
Отв: Типичные ошибки распознавания - собираем статистику ...
addRegExp("[,] [—] [А-ЯЁ]","","Проверка знака припинания");
Отв: Типичные ошибки распознавания - собираем статистику ...
Странно... не работает с запятой. Чудеса. Ладно, утро вечера мудренее :-)
А, не. Понял.
После "Генеральной уборки" пробел после запятой и перед тире похоже превращается в неразрывный. И соответственно более не находится. Как в скрипте указать неразрывный пробел?
Про точка-три-буква понял,. Раньше не пользовался. Буду :-)
Отв: Типичные ошибки распознавания - собираем статистику ...
Включи режим отображения неразрывных пробелов в настройках
Скопируй в сорцах неразрывный пробел
Вставь в скрипт
У меня так:
addRegExp(",□— [А-Я]","","Найдено: возможно, запятая вместо точки в диалоге");
УПД.
Некоторые регэспы лучше делать в 2-х видах: с простым и с неразрывными пробелами, чтобы ловил оба варианта
Отв: Типичные ошибки распознавания - собираем статистику ...
Co-o-o-o-ol! Тоже работает.
Вот переделаю все-все-все книги и засяду тренироваться писать регэкспы. Да.
Отв: Типичные ошибки распознавания - собираем статистику ...
Если у вас последняя версия скрипта, то неразрывный пробел в регэкспе можно записать так: \xA0 , тогда он будет корректно искаться независимо от того, какое его отображение выбрано в настройках.
Отв: Типичные ошибки распознавания - собираем статистику ...
О, спасибо! Теперь и после "Ген. уборки" работает. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Тоскливо перечитал фразу и подумал, сколько ещё можно умного узнать, если бы.. но... Ну и фигсним )))
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Спасибо! :-)
Отв: Типичные ошибки распознавания - собираем статистику ...
Тема открыта уже полгода...
Сам пользуюсь двумя - "Поиск по набору регэкспов TaKir 24_01_2011" и "своим", подсмотренным здесь:
[collapsed title=открыть]addRegExp("[а-яё][А-ЯЁ]","","Найдено: смесь регистров");
addRegExp("[А-ЯЁ][А-ЯЁ][а-яё]","","Найдено: смесь регистров");
tagRegExp("(?<![а-яё])ои(?![а-яё])","i","Найдено: слово "ои" ("он" с опечаткой).","",1);
tagRegExp("(?<![а-яё])го(?![а-яё])","i","Найдено: слово "го" ("по или то" с опечаткой).","",1);
tagRegExp("(?<![а-яё])нот(?![а-яё])","i","Найдено: слово "нот" ("пот" с опечаткой).","",1);
tagRegExp("(?<![а-яё])газ(?![а-яё])","i","Найдено: слово "газ" ("гав или таз" с опечаткой).","",1);
tagRegExp("(?<![а-яё])гав(?![а-яё])","i","Найдено: слово "гав" ("газ или таз" с опечаткой).","",1);
tagRegExp("(?<![а-яё])щей(?![а-яё])","i","Найдено: слово "щей" ("шеи" с опечаткой).","",1);
tagRegExp("(?<![а-яё])ато(?![а-яё])","i","Найдено: слово "ато" ("а то" с опечаткой).","",1);
tagRegExp("(?<![а-яё])ито(?![а-яё])","i","Найдено: слово "ито" ("и то" с опечаткой).","",1);
tagRegExp("(?<![а-яё])тою(?![а-яё])","i","Найдено: слово "тою" ("того" с опечаткой).","",1);
tagRegExp("(?<![а-яё])вамп(?![а-яё])","i","Найдено: слово "вамп" ("вами" с опечаткой).","",1);
tagRegExp("(?<![а-яё])попятно(?![а-яё])","i","Найдено: слово "попятно" ("понятно" с опечаткой).","",1);
tagRegExp("(?<![а-яё])отда(?![а-яё])","i","Найдено: слово "отда" ("отца" с опечаткой).","",1);
tagRegExp("(?<![а-яё])конда(?![а-яё])","i","Найдено: слово "конда" ("конца" с опечаткой).","",1);
tagRegExp("(?<![а-яё])лидами(?![а-яё])","i","Найдено: слово "лидами" ("лицами" с опечаткой).","",1);
tagRegExp("(?<![а-яё])аза(?![а-яё])","i","Найдено: слово "аза" ("а за" с опечаткой).","",1);
tagRegExp("(?<![а-яё])пей(?![а-яё])","i","Найдено: слово "пей" ("ней" с опечаткой).","",1);
tagRegExp("(фан)","i","Найдено: часть слова "фан" ("гран" с опечаткой).","",1);
tagRegExp("[а-яёa-z]<strong>[а-яёa-z]+?</strong>|<strong>[а-яёa-z]+?</strong>[а-яёa-z]","i","Найдено: жирность в средней части слова.");
tagRegExp("[а-яё]<strong>[а-яё]+?</strong>|<strong>[а-яё]+?</strong>[а-яё]","i","Найдено: жирность части слова.");
tagRegExp("<strong>[а-яёa-z]+?</strong>[а-яёa-z]|[а-яёa-z]<strong>[а-яёa-z]+?</strong>","","Найдено: жирность в начале или конце слова.");
tagRegExp("[а-яёa-z]<sup>[а-яёa-z]+?</sup>|<sup>[а-яёa-z]+?</sup>[а-яёa-z]","i","Найдено: Найдено: верхний индекс в средней части слова.");
tagRegExp("[а-яё]<sup>[а-яё]+?</sup>|<sup>[а-яё]+?</sup>[а-яё]","i","Найдено: Найдено: верхний индекс.");
tagRegExp("<sup>[а-яёa-z]+?</sup>[а-яёa-z]|[а-яёa-z]<sup>[а-яёa-z]+?</sup>","","Найдено: верхний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]<sub>[а-яёa-z]+?</sub>|<sub>[а-яёa-z]+?</sub>[а-яёa-z]","i","Найдено: нижний индекс в средней части слова.");
tagRegExp("[а-яё]<sub>[а-яё]+?</sub>|<sub>[а-яё]+?</sub>[а-яё]","i","Найдено: нижний индекс части слова.");
tagRegExp("<sub>[а-яёa-z]+?</sub>[а-яёa-z]|[а-яёa-z]<sub>[а-яёa-z]+?</sub>","","Найдено: нижний индекс в начале или конце слова.");
[/collapsed]Так вот... - есть у кого готовые и работающие наработки?
А так же, желание поделиться? :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Выложите кто-нибудь готовый скрипт со всеми наработками, please.
Отв: Типичные ошибки распознавания - собираем статистику ...
Мой http://ifolder.ru/24492734
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо!
Отв: Типичные ошибки распознавания - собираем статистику ...
И от меня спасибо.
Wotti тоже собирался делать, хотела как раз его просить включить ещё два "моих" слова ко всем уже перенятым:
"Уильяме" вместо "Уильямс"
и
"поддерев" вместо "под дерев" (склеиваются почему-то только "под деревом" или "под деревьями"; причём "поддеревом" даже не распознаётся как орфографическая ошибка - ни в ФР, ни в ФБЕ).
Может, кому-нибудь тоже пригодится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сейчас делаю книжку и постоянно натыкаюсь: "Ухты" вместо "Ух ты", "Ивам" вместо "И вам", "1" в конце предложения вместо "!"
Отв: Типичные ошибки распознавания - собираем статистику ...
Ну, "1" выловит как "смесь букв и цифр", а остальные, если регулярно встречаются, можно добавить (по аналогии с уже существующими), а потом отключить. Я часто так делаю для конкретной книги.
Отв: Типичные ошибки распознавания - собираем статистику ...
Типичные ошибки для данной книги можно найти и обычным поиском. Но сочетания "И вам" и "Ух ты" не так часты и в любой другой книги могут оказаться незамеченными.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ну так включите эти случаи в свой вариант скрипта. ;)
tagRegExp("(?<![а-яё])ивам(?![а-яё])","i","Найдено: слово "ивам" ("и вам" с опечаткой).","",1);
tagRegExp("(?<![а-яё])ухты(?![а-яё])","i","Найдено: слово "ухты" ("ух ты" с опечаткой).","",1);
Отв: Типичные ошибки распознавания - собираем статистику ...
Коллеги!
Этот скрипт - огромная помощь для верстальщиков. Трудно переоценить его необходимость. Но он не заменяет все остальные скрипты.
Не ограничивайтесь только им, какое бы количество регэкспов мы туда ни запихнули.
Более того, если вы использовали другие скрипты до запуска этого, то они уже нашли множество ошибок, а значит скрипт по регэкспам будет работать намного быстрее.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ещё (может кто не знает)
Чтобы присвоить скрипту (любому) горячую клавишу нужно:
1. Заходим в меню Сервис-Настройки
2. в появившемся окне выбираем вкладку "Клавиши". В левом окошке выбираем "Скрипты". В правом ищем скрипт "Поиск по набору регеспов" . В чекбоксе "Клавиши" выбираем ту, что больше нравится. (В моём случае это F4) Жмём "Присвоить"
ВСЁ
Можно вывести иконку на панель скриптов. Для этого:

1. Клик на панели скриптов. Появится окошко "Настроить"
2. В появившемся окошке настройки, выбираем нужную иконку и переносим её в правую часть, нажав кнопку "Добавить"

Отв: Типичные ошибки распознавания - собираем статистику ...
Голма совершенно права. Я тоже сначала прохожу скриптами, которые заточены под определённые операции и только потом прохожу Единым скриптом и Спеллчеком.
Страницы