Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 5 часов
Isais RE:Древний Рим. Подборка книг 2 дня NickNem RE:Подайте бедному копеечку на книжку с литреса... 4 дня Isais RE:Семейственность в литературе 4 дня kopak RE:Таинственная личность админа Флибусты 1 неделя kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя babajga RE:Ласси возвращается домой 1 неделя sem14 RE:Подборка о Первой Мировой 1 неделя Isais RE:удаление "двойников" 1 неделя Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 4 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 4 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 месяц Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц Впечатления о книгах
Lan2292 про Nooby: Торговец (Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
26 02 чЕЛОВЕК ПИСАЛ, ТРАТИЛ ВРЕМЯ, НО К СОЖАЛЕНИЮ НА ВЫХОДЕ ПОЛУЧИЛАСЬ ХРЕНЬ, А Я ЧЕСТНО ПЫТАЛАСЬ ПРОРВАТЬСЯ ЧЕРЕЗ СТРОЧКИ, НО УВЫ И АХ. Оценка: плохо
iggy71 про Маканин: Валечка Чекина (Современная проза)
25 02 Писатель намеревался, видимо, создать загадочный образ провинциалки, "в которой что-то есть", и типа все хотят с ней познакомиться поближе, и она такая себе любвеобильная, духовная и проч. Автор ей симпатизирует, но вот образ ……… Оценка: плохо
konst1 про Рубина: Окна [Авторский сборник] (Современная проза)
25 02 Вдруг Борис заметил: – Между прочим, знаешь ли ты, что еще совсем недавно, в XVIII веке, жители Корнуолла промышляли таким вот способом: в особо сильный шторм выносили на берег большие фонари и расставляли рядами там, ……… Оценка: отлично!
Дей про Господин следователь
25 02 Очень интересно. Детективная и, скажем так, бытовая линии отличные, любовная же не понравилась. Влюбился с первого взгляда, лучше её нет (это ещё даже не разговаривал с ней ни разу), вот эти китайские церемонии с ухаживаниями ………
Олег Макаров. про Капба: Как приручить дракона - 4 [СИ] (Альтернативная история, Киберпанк, Фэнтези, Попаданцы, Самиздат, сетевая литература)
24 02 Капба прекрасен как всегда. Четвёртый том не хуже (лучше!) предыдущих, хотя казалось бы куда ещё. Очень отличная книга. Оценка: отлично!
obivatel про Калинин: Вторая Отечественная [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
24 02 Автор датэл: "если именно благодаря революционерам Россия потеряла шанс выйти из нее в качестве главного победителя". . Если пишешь что-то о периоде, не поленись узнать как оно было. Царя опрокинули крупнейшие промышленники ……… Оценка: плохо
mysevra про Себастьянович: Новая книга о сыроедении, или Почему коровы хищники (Здоровье)
24 02 Подход для таких ленивых как я - нет обязательных самостоятельных чисток. «Мягким тканям потребуется не менее 2 лет, а скелету - около 7.» Непонятно, есть ли это время. Оценка: отлично!
mysevra про Артюшкина: Голем [litres] (Детективная фантастика, Социальная фантастика, Научная фантастика)
24 02 Такой замечательный мир, отличный язык, но невыносимо неспешное развитие событий – кажется вот-вот случится что-то значимое, а нет, очередной проходной момент. Оценка: неплохо
Isais про Абдуллаев: Заговор в начале эры (Исторический детектив, Политический детектив)
24 02 Скучно, нудно, нехудожественно. Вместо живых картин -- картонные декорации, никто из персонажей не вызывает эмоций -- ни любви, ни ненависти, каждый абзац сопровождается таким же по размеру морализаторским поучением, высказанным ……… Оценка: плохо
Nevskaya про Сушков: «Ленинградское дело»: генеральная чистка колыбели революции (Документальная литература)
22 02 Бралась за книгу с трепетом, родная тема, Блокада, Ленинград и все такое... Прочла со стыдом, дочитывала только потому, что не умею бросать начатое. Вранье сплошное, откровенное, бесстыжее, запредельное. Уже много где на форумах ……… Оценка: нечитаемо
Belomor.canal про Акунин: На санях (Современная проза)
22 02 Лучшая, самая лучшая книга Семейной Саги Оценка: отлично!
187 про Царевич: За Отчизну! (История)
21 02 Годная детская книжка, как и Приключения Каспера Берната в Польше и других странах. Оценка: отлично! |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Закончил книгу, где использовал данный скрипт. Призведя вычитку, убедился. что ляпов практически нет. Скрипт сработал на отлично. В тексте осталась только замена "ьщ" на "ыц". Ещё раз спасибо TaKir, да и вообще всем, принявшим участие в его создании.
Отв: Типичные ошибки распознавания - собираем статистику ...
Неожиданно выпало: "щей" вместо "шеи".
Можно и не заметить, оба слова в словаре присутствуют.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот еще, из довольно частых: Айда - Аида, ай - аи.
Отв: Типичные ошибки распознавания - собираем статистику ...
Добавляю:
Ищет смесь регистров (кириллица ) проимерно так: проБа или ПРоба. Не трогает имена собственные
addRegExp("[а-яё][А-ЯЁ]","","Найдено: смесь регистров");
addRegExp("[А-ЯЁ][А-ЯЁ][а-яё]","","Найдено: смесь регистров");
Слипшиеся слова....А то..., .....И то
tagRegExp("(?< ![а-яё])ато(?![а-яё])","i","Найдено: слово \"ато\" (\"а то\" с опечаткой).");
tagRegExp("(?< ![а-яё])ито(?![а-яё])","i","Найдено: слово \"ито\" (\"и то\" с опечаткой).");
Удалить пробелы перед восклицательным знаком (!)
Отв: Типичные ошибки распознавания - собираем статистику ...
А вообще - убойный скрипт!! Ещё раз спасибо Такиру и Склексу!!
Может кому пригодится - я задублировал три таких скрипта - с небольшими изменениями, каждый на своей кнопке. Это касается украинских, болгарских букв ( у меня они выставлены в ФР и я частенько забываю их откл/вкл)), специальных знаков итд. В общем - каждый себе может подобрать набор. ОЧЕНЬ убыстряет и улучшает
Отв: Типичные ошибки распознавания - собираем статистику ...
Полагаю, стоит включить версию скрипта с регэкспами ТаКир'а в следующий релиз FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
+1.
Отв: Типичные ошибки распознавания - собираем статистику ...
вес - все
Круглов - Круглое
Валет - Балет
рот - рог
Отв: Типичные ошибки распознавания - собираем статистику ...
Случайно обнаружил, что скрипт не ищет буква+знак препинания+цифра
Это могут быть цифры пропущенных сносок примерно в таком виде:
Текст,3...Текст)3... Текст.3... Текст»3....
Предлагаю добавить:
addRegExp("[A-Za-zА-яЁё»).,][0-9]","","Найдено:Подозрение на пропущенную сноску");
К сожалению не получилось добавит сюда комп. кавычки - начинает выдавать ошибку скрипта.
Для целенаправленного поиска только таких цифр можно проводить и рег. выражением:
[A-Za-zА-яЁё"»).,][\d]
УПД: Если сделать так: addRegExp("[A-Za-zА-яЁё\"»).,][0-9]","","Найдено:Подозрение на сноску"); То комп.кавычку+цифра находится нормально (пришлось дополнительно вставить слеш)
Отв: Типичные ошибки распознавания - собираем статистику ...
В регэкспе была ошибка, поправил:
addMacros("<откр-закр-em-str>","<emphasis>|</emphasis>|<strong>|</strong>");
tagRegExp("([а-яёa-z]<откр-закр-em-str>*)*?[а-яёa-z]<откр-закр-em-str>*(<emphasis>|</emphasis>)<откр-закр-em-str>*([а-яёa-z]<откр-закр-em-str>*)+","i","Найдено: курсивность части слова.");
(Заменил один плюс на звездочку.)
Отв: Типичные ошибки распознавания - собираем статистику ...
Упс. Вместо "ответить" кликнул на "изменить", в итоге затер старое сообщение. Или форум сглючил? Вряд ли.
Отв: Типичные ошибки распознавания - собираем статистику ...
Хорошо бы добавить точку с запятой (;) в конце абзаца. Иногда вместо двоеточия перед прямой речью выскакивает.
Отв: Типичные ошибки распознавания - собираем статистику ...
Да неплохо бы!
Всем привет. Когда починят добавлялку?
Отв: Типичные ошибки распознавания - собираем статистику ...
вамп = вами
II = И
попятно = понятно
Отв: Типичные ошибки распознавания - собираем статистику ...
первое и третье можно будет добавить, а вот со вторым проблемы могут возникнуть. Скрипт будет показывать ВСЕ вхождения "И" (как отдельно стоящего слова) и боюсь их может быть многовато (((
Я вот ещё думаю, может добавить V+любую цифру? Довольно часто встречается вместо дроби (напр. 1/2
Отв: Типичные ошибки распознавания - собираем статистику ...
В скрипт нужно добавить не "И", а "II" с пробелами с обоих сторон.
Отв: Типичные ошибки распознавания - собираем статистику ...
И скрипт будет останавливаться на каждом “II”?
Боюсь для исторических текстов с обилием имен типа Екатерина II это не совсем хорошо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сейчас скрипт останавливается на каждой "б" (частица), "яи" (в словах типа "хозяин"), и эти случаи встречаются чаще, чем "Екатерина II".
Отв: Типичные ошибки распознавания - собираем статистику ...
Насчет "хозяина", "яиц" и т.п. спорить не буду, а вот одиночная "б" встречается довольно редко, поэтому не раздражает.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри, я наверное не так понял. У меня просто чаще встречается ошибка, когда вместо римской цифры - выдаёт "И" ))
tagRegExp("(?< ![а-яё])вамп(?![а-яё])","i","Найдено: слово \"вамп\" (\"вами\" с опечаткой).");
tagRegExp("(?< ![а-яё])попятно(?![а-яё])","i","Найдено: слово \"попятно \" (\"понятно\" с опечаткой).");
tagRegExp("(?< ![а-яё])II(?![а-яё])","i","Найдено: слово \"II\" (\"И\" с опечаткой).");
Хочу ещё раз подчеркнуть - скрип целесообразно иметь не один. Лучше его поделить на несколько, оставив в каждом необходимые+специфические. Ведь всё-таки есть разница по частоте ошибок в разных жанрах - свои словечки (жаргонизмы) есть в фантастике, свои слова в политической, научной или другой литературе.
Отв: Типичные ошибки распознавания - собираем статистику ...
Здравствуйте, все!
Большое спасибо Sclex-у за срипты, а TaKir-у - что открыл эту тему!
Попробовал - очень полезно!
И, конечно, уже дополнил кое-чем, о чём вспомнил. Вот это дополнение.
В файле скрипта от Sclex-а "Поиск по набору регэкспов_TaKir_24_01_2011.js" после строки
// -------------конец блока TaKir - регэкспы:---------------
я добавил следующие (прошу строго не судить - чайник):
// -------------начало блока F.CYXOB - регэкспы:--------------
tagRegExp("(ыо)","i","Найдено: часть слова \"ыо\" (\"ью\" с опечаткой?).","",1);
tagRegExp("(ыш)","i","Найдено: часть слова \"ыш\" (\"ьни\" с опечаткой?).","",1);
tagRegExp("(?#(![а-яё])ужо(?![а-яё])","i","Найдено: слово \"ужо\" (\"уже\" с опечаткой, если это не просторечие).","",1);
addRegExp("^[Л][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Л вместо А в начале строки");
addRegExp("^[Л][.,:;!\?]","i","Найдено: буква Л вместо А в начале строки");
addRegExp("^[Д][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Д вместо А в начале строки");
addRegExp("^[Д][.,:;!\?]","i","Найдено: буква Д вместо А в начале строки");
addRegExp("^[Н][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Н вместо И в начале строки");
addRegExp("^[Н][.,:;!\?]","i","Найдено: буква Н вместо И в начале строки");
addRegExp("[\\x20][.,:;!\?]","i","Найдено: пробел перед знаком препинания");
addRegExp("[\\x20][»”’]","i","Найдено: пробел перед закрывающей кавычкой");
addRegExp("[…][.,]","i","Найдено: трёхточие с прилегающим справа знаком препинания");
// ~~~~~~~~~~ идея про строчные в начале предлож. от Рыжего Тигры. С усовершенствованием от F.CYXOB'а:
addRegExp("^[a-zа-яё]","","Найдено: строчная буква в начале строки");
addRegExp("[A-Za-zА-яЁё][….!\?][\\x20][a-zа-яё]","","Найдено: строчная буква в начале предложения.");
// ~~~~~~~~~~ идея про сноски от shokons. С усовершенствованием от F.CYXOB'а:
addRegExp("[A-Za-zА-яЁё][»….,:;!\?«)(\"”“][0-9]","i","Найдено: Подозрение на пропущенную сноску");
// -------------конец блока F.CYXOB - регэкспы:---------------
Пару символов "#(" в третьей строке tagRegExp надо заменить на левую угловую скобку.
Конечно, старшие товарищи меня пусть поправят, если что...
Спасибо!
Отв: Типичные ошибки распознавания - собираем статистику ...
По ходу работы над очередной книгой, выискиваются еще случаи:
отда, вместо отца конда, вместо конца лидами, вместо лицами
Отв: Типичные ошибки распознавания - собираем статистику ...
Встретил сегодня ф вместо гр.
А еще у меня истоия вот такая открылась, может уже здесь и писал кто:
Я раньше не особо не обращал внимания на точки и запятые перед тире в прямой речи. Вдруг обратил и огорчился. Например предложение:
"— Ты же меня знаешь — гнили не подсуну, — ответил взводный, — Драться умеют все."
И в книге и по-правилам: "— Ты же меня знаешь — гнили не подсуну, — ответил взводный. — Драться умеют все."
То-есть перед заглавной буквой должна стоять точка, А перед маленькой запятая:
"— Как букашку под микроскопом — вот что я хотел сказать, — буркнул он."
В книгах проставлено верно, а наши вычитывальщики вместо точки перед заглавной часто ставят запятую. Или файнридер им ставит. Но не обращают внимания.
Нельзя ли это как-то скриптом находить?
Отв: Типичные ошибки распознавания - собираем статистику ...
А не пробовали использовать скрипт "Точка, тире, буква"?
Отв: Типичные ошибки распознавания - собираем статистику ...
СПАСИБО, ДОБРЫЙ ЧЕЛОВЕК! Так и пришлось 2.5 ставить. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Смешные очепатки - ЖЗЛ Гулыга "Гегель" http://lib.rus.ec/b/188976/read
"Неловкий, старообразный, неряшливо одетый, у женщин он успехом используется."
Узнаем что Гегель учился на геологическом факультете
"Это не мешает Гегелю в двадцать лет стать магистром философии. По заведенному на геологическом факультете"
Который он закончил не много ни мало в осенью 4793 года!!!
"Консисториальный экзамен осенью 4793 года — последняя дань пребыванию на студенческой скамье."
И ещё Fr10 устойчиво фамилию Бальтазар распознавал как Бсихьтазар или Балыпазар
Отв: Типичные ошибки распознавания - собираем статистику ...
"еше" вместо "еще"
Я себе уже сама добавила. Подглядела, как ТаКир сделал. ;)
Но коль скрипт в этом виде собираются добавлять в следующий релиз, то не мешало бы включить и эту весьма распространённую ошибку. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Есть вопрос. Номера строк в стихотворных произведения сильно отвлекают (мешают) при чтении. Я представил эти номера над строкой и мне очень понравилось (кому интересно, можно посмотреть http://lib.rus.ec/b/269388). Так вот нужно ли и можно ли это автоматизировать? Делать это ручками можно, но занимает много времени. Прошу извинить за то, что не совсем в тему.
Отв: Типичные ошибки распознавания - собираем статистику ...
Если опишете поподробней, как вы себе представляете функциональность и интерфейс такого скрипта, может, когда-нибудь сделаю.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не помню, отмечалось или нет:
"Аза" вместо "А за".
Отв: Типичные ошибки распознавания - собираем статистику ...
Точно! Помогает.
Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо.
TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки...
Отв: Типичные ошибки распознавания - собираем статистику ...
это проверяется спелчеком. если это вставлять (вы представляете СКОЛЬКО частоупотребляемых слов с дефисами есть в русском языке?) затормозим работу скрипта до полного аута
Отв: Типичные ошибки распознавания - собираем статистику ...
Почему "часто употребляемых"?
Слов, типа "чтото, какогото" и т. п. в русском языке нет. И если скрипт поможет выявить эти ошибки - прекрасно. Скрипт ведь будет искать не слова с дефисами, а именно случаи без дефисов.
Отв: Типичные ошибки распознавания - собираем статистику ...
Виноват невнимательно прочитал и не вник. (((
Алексей, если имеется ввиду окончание слов на "то". То может быть. Правда много будет и холостых срабатываний (просто, запросто, итд)
Но мне довольно часто попадаются слитные - какнибудь, какойлибо итд. В своё время мне Склекс присылал выборку слов с дефисами в тхт (надо поискать куда засунул) так этот тхт весил немерянно.
ПС кстати - изза - в исходном скрипте есть
Отв: Типичные ошибки распознавания - собираем статистику ...
нот -> вот
Отв: Типичные ошибки распознавания - собираем статистику ...
"чю" вместо "что"
Отв: Типичные ошибки распознавания - собираем статистику ...
Слово "полста" часто распознается как "полета".
Отв: Типичные ошибки распознавания - собираем статистику ...
+1. Надо бы в скрипт добавить. Сейчас делаю книгу, автор любит слово полста...
Отв: Типичные ошибки распознавания - собираем статистику ...
06 - вместо "об"
01 - вместо "от"
Отв: Типичные ошибки распознавания - собираем статистику ...
эго = это
И вот это: "но" после слова и в обрамлении пробелов, скорее всего нужно "по".
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, тоже хотела про "но" написать. Как правильно такую строчку прописать в скрипте, чтобы она не искала все подряд "но"? А именно сочетание "конец слова" + пробел + но + пробел.
Отв: Типичные ошибки распознавания - собираем статистику ...
"[а-я] но "
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо, попробую.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не годится. После запятой (если это правильно "но") тоже стоит пробел.
Отв: Типичные ошибки распознавания - собираем статистику ...
Годится. Запятая в множество [а-я] не входит. Пользуюсь давно - работает. Причём это один из наиболее упускаемых даже при хорошей вычитке багов.
Отв: Типичные ошибки распознавания - собираем статистику ...
Хммм... Напиши тогда полную строку, пожалуйста.
Отв: Типичные ошибки распознавания - собираем статистику ...
Пытался - не выходит. Режется.
Единственное, я делал это под оператором addRegExp а не tagRegExp.
Отв: Типичные ошибки распознавания - собираем статистику ...
Чё-то у меня не получается. :(
А в тэге "code" тоже режется? Или сделай вместо круглых скобок фигурные. Очень бы хотелось пользоваться.
По поводу пропущенных точек: есть отдельный скрипт, но он останавливается перед каждый именем собственным. Я пользуюсь "точка, тире, буква" - он ищет неправильные знаки в прямой речи.
Твой может больше?
Отв: Типичные ошибки распознавания - собираем статистику ...
tagRegExp("[а-яё] (но) ","i","Найдено: слово "но" ("но " без запятой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
О, спасибо, Миша. Я не увидела и сама пыталась писать.
Твой скрипт действительно находит в указанном месте, а в следующем уже нет. :(
"вид но"
Как такое может быть?
Я написала addRegExp, но он ВСЕ "но" ищет. :( А мне нужно только те, у которых до пробела нет запятой.
Страницы