скрипт для лингвистического анализа текста
Опубликовано вс, 28/12/2008 - 12:58 пользователем Wictor
Forums: Просматривая отзывы на книгу Хаецкой Царство небесное натолкнулся на интересную статистику, сгенерированную скриптом (http://fantlab.ru/work9929): Цитата: Лингвистический анализ текста: Учитывая то, что большинство современных книг весьма низкого качества, задумался: можно ли дать предварительную оценку книги на основании этих цифр. Вообще при выборе книги вы бы на такую статистику обращали бы внимание?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
NickNem RE:Подайте бедному копеечку на книжку с литреса... 18 часов
Isais RE:Семейственность в литературе 1 день kopak RE:Таинственная личность админа Флибусты 4 дня kopak RE:О группе Дятлова. О той самой, того самого... 4 дня babajga RE:Ласси возвращается домой 6 дней sem14 RE:Подборка о Первой Мировой 1 неделя Isais RE:удаление "двойников" 1 неделя Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 3 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 3 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 месяц Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 месяц Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц Впечатления о книгах
Nevskaya про Сушков: "Ленинградское дело": генеральная чистка колыбели революции (Документальная литература)
22 02 Бралась за книгу с трепетом, родная тема, Блокада, Ленинград и все такое... Прочла со стыдом, дочитывала только потому, что не умею бросать начатое. Вранье сплошное, откровенное, бесстыжее, запредельное. Уже много где на форумах ……… Оценка: нечитаемо
Shelest2000 про Бобров: Эпоха мертворожденных [= Украина в огне] (Альтернативная история)
22 02 Эх, как пуканы рвутся у укров типа Den_Klimov. ==Две войны, две с**а войны развязанных Путиным! ( == А не скажешь,мною не уважаемый, почему, так тобою любимая Украина, официально и неофициально отправляла своих боевиков-нациков ………
Belomor.canal про Акунин: На санях (Современная проза)
22 02 Лучшая, самая лучшая книга Семейной Саги Оценка: отлично!
187 про Царевич: За Отчизну! (История)
21 02 Годная детская книжка, как и Приключения Каспера Берната в Польше и других странах. Оценка: отлично!
Дей про Воспитанник орков
21 02 Какой же ГГ тряпка и слюнтяй. Нет, он храбр и, в общем-то, довольно сообразительный, хоть и несколько тугодум, но он трясётся над жизнью каждой мрази, встречающейся на его пути. Он оставил за спиной несчитанное количество ………
dolle про Корнев: Артефакт острее бритвы (Фэнтези, Приключения: прочее, Самиздат, сетевая литература)
21 02 Неплохо. С каждой книгой сюжет становится динамичнее, интриг и врагов становится больше . Оценка: хорошо
tlittle про Никитин: Бешеный лев (Фэнтези)
20 02 Примитивно. Очень примитивно. Такое впечатление, что художественные "изыски" добавляли в рассказ при втором проходе, они выглядят чужеродными. При этом куча (просто хренова гора) примитивных орфографических ошибок. "Ни как", ……… Оценка: плохо
Barbud про Семин: Конструктор (Попаданцы, Самиздат, сетевая литература)
20 02 Малоинтересное чтиво без художественных достоинств и исторической достоверности. Автор поднаторел на написании сказок с магией и прочими вытребеньками, где не нужно знать историю и следить за отсутствием анахронизмов, поэтому ……… Оценка: нечитаемо
nik_ol про Донцова: Дезертир из рая [litres] (Иронический детектив)
19 02 Ребятки, а что так редко стали выкладывать Донцову, Луганцеву и Полякову? Ну, Полякова-то понятно, там её невестка как бы сейчас книги пишет, а Донцова? Скучаю уже, я её между Пелевеным читаю, например, для разгузки мозга))). Оценка: хорошо
decim про Ксенз: Золотая стена (Современная проза, Публицистика)
19 02 Автор не буйный , это хорошо. Больше ничего хорошего. Ну там Фаэтон, Гиперборея, Атлантида... а Чёрное море, должно быть, выкопали на сдачу. Потомков ассуров(так в книге) сдали на съедение Горбачёв с Волкогоновым. Который ……… Оценка: нечитаемо
mysevra про Зорич: Очень мужская работа [HL] (Боевая фантастика)
19 02 Здесь больше Зорича, чем Жарковского. «Тварь» показалась интереснее. Оценка: плохо
mysevra про Жарковский: Времена смерти [litres] (Космическая фантастика, Научная фантастика)
19 02 Это было необычно, мне бы хотелось продолжения. Оценка: хорошо |
Отв: скрипт для лингвистического анализа текста
Хотите поверить алгеброй гармонию? :)
Нет. Цифры любопытные, но, увы, о качестве книги они ровным счетом ничего не говорят.
Отв: скрипт для лингвистического анализа текста
А если бедный язык у автора? Ну т.е. значение "Активный словарный запас"?
Отв: скрипт для лингвистического анализа текста
Вы считаете, что у Елены Хаецкой "бедный язык"? :)
Отв: скрипт для лингвистического анализа текста
Я вот тоже очень удивилась. Зато выявилась достоверность "скриповой" оценки текста. :)
Отв: скрипт для лингвистического анализа текста
Под словом "автор" я имел в виду автора гипотетического. Хаецкая мне нравится, хотя в некоторых ее произведения встречаются повторы чуть ли не абзацев. Например куски текста из Саги о Хелоте встречаются в Харольде.
Отв: скрипт для лингвистического анализа текста
Не люблю говорить о сферических конях в вакууме. В Вашем примере активный словарный запас автора "ниже среднего". С творчеством автора Вы знакомы. Значит, можете сделать выводы. Вы считаете, что у данного автора "бедный язык"? Если ответ "да", то Вы можете смело использовать данный скрипт для предварительной оценки произведения :)
Отв: скрипт для лингвистического анализа текста
На именно такую статистику - скорее не обращал бы, чем обращал.
Но вообще-то идея не такая уж дурацкая, гармонию - не гармонию, а некоторые характеристики текста программно поймать вполне можно, хоть тот же "Штампомер" вспомнить. У меня давно свербила идея попробовать на зубок тексты людей, явно не умеющих писать (ака графоманов).
Есть как минимум два довольно легко формализуемых признака графоманского текста:
1. Избыток восклицательных знаков в прямой речи героев.
2. Вязкость словоупотребления, то бишь - одинаковые или однокоренные слова в соседних предложениях (например "Но вообще-то идея не такая уж дурацкая..." и "У меня давно свербила идея...").
Был ешё и третий признак, но я его, каюсь, забыл...
Отв: скрипт для лингвистического анализа текста
Вот ещё можно вдоволь поиграться: http://rusf.ru/books/analysis/ :)
Отв: скрипт для лингвистического анализа текста
Можно обращать и на такую но ... только строить ее не по книге, а по автору. Т.е. ввести весь его опубликованный корпус и построить профиль, желательно в привязке ко времени, что б была видна и динамика. Но при этом не забывать, что это относительные характеристики и их надо сравнивать с "подпольем" и "потолком" ;), т.к. средняя температура по больнице ничего толкового не выявит.