Вы здесьМожно ли справиться с этой хреновиной?
Опубликовано сб, 07/10/2017 - 16:16 пользователем tvnic
Имеется htm-файл на английском. В большинстве текст нормальный, но частенько встречаются такого типа слова
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aleks_Sim RE:Ирина Александровна Велембовская - Немцы 7 часов
monochka RE:Подайте бедному копеечку на книжку с литреса... 10 часов Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 дня Саша из Киева RE:Избранное 5 дней Alligatoreader RE:Багрепорт - 2 1 неделя fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 1 неделя kopak RE:Таинственная личность админа Флибусты 1 неделя blahblahblah2024 RE:Беженцы с Флибусты 1 неделя sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 1 неделя sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 3 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 недели Oleg V.Cat RE:B343695 Александр. Книга 1 3 недели Isais RE:Калибрятина/Самиздатина 4 недели md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц ejik.v RE:Viva Stiver! 1 месяц Впечатления о книгах
nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее)
27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо
neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться.
Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 11 Так себе чтиво, но не скучно. Оценка: неплохо
Chernovol про Коровин: После «Украины» (Политика, Публицистика)
25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо
sem14 про Лазарис: Белая ворона (Историческая проза)
25 11 Леонид Гомберг 24 июля 2007 Роман известного в Израиле прозаика, поэта и переводчика Владимира Лазариса «Белая ворона» (Тель-Авив: Ладо, 2003) в этом году был включен в «лонг-лист» популярной премии «Букер». И это ……… Оценка: отлично!
decim про Осне Сейерстад
25 11 Попробовала бы Сурайя-реис не подать в суд! Муж бы убил. "Для контекста добавлю, что после публикации книги семья героя подала на Сейерстад в суд за клевету, но после апелляции писательница была признана невиновной, а через ………
tvv про Кич: Большой дом [СИ] (Ужасы, Мистика, Фанфик, Юмористическое фэнтези)
24 11 Совершенно замечательное "Оккультное Простоквашино".
decim про Галинакс: Женщина-рыцарь. Самые необычные истории Средневековья (Исторические приключения, История)
24 11 А вот это уже лучше. Подлинник на сей раз не знаю, а компиляция - явно автор чем-то вдохновлялся, но не ссылается на - получилась годная, и хорошо подобраны иллюстрации. Неплохо. Оценка: неплохо
udrees про Быкова: Школьники «ленивой мамы» (Педагогика, Детская психология)
24 11 Очередная книга про воспитание ребенка, теперь уже в школе. Советы в целом ценные, но явно объем книги их все не может вместить, поэтому думаю можно воспринимать текст как информацию к размышлению, а дальше самим продумывать ……… Оценка: хорошо
udrees про Баковец: Обычная жизнь обычного японца (Фэнтези, Самиздат, сетевая литература)
24 11 Угарная книга про приключения попаданца, оказавшегося в теле японского задрота-клерка. Автор видимо в теме про японское общество, имеется множество описаний нюансов про офисную жизнь, иерархию, привычки японцев, домашний быт. ……… Оценка: хорошо
udrees про Кузичева: Чехов. Жизнь «отдельного человека» (Биографии и Мемуары)
24 11 Довольно большая по объему биография известного писателя. Лично мне показалось, что ее писал театрал, поскольку большая часть книги посвящена театру, постановкам пьес Чехова в театре, реакции публики, трудностям постановки, ……… Оценка: хорошо
udrees про Тесленок: Сладкая История (Фэнтези, Самиздат, сетевая литература)
24 11 Отстой, очередное продолжение гаремника, и что радует – совсем небольшое на 20 страниц с иллюстрациями. Ценности никакой, язык примитивный как валенок. Описание действий как у озабоченного подростка со спермотоксикозом, кругом ……… |
Комментарии
RE:Можно ли справиться с этой хреновиной?
Это французские слова с диакритическими знаками, после каких-то заморочек с кодировкой. Можно попробовать разобраться через translate.google.com — поставить пару английский-французский и кормить ломанными словами по одному.
purée — это purée, Nessán — Nessán, а Fénechus — Fénechus.
Когда станет понятен алгоритм заморочек, например, é — это é, можно запустить глобальную замену по тексту.
RE:Можно ли справиться с этой хреновиной?
А вот за совет спасибочки. Получается. Только беда - не всё.
Здесь, например, никакой закономерности не нашел.
AdnaÃ
UÃ
dÃguin
snádud
dálaigh
degree of ClÃ
RE:Можно ли справиться с этой хреновиной?
А может в другом формате поискать?
RE:Можно ли справиться с этой хреновиной?
Или попробуйте текстовой поиск - скопируйте часть текста рядом с крякозябром, вставьте в строку поиска в браузере и закавычьте.
RE:Можно ли справиться с этой хреновиной?
Пробовал это дело. Нормального варианта поиск не находит.
RE:Можно ли справиться с этой хреновиной?
Это результат неправильных действий при copy\paste
Когда текст в кодировке ср1252 отображался например в кодировке ANSI
Его не глядя скопировали в документ в Юникоде например.
То есть необходимо создать HTML-документ с правильной кодировкой и, вставить в него соответствующие заголовки касаемо кодировки, и в браузере в меню "вид>кодировка" перебрать варианты.
Когда символы примут аналогичный в проблемном тексте вид, вы и получите закономерность.
RE:Можно ли справиться с этой хреновиной?
Для облегчения поиска правильной кодировки можно попробовать воспользоваться хабровской таблицей:
https://habrahabr.ru/post/147843/
RE:Можно ли справиться с этой хреновиной?
Спасибо.
В какой проге лучше менять кодировки?
RE:Можно ли справиться с этой хреновиной?
Штирлицом пробывали?
RE:Можно ли справиться с этой хреновиной?
Не-а. Что за зверь такой?
RE:Можно ли справиться с этой хреновиной?
Shtirlitz IV
специально для исправления сбитых кодировок
RE:Можно ли справиться с этой хреновиной?
Видимо это не мой случай. она ведь работает только с русским языком?
RE:Можно ли справиться с этой хреновиной?
Он работает не с языками, а с со сбившимися кодировками. Пробуйте.
RE:Можно ли справиться с этой хреновиной?
iconv
RE:Можно ли справиться с этой хреновиной?
Ситуация была такой - хочу сделать fb2-файл из имеющегося html-документа. В нем изначально были эти кракозябры.
RE:Можно ли справиться с этой хреновиной?
Ну кто-то же его сделал.
Стандартными средствами после таких манипуляций восстановить символы можно не всегда.
Или, как правильно заметили выше, глобальной заменой. Или же поверкой орфографии с функцией "заменить всё".
Программа AfterScan для этого хороша чрезвычайно.
RE:Можно ли справиться с этой хреновиной?
Попробую, что за зверь такой...
-----------------
Пока не использовал эту программу. Она ведь помогает находить и исправлять ошибки сканирования, а не ошибки кодировки?
RE:Можно ли справиться с этой хреновиной?
Бросьте ссылку на HTML дайте другим побаловаться..)))
Не видя документа, трудно что-либо советовать...
RE:Можно ли справиться с этой хреновиной?
Файл здесь https://yadi.sk/d/mL09juhz3NxVdq
Смотрите в "Sanctuary by Peter Tremayne", там вроде больше всего этой хрени.
RE:Можно ли справиться с этой хреновиной?
UÃ=Uí (Uí Echach Cobo - историческая область в Ирландии)
Смотрим код htm
- следовательно
í
=íAdnaÃ=Adnaíd
Ãguin=díguin
degree of ClÃ=degree of Clí
===
á
=ásnádud=snádud
===
é
=édécor=décor
===
и добираемся до этой страницы - там есть расшифровки для крякозябров вашей htm
PS: вы можете открыть htm в Блокноте и произвести соответствующие замены. Когда избавитесь от всяких
Ã
, закройте Блокнот (сохраняя в utf-8)===
http://dropmefiles.com/gqPEU
RE:Можно ли справиться с этой хреновиной?
Да уж...
Значит алгоритм такой
В таблице специальных символов находим литералы "глючных" символов и сопоставляем их здесь
Например в Rúinid ú = Atilde;ordm; = ù
В результате Rúinid = Rùinid
Так? Поправьте, если нет.
И можно ли как-то без таблиц узнавать, что ú=Atilde;ordm; или é=Atilde;copy; Я везде опустил символы &
--------
Если я привел пример правильно, то мне не ясно почему в Adnaà или dÃguin à обозначается Atilde;shy; Мягкий перенос - это потому-что символ à в данном слове сам по себе и не имеет рядом другой кракозябры?
RE:Можно ли справиться с этой хреновиной?
Еще раз.
Это результат неправильных действий при копировании\вставке.
Судя по всему, изначально HTML-файл был в кодировке UTF-8. Его ошибочно открыли в браузере с кодировкой WINDOWS-1252 (западно-европейская).
В результате чего, каждый из нелатинских символов был отображен в виде двух символов (так как UTF-8 нелатинские символы кодирует двумя байтами, а латинские одним).
Текст скопировали и вставили его уже в другой файл, с помощью программы кодирующей нелатинские символы в HTML-сущности.
RE:Можно ли справиться с этой хреновиной?
Так.
Но будьте внимательны: не ù, а ú (вы ошиблись строчкой).Забавно, но это может быть глюк сохранения/отображения уже на данной странице в браузере. Я дал ссылку - там уже исправленный файл (не исправил только символ копирайта - злобно).Только если известно точное соответствие, как в U* Echach Cobo = Uí Echach Cobo
Пример: The five kingdoms of *irinn - речь идет о древнем названии Ирландии. *irinn = Éirinn.
É
= É (в таблице этого нет)Остальное Drunkenmunky хорошо объяснил.
Проблема: данная таблица применима только для одного из многих вариантов подмены символов при распознании/сохранении в разных кодировках. И она неполная.
Но если вы будете и дальше встречаться с текстами такого типа - предположительно: спираченные из закрытой копирастами части ОткрытогоАрхива - то таблица может еще понадобиться. Сохраните ее.
PS: В тексте еще надо поменять -- на Em dash: —
RE:Можно ли справиться с этой хреновиной?
Всем благодарности. Проблема решена.
-----------
Не ругайтесь, если что. Но все-таки, непонятно.
Например,
В слове Rúinid два глючных символа - Ã и º Им соответствует двойная комбинация - Atilde; и ordm; (почему не 4 - по две на каждый символ?)
В слове dÃguin один глючный символ - Ã. Ему соответствует тоже двойная комбинация - Atilde; и shy; (почему именно shy; а не что-то другое?)
В первом случае получается Ã = Atilde; во втором Ã = Atilde;shy;
RE:Можно ли справиться с этой хреновиной?
(с опозданием) С ordm и shy все просто. Первый - код символа который отображается на странице, а второй - "мягкий перенос" - проявит себя только когда слово, где он есть, доберется до края страницы и станет обычным пере-
носом.
Сочетание двух кодов - это подмена одного неопознанного при вставке символа. Когда пара кодов состоит из отображаемых символов - вы видите два символа. Когда в паре один символ служебный - видите отображение только одного.
А вот почему неопознанный символ представлен сочетанием двух - долго буду объяснять и запутаю вас, так как и сам только догадываюсь. Приблизительно.
---
Вставил в текст сообщения три shy - на моем экране только один проявился ))) суслики - их не видят, а они есть.
RE:Можно ли справиться с этой хреновиной?
+++
RE:Можно ли справиться с этой хреновиной?
...я думаю, что мы много мудрим над этим текстом...
...там всего пять страничек, которые легко переводятся в Гугле...одна особенность...на украинский кракозябры переводит правильно...а на русский не хочет... Хи )))
RE:Можно ли справиться с этой хреновиной?
..ещё один...
RE:Можно ли справиться с этой хреновиной?
..ещё...
RE:Можно ли справиться с этой хреновиной?
Это ведь половинчатое решение, если вообще таковым можно назвать.
Мы же тексты стараемся делать не приблизительно, а как положено?..
RE:Можно ли справиться с этой хреновиной?
Серьёзно?
Над этим текстом сейчас только вы мудрите.
Уже постов десять решается вопрос - что делать если такая проблема возникнет в будущем - и ваш способ не годится.
RE:Можно ли справиться с этой хреновиной?
Произвести обратные действия описанным мною выше.
RE:Можно ли справиться с этой хреновиной?
Только в том случае, если точно известно с какими кодировками производились действия до. Кстати, вам удалось произвести обратные действия?
RE:Можно ли справиться с этой хреновиной?
Иначе не писал бы. Побахвалиться, конечно, дорогого стоит, но эта проблема элементарна.
RE:Можно ли справиться с этой хреновиной?
Да и я спросил не для того, чтобы подловить. Если бы вы описали, как делали переконвертацию - пригодилось бы в будущем.
- я не понял, как сделать первый шаг в обратном порядке
RE:Можно ли справиться с этой хреновиной?
Набросал тут код на php, все шаги в нем. Возможно прямо в библиотеке сделать небольшой сервис для решения таких проблем.
<?php
header('Content-type: text/html; charset=UTF-8');
$str = file_get_contents('0605EQMM.htm'); //Путь к загруженному xml/html документу
echo html_entity_decode($str, ENT_NOQUOTES, '1252'); //доступные кодировки по ссылке ниже
//http://php.net/manual/ru/function.html-entity-decode.php
?>
RE:Можно ли справиться с этой хреновиной?
А вот это отлично было бы!
Это же несложно? Для меня, например, тёмный лес.
RE:Можно ли справиться с этой хреновиной?
Побахвалиться, конечно, дорогого стоита вдруг заработаетRE:Можно ли справиться с этой хреновиной?
Скачайте какую-нибудь сборку Apache+PHP(например эту - http://www.usbwebserver.net/en/download.php)
Распакуйте например на флешку.
В папке "root" (для сборки выше)(в других сборках эта папка может называться как "htdocs","www", "home" и т.п.) создайте текстовый файл "test.php" поместите в него(с помощью стандартного Блокнота) код выше.
Рядом положите HTML файл под именем "0605EQMM.htm"
Запустите файл "usbwebserver.exe"(в других сборках так же называется по другому)
В вашем любимом браузере наберите "http://localhost/test.php"
RE:Можно ли справиться с этой хреновиной?
Спасибо.
Указанный адрес локалхоста у меня не открылся. Повторю полностью ваш рецепт с небольшой поправкой:
Сравнил с исходным файлом - всё исправлено.
Примечания:
Ссылка на страницу скачивания программы открылась только в браузере с обходом блокировки.
(mirror) Download USBWebserver V8.6 - работает только вторая ссылка.
RE:Можно ли справиться с этой хреновиной?
Если бы вы в настройках указали порт 80, то к локалхосту можно было бы ничего не дописывать. Тут ребята перемудрили.
Но и так тоже ничего.
RE:Можно ли справиться с этой хреновиной?
Вообще-то в таком виде этот текст лежит на сайте ЗДЕСЬ и таким мудрёным его сюда уже положили...и никакие скрипты не помогут...а только здравый смысл...)))