Как изменить кодировка utf 8

Мы расскажем о том, как изменить кодировку текстового файла на UTF-8, Windows-1251 или любую другую. Смена кодировки для файлов CSV, XML, SQL, TXT и PHP файлов.

Кодировка текста – это схема нумерации символов, в которой каждому символу, цифре или знаку присвоено соответствующее число. Кодировку используют для сохранения и обработки текста на компьютере. Каждый раз при сохранении текста в файл он сохраняется с использованием определенной схемы кодирования, и при открытии этого файла необходимо использовать такую же схему, иначе восстановить исходный текст не получится. Самыми популярными кодировками для кириллицы сейчас являются UTF-8, Windows-1251 (CP1251, ANSI).

Для того чтобы программа смогла правильно открыть текстовый файл, иногда приходится вручную менять кодировку, перекодируя текст из одной схемы в другую. Например, не редко возникают проблемы с открытием файлов CSV, XML, SQL, TXT, PHP.

В этой небольшой статье мы расскажем о том, как изменить кодировку текстового файла на UTF-8, Windows-1251 или любую другую.

Блокнот Windows

Если вы используете операционную систему Windows 10 или Windows 11, то вы можете изменить кодировку текста с помощью стандартной программы Блокнот. Для этого нужно открыть текстовый файл с помощью Блокнота и воспользоваться меню «Файл – Сохранить как».

меню Файл – Сохранить как

В открывшемся окне нужно указать новое название для файла, выбрать подходящую кодировку и нажать на кнопку «Сохранить».

изменить кодировку в Блокноте

К сожалению, для подобных задач программа Блокнот часто не подходит. С ее помощью нельзя открывать документы большого размера, и она не поддерживает многие кодировки. Например, с помощью Блокнота нельзя открыть текстовые файлы в DOS 866.

Notepad++

Notepad++ (скачать) является одним из наиболее продвинутых текстовых редакторов. Он обладает подсветкой синтаксиса языков программирования, позволяет выполнять поиск и замену по регулярным выражениям, отслеживать изменения в файлах, записывать и воспроизводить макросы, считать хеш-сумы и многое другое. Одной из основных функций Notepad++ является поддержка большого количества кодировок текста и возможность изменения кодировки текстового файла в UTF-8 или Windows 1251.

Для того чтобы изменить кодировку текста с помощью Notepad++ файл нужно открыть в данной программе. Если программа не смогла правильно определить схему кодирования текста, то это можно сделать вручную. Для этого нужно открыть меню «Кодировки – Кириллица» и выбрать нужный вариант.

выбрать кодировку в Notepad++

После открытия текста можно изменить его кодировку. Для этого нужно открыть меню «Кодировки» и выбрать один из вариантов преобразования. Notepad++ позволяет изменить текущую кодировку текста на ANSI (Windows-1251), UTF-8, UTF-8 BOM, UTF-8 BE BOM, UTF-8 LE BOM.

изменить кодировку в Notepad++

После преобразования файл нужно сохранить с помощью меню «Файл – Сохранить» или комбинации клавиш Ctrl-S.

Akelpad

Akelpad (скачать) – достаточно старая программа для работы с текстовыми файлами, которая все еще актуальна и может быть полезной. Фактически Akelpad является более продвинутой версией стандартной программы Блокнот из Windows. С его помощью можно открывать текстовые файлы большого размера, которые не открываются в Блокноте, выполнять поиск и замену с использованием регулярных выражений и менять кодировку текста.

Для того чтобы изменить кодировку текста с помощью Akelpad файл нужно открыть в данной программе. Если после открытия файла текст не читается, то нужно воспользоваться меню «Файл – Открыть».

открыть файл в Akelpad

В открывшемся окне нужно выделить текстовый файл, снять отметку «Автовыбор» и выбрать подходящую кодировку из списка. При этом в нижней части окна можно видеть, как будет отображаться текст.

выбрать кодировку в Akelpad

Для того чтобы изменить текущую кодировку текста нужно воспользоваться меню «Файл – Сохранить как» и сохранить документ с указанием новой схемы кодирования.

изменить кодировку в Akelpad

В отличие от Notepad++, текстовый редактор Akelpad позволяет сохранить файл в практически любой кодировке. В частности, доступны Windows 1251, DOS 886, UTF-8 и многие другие.

Посмотрите также:

  • Чем открыть PDF файл в Windows 7 или Windows 10
  • Как перевернуть страницу в Word
  • Как копировать текст с помощью клавиатуры
  • Как сделать рамку в Word
  • Как сделать буклет в Word

Автор
Александр Степушин

Создатель сайта comp-security.net, автор более 2000 статей о ремонте компьютеров, работе с программами, настройке операционных систем.

Остались вопросы?

Задайте вопрос в комментариях под статьей или на странице
«Задать вопрос»
и вы обязательно получите ответ.

Download PC Repair Tool to quickly find & fix Windows errors automatically

If you want to change the default character encoding in Notepad in Windows 11/10, this tutorial will guide you through the process. It is possible to change the default encoding from UTF-8 to ANSI or other using the Registry Editor. Notepad started using UTF-8 as the default character encoding – it used ANSI as the default encoding.

Let’s assume that you have a text file showing some unusual characters such as “ð???”. If you want to extract the original human-readable text out of these strange characters, you may need to switch between character encodings.

We have already shown the process to change the character encoding in the Outlook app, now let us see how to do it for Notepad. While Notepad allows you to change the encoding while saving the file, it is better to change it while creating or editing a file. The following character encodings are available:

  • ANSI
  • UTF-16 LE
  • UTF-16 BE
  • UTF-8
  • UTF-8 with BOM

Precaution: As you will use Registry Editor, it is recommended to backup all Registry files and create a System Restore point.

To change default encoding in Notepad, follow these steps-

  1. Press Win+R to open the Run prompt.
  2. Type regedit and hit the Enter button.
  3. Click on the Yes button.
  4. Navigate to Notepad in HKCU.
  5. Right-click on Notepad > New > DWORD (32-bit) Value.
  6. Name it as iDefaultEncoding.
  7. Double-click on it to set the Value data.
  8. Click the OK button.

You will have to open the Registry Editor on your computer. For that, press Win+R, type regedit, and hit the Enter button. If the UAC prompt appears, click on the Yes button. After opening the Registry Editor, navigate to the following path-

HKEY_CURRENT_USERSOFTWAREMicrosoftNotepad

Right-click on Notepad and select New > DWORD (32-bit) Value.

How to change the default Character Encoding in Notepad

Once it is created, name it as iDefaultEncoding. Now, double-click on iDefaultEncoding and set the Value data as following-

  • ANSI: 1
  • UTF-16 LE: 2
  • UTF-16 BE: 3
  • UTF-8 BOM: 4
  • UTF-8: 5

After setting the Value data, click on the OK button to save the change.

How to change the default Character Encoding in Notepad

Once done, restart the Notepad app to find the difference. You can see the selected character encoding in the Status Bar.

In case you want to get back to the original, navigate to the same path in the Registry Editor and right-click on iDefaultEncoding. Then, select the Delete button and confirm the removal.

Hope all goes well.

Ezoic

Anand Khanse is the Admin of TheWindowsClub.com, a 10-year Microsoft MVP (2006-16) & a Windows Insider MVP (2016-2022). Please read the entire post & the comments first, create a System Restore Point before making any changes to your system & be careful about any 3rd-party offers while installing freeware.

Download PC Repair Tool to quickly find & fix Windows errors automatically

If you want to change the default character encoding in Notepad in Windows 11/10, this tutorial will guide you through the process. It is possible to change the default encoding from UTF-8 to ANSI or other using the Registry Editor. Notepad started using UTF-8 as the default character encoding – it used ANSI as the default encoding.

Let’s assume that you have a text file showing some unusual characters such as “ð???”. If you want to extract the original human-readable text out of these strange characters, you may need to switch between character encodings.

We have already shown the process to change the character encoding in the Outlook app, now let us see how to do it for Notepad. While Notepad allows you to change the encoding while saving the file, it is better to change it while creating or editing a file. The following character encodings are available:

  • ANSI
  • UTF-16 LE
  • UTF-16 BE
  • UTF-8
  • UTF-8 with BOM

Precaution: As you will use Registry Editor, it is recommended to backup all Registry files and create a System Restore point.

To change default encoding in Notepad, follow these steps-

  1. Press Win+R to open the Run prompt.
  2. Type regedit and hit the Enter button.
  3. Click on the Yes button.
  4. Navigate to Notepad in HKCU.
  5. Right-click on Notepad > New > DWORD (32-bit) Value.
  6. Name it as iDefaultEncoding.
  7. Double-click on it to set the Value data.
  8. Click the OK button.

You will have to open the Registry Editor on your computer. For that, press Win+R, type regedit, and hit the Enter button. If the UAC prompt appears, click on the Yes button. After opening the Registry Editor, navigate to the following path-

HKEY_CURRENT_USERSOFTWAREMicrosoftNotepad

Right-click on Notepad and select New > DWORD (32-bit) Value.

How to change the default Character Encoding in Notepad

Once it is created, name it as iDefaultEncoding. Now, double-click on iDefaultEncoding and set the Value data as following-

  • ANSI: 1
  • UTF-16 LE: 2
  • UTF-16 BE: 3
  • UTF-8 BOM: 4
  • UTF-8: 5

After setting the Value data, click on the OK button to save the change.

How to change the default Character Encoding in Notepad

Once done, restart the Notepad app to find the difference. You can see the selected character encoding in the Status Bar.

In case you want to get back to the original, navigate to the same path in the Registry Editor and right-click on iDefaultEncoding. Then, select the Delete button and confirm the removal.

Hope all goes well.

Ezoic

Anand Khanse is the Admin of TheWindowsClub.com, a 10-year Microsoft MVP (2006-16) & a Windows Insider MVP (2016-2022). Please read the entire post & the comments first, create a System Restore Point before making any changes to your system & be careful about any 3rd-party offers while installing freeware.

Как правило, при совместной работе с текстовыми файлами нет необходимости вникать в технические аспекты хранения текста. Однако если необходимо поделиться файлом с человеком, который работает с текстами на других языках, скачать текстовый файл из Интернета или открыть его на компьютере с другой операционной системой, может потребоваться задать кодировку при его открытии или сохранении.

Когда вы открываете текстовый файл в Microsoft Word или другой программе (например, на компьютере, язык операционной системы на котором отличается от того, на котором написан текст в файле), кодировка помогает программе определить, в каком виде нужно вывести текст на экран, чтобы его можно было прочитать.

В этой статье

  • Общие сведения о кодировке текста

  • Выбор кодировки при открытии файла

  • Выбор кодировки при сохранении файла

  • Поиск кодировок, доступных в Word

Общие сведения о кодировке текста

То, что отображается на экране как текст, фактически хранится в текстовом файле в виде числового значения. Компьютер преобразует числические значения в видимые символы. Для этого используется кодикон.

Кодировка — это схема нумерации, согласно которой каждому текстовому символу в наборе соответствует определенное числовое значение. Кодировка может содержать буквы, цифры и другие символы. В различных языках часто используются разные наборы символов, поэтому многие из существующих кодировок предназначены для отображения наборов символов соответствующих языков.

Различные кодировки для разных алфавитов

Сведения о кодировке, сохраняемые с текстовым файлом, используются компьютером для вывода текста на экран. Например, в кодировке «Кириллица (Windows)» знаку «Й» соответствует числовое значение 201. Когда вы открываете файл, содержащий этот знак, на компьютере, на котором используется кодировка «Кириллица (Windows)», компьютер считывает число 201 и выводит на экран знак «Й».

Однако если тот же файл открыть на компьютере, на котором по умолчанию используется другая кодировка, на экран будет выведен знак, соответствующий числу 201 в этой кодировке. Например, если на компьютере используется кодировка «Западноевропейская (Windows)», знак «Й» из исходного текстового файла на основе кириллицы будет отображен как «É», поскольку именно этому знаку соответствует число 201 в данной кодировке.

Юникод: единая кодировка для разных алфавитов

Чтобы избежать проблем с кодированием и декодированием текстовых файлов, можно сохранять их в Юникоде. В состав этой кодировки входит большинство знаков из всех языков, которые обычно используются на современных компьютерах.

Так как Word работает на базе Юникода, все файлы в нем автоматически сохраняются в этой кодировке. Файлы в Юникоде можно открывать на любом компьютере с операционной системой на английском языке независимо от языка текста. Кроме того, на таком компьютере можно сохранять в Юникоде файлы, содержащие знаки, которых нет в западноевропейских алфавитах (например, греческие, кириллические, арабские или японские).

К началу страницы

Выбор кодировки при открытии файла

Если в открытом файле текст искажен или выводится в виде вопросительных знаков либо квадратиков, возможно, Word неправильно определил кодировку. Вы можете указать кодировку, которую следует использовать для отображения (декодирования) текста.

  1. Откройте вкладку Файл.

  2. Нажмите кнопку Параметры.

  3. Нажмите кнопку Дополнительно.

  4. Перейдите к разделу Общие и установите флажокПодтверждать преобразование формата файла при открытии.

    Примечание: Если установлен этот флажок, Word отображает диалоговое окно Преобразование файла при каждом открытии файла в формате, отличном от формата Word (то есть файла, который не имеет расширения DOC, DOT, DOCX, DOCM, DOTX или DOTM). Если вы часто работаете с такими файлами, но вам обычно не требуется выбирать кодировку, не забудьте отключить этот параметр, чтобы это диалоговое окно не выводилось.

  5. Закройте, а затем снова откройте файл.

  6. В диалоговом окне Преобразование файла выберите пункт Кодированный текст.

  7. В диалоговом окне Преобразование файла установите переключатель Другая и выберите нужную кодировку из списка.

    В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.

Если почти весь текст выглядит одинаково (например, в виде квадратов или точек), возможно, на компьютере не установлен нужный шрифт. В таком случае можно установить дополнительные шрифты.

Чтобы установить дополнительные шрифты, сделайте следующее:

  1. Нажмите кнопку Пуск и выберите пункт Панель управления.

  2. Выполните одно из указанных ниже действий.

    В Windows 7

    1. На панели управления выберите раздел Удаление программы.

    2. В списке программ щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.

    В Windows Vista

    1. На панели управления выберите раздел Удаление программы.

    2. В списке программ щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.

    В Windows XP

    1. На панели управления щелкните элемент Установка и удаление программ.

    2. В списке Установленные программы щелкните Microsoft Office или Microsoft Word, если он был установлен отдельно от пакета Microsoft Office, и нажмите кнопку Изменить.

  3. В группе Изменение установки Microsoft Office нажмите кнопку Добавить или удалить компоненты и затем нажмите кнопку Продолжить.

  4. В разделе Параметры установки разверните элемент Общие средства Office, а затем — Многоязыковая поддержка.

  5. Выберите нужный шрифт, щелкните стрелку рядом с ним и выберите пункт Запускать с моего компьютера.

Совет: При открытии текстового файла в той или иной кодировке в Word используются шрифты, определенные в диалоговом окне Параметры веб-документа. (Чтобы вызвать диалоговое окно Параметры веб-документа, нажмите кнопку Microsoft Office, затем щелкните Параметры Word и выберите категорию Дополнительно. В разделе Общие нажмите кнопку Параметры веб-документа.) С помощью параметров на вкладке Шрифты диалогового окна Параметры веб-документа можно настроить шрифт для каждой кодировки.

К началу страницы

Выбор кодировки при сохранении файла

Если не выбрать кодировку при сохранении файла, будет использоваться Юникод. Как правило, рекомендуется применять Юникод, так как он поддерживает большинство символов большинства языков.

Если документ планируется открывать в программе, которая не поддерживает Юникод, вы можете выбрать нужную кодировку. Например, в операционной системе на английском языке можно создать документ на китайском (традиционное письмо) с использованием Юникода. Однако если такой документ будет открываться в программе, которая поддерживает китайский язык, но не поддерживает Юникод, файл можно сохранить в кодировке «Китайская традиционная (Big5)». В результате текст будет отображаться правильно при открытии документа в программе, поддерживающей китайский язык (традиционное письмо).

Примечание: Так как Юникод — это наиболее полный стандарт, при сохранении текста в других кодировках некоторые знаки могут не отображаться. Предположим, например, что документ в Юникоде содержит текст на иврите и языке с кириллицей. Если сохранить файл в кодировке «Кириллица (Windows)», текст на иврите не отобразится, а если сохранить его в кодировке «Иврит (Windows)», то не будет отображаться кириллический текст.

Если выбрать стандарт кодировки, который не поддерживает некоторые символы в файле, Word пометит их красным. Вы можете просмотреть текст в выбранной кодировке перед сохранением файла.

При сохранении файла в виде кодированного текста из него удаляется текст, для которого выбран шрифт Symbol, а также коды полей.

Выбор кодировки

  1. Откройте вкладку Файл.

  2. Выберите пункт Сохранить как.

    Чтобы сохранить файл в другой папке, найдите и откройте ее.

  3. В поле Имя файла введите имя нового файла.

  4. В поле Тип файла выберите Обычный текст.

  5. Нажмите кнопку Сохранить.

  6. Если появится диалоговое окно Microsoft Office Word — проверка совместимости, нажмите кнопку Продолжить.

  7. В диалоговом окне Преобразование файла выберите подходящую кодировку.

    • Чтобы использовать стандартную кодировку, выберите параметр Windows (по умолчанию).

    • Чтобы использовать кодировку MS-DOS, выберите параметр MS-DOS.

    • Чтобы задать другую кодировку, установите переключатель Другая и выберите нужный пункт в списке. В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.

      Примечание: Чтобы увеличить область отображения документа, можно изменить размер диалогового окна Преобразование файла.

  8. Если появилось сообщение «Текст, выделенный красным, невозможно правильно сохранить в выбранной кодировке», можно выбрать другую кодировку или установить флажок Разрешить подстановку знаков.

    Если разрешена подстановка знаков, знаки, которые невозможно отобразить, будут заменены ближайшими эквивалентными символами в выбранной кодировке. Например, многоточие заменяется тремя точками, а угловые кавычки — прямыми.

    Если в выбранной кодировке нет эквивалентных знаков для символов, выделенных красным цветом, они будут сохранены как внеконтекстные (например, в виде вопросительных знаков).

  9. Если документ будет открываться в программе, в которой текст не переносится с одной строки на другую, вы можете включить в нем жесткие разрывы строк. Для этого установите флажок Вставлять разрывы строк и укажите нужное обозначение разрыва (возврат каретки (CR), перевод строки (LF) или оба значения) в поле Завершать строки.

К началу страницы

Поиск кодировок, доступных в Word

Word распознает несколько кодировок и поддерживает кодировки, которые входят в состав системного программного обеспечения.

Ниже приведен список письменностей и связанных с ними кодировок (кодовых страниц).

Система письменности

Кодировки

Используемый шрифт

Многоязычная

Юникод (UCS-2 с прямым и обратным порядком байтов, UTF-8, UTF-7)

Стандартный шрифт для стиля «Обычный» локализованной версии Word

Арабская

Windows 1256, ASMO 708

Courier New

Китайская (упрощенное письмо)

GB2312, GBK, EUC-CN, ISO-2022-CN, HZ

SimSun

Китайская (традиционное письмо)

BIG5, EUC-TW, ISO-2022-TW

MingLiU

Кириллица

Windows 1251, KOI8-R, KOI8-RU, ISO8859-5, DOS 866

Courier New

Английская, западноевропейская и другие, основанные на латинице

Windows 1250, 1252-1254, 1257, ISO8859-x

Courier New

Греческая

Windows 1253

Courier New

Иврит

Windows 1255

Courier New

Японская

Shift-JIS, ISO-2022-JP (JIS), EUC-JP

MS Mincho

Корейская

Wansung, Johab, ISO-2022-KR, EUC-KR

Malgun Gothic

Тайская

Windows 874

Tahoma

Вьетнамская

Windows 1258

Courier New

Индийские: тамильская

ISCII 57004

Latha

Индийские: непальская

ISCII 57002 (деванагари)

Mangal

Индийские: конкани

ISCII 57002 (деванагари)

Mangal

Индийские: хинди

ISCII 57002 (деванагари)

Mangal

Индийские: ассамская

ISCII 57006

Индийские: бенгальская

ISCII 57003

Индийские: гуджарати

ISCII 57010

Индийские: каннада

ISCII 57008

Индийские: малаялам

ISCII 57009

Индийские: ория

ISCII 57007

Индийские: маратхи

ISCII 57002 (деванагари)

Индийские: панджаби

ISCII 57011

Индийские: санскрит

ISCII 57002 (деванагари)

Индийские: телугу

ISCII 57005

  • Для использования индийских языков необходима их поддержка в операционной системе и наличие соответствующих шрифтов OpenType.

  • Для непальского, ассамского, бенгальского, гуджарати, малаялам и ория доступна только ограниченная поддержка.

К началу страницы

Как кодировка влияет на отображение сайта, чем отличается UTF-8 от Windows 1251 и где указать кодировку.

В статье:

  1. Зачем нужна кодировка

  2. Виды кодировок

  3. Как определить кодировку на сайте

  4. Если кодировка не отображается

  5. Где указать кодировку сайта

Разбираем, на что влияет кодировка, нужно ли указывать ее самостоятельно, и почему могут появиться так называемые «кракозябры» на сайте.

Зачем нужна кодировка

Кодировка (Charset) — способ отображения кода на экране, соответствие набора символов набору числовых значений. О ней сообщает строка Content-Type и сервер в header запросе.

Несовпадение кодировок сервера и страницы будет причиной появления ошибок. Если они не совпадают, информация декодируется некорректно, так что контент на сайте будет отображаться в виде набора бессвязных букв, иероглифов и символов, в народе называемых «кракозябрами». Такой текст прочитать невозможно, так что пользователь просто уйдет с сайта и найдет другой ресурс. Или останется, если ему не очень важно содержание:

На сайте слетела кодировка, пример

Студентка списывала реферат с формулами, а на сайте слетела кодировка. Реальная история

Google рекомендует всегда указывать сведения о кодировке, чтобы текст точно корректно отображался в браузере пользователя.

Кодировка влияет на SEO?

Разберемся, как кодировка на сайте влияет на индексацию в Яндекс и Google.

Яндекс четко заявляет:

«Тип используемой на сайте кодировки не влияет на индексирование сайта. Если ваш сервер не передает в заголовке кодировку, робот Яндекса также определит ее самостоятельно».

Позиция Google такая же. Поисковики не рассматривают Charset как фактор ранжирования или сигнал для индексирования, тем не менее, она косвенно влияет на трафик и позиции.

Если кодировка сервера не совпадает с той, что указана на сайте, пользователи увидят нечитабельные символы вместо контента. На таком сайте сложно что-либо понять, так что скорее всего пользователи сбегут, а на сайте будут расти отказы.

Некорректно указана кодировка на сайте

Пример страницы со слетевшей кодировкой

Поэтому она важна для SEO, хоть и влияет на него косвенно через поведенческие. Пользователи должны видеть читабельный текст на человеческом языке, чтобы работать с сайтом.

Виды кодировок

Существует довольно много видов, но сейчас распространены два:

UTF-8

Unicode Transformation Format — универсальный стандарт кодирования, который работает с символами почти всех языков мира. Символы могут занимать от 1 до 4 байт, такое кодирование позволяет создавать мультиязычные сайты.

Есть несколько вариантов — UTF-8, 16, 32, но чаще используют восьмибитное.

Windows-1251

Этот вид занимает второе место по популярности после UTF-8. Windows-1251 — кодирование для кириллицы, созданное на базе кодировок, использовавшихся в русификаторах операционной системы Windows. В ней есть все символы, которые используются в русской типографике, кроме значка ударения. Символы занимают 1 байт.

Выбор кодировки остается на усмотрение веб-мастера, но UTF-8 используют намного чаще — ее поддерживают все популярные браузеры и распознают поисковики, а еще ее удобнее использовать для сайтов на разных языках.

Определить кодировку страницы своего или чужого сайта можно через исходный код страницы. Откройте страницу сайта, выберите «Просмотр кода страницы» (сочетание горячих клавиш Ctrl+U» в Google Chrome) и найдите упоминание «charset» внутри тега head.

На странице сайта используется кодировка UTF-8:

Как посмотреть, какая кодировка на сайте

Указание кодировки в коде страницы

Узнать вид кодирования можно с помощью «Анализа сайта». Сервис проверяет в том числе и техническую сторону ресурса: анализирует серверную информацию, определяет кодировку, проверяет редиректы и другие пункты.

Как определить кодировку на сайте

Фрагмент анализа серверной информации сайта

С помощью этого же сервиса можно проверить корректность указанного кодирования. Аудит внутренних страниц «Анализа сайта» проверяет кодировку сервера и сравнивает ее с той, которая указана на внутренней странице. Найденные ошибки Анализ покажет в результатах проверки, и вы сразу узнаете, где нужно исправить.

Проверка кодировки на сайте

Отчет о технических данных
Проверить корректность кодировки онлайн
Кодировка сервера и страницы

Проверить кодировку еще можно через сервис Validator.w3, о котором писали в статье о проверке валидации кода. Нужная надпись находится внизу страницы.

Сервис для проверки кодировки на сайте

Кодировка сайта в валидаторе

Если валидатор не обнаружит Charset, он покажет ошибку:

Некорректная кодировка, пример

Ошибка указания кодировки

Но валидатор работает не точно: он проверяет только синтаксис разметки, поэтому может не показать ошибку, даже если кодирование указано неправильно.

Если кодировка не отображается

Если вы зашли на чужой сайт с абракадаброй, а вам все равно очень интересно почитать контент, то в Справке Google объясняют, как исправить кодирование текста через браузер.

О проблеме возникновения абракадабры на вашем сайте будут сигнализировать метрики поведения: вырастут отказы, уменьшится глубина просмотров. Но скорее всего вы и раньше заметите, что что-то пошло не так.

Главное правило — для всех файлов, скриптов, баз данных сайта и сервера должна быть указана одна кодировка. Ошибка может возникнуть, если вы случайно указали на сайте разные виды кодировки.

Яндекс советует использовать одинаковую кодировку для страниц и кириллических адресов структуры. К примеру, если робот встретит ссылку href=»/корзина» на странице с кодировкой UTF-8, он сохранит ее в этом же UTF-8, так что страница должна быть доступна по адресу «/%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0».

Где указать кодировку сайта

Если проблема возникла на вашем сайте, способ исправления зависит от вида сайта. Для одностраничника достаточно указать кодировку в мета-теге страницы, а для большого сайта есть разные варианты:

  • кодировка в мета-теге;
  • кодировка в .htaccess;
  • кодировка документа;
  • кодировка в базе данных MySQL.

Кодировка в мета-теге

Добавьте указание кодировки в head файла шаблона сайта.

При создании документа HTML укажите тег meta в начале в блоке head. Некоторые браузеры могут не распознать указание кодировки, если оно будет ниже.

Мета-тег может выглядеть так:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

или так:

<meta charset="utf-8">

В HTML5 они эквивалентны.

Где указывать кодировку на сайте

Тег кодировки в HTML

В темах WordPress обычно тег «charset» с кодировкой указан по умолчанию, но лучше проверить.

Кодировка в файле httpd.conf

Инструкции для сервера находятся в файле httpd.conf, обычно его можно найти на пути «/usr/local/apache/conf/».

Если вам нужно сменить кодировку Windows-1251 на UTF-8, замените строчку «AddDefaultCharset windows-1251» на «AddDefaultCharset utf-8».

Осторожнее: если вы измените в файле кодировку по умолчанию, то она изменится для всех проектов на этом сервере.

Убедитесь, что сервер не передает HTTP-заголовки с конфликтующими кодировками.

Кодировка в .htaccess

Добавьте кодировку в файл .htaccess:

  1. Откройте панель управления хостингом.
  2. Перейдите в корневую папку сайта.
  3. В файле .htaccess добавьте в самое начало код:
    1. для указания кодировки UTF-8 — AddDefaultCharset UTF-8;
    2. для указания кодировки Windows-1251 — AddDefaultCharset WINDOWS-1251.
  4. Перейдите на сайт и очистите кэш браузера.

Кодировка документа

Готовые файлы HTML важно сохранять в нужной кодировке сайта. Узнать текущую кодировку файла можно через Notepad++: откройте файл и зайдите в «Encoding». Меняется она там же: чтобы сменить кодировку на UTF-8, выберите «Convert to UTF-8 without BOOM». Нужно выбрать «без BOOM», чтобы не было пустых символов.

Кодировка Базы данных

Выбирайте нужную кодировку сразу при создании базы данных. Распространенный вариант — «UTF-8 general ci».

Где менять кодировку у БД:

  1. Кликните по названию нужной базы в утилите управления БД phpMyAdmin и откройте ее.
  2. Кликните на раздел «Операции»:
  3. Введите нужную кодировку для базы данных MySQL:
  4. Перейдите на сайт и очистите кэш.

С новой БД проще, но если вы меняете кодировку у существующей базы, то у созданных таблиц и колонок заданы свои кодировки, которые тоже нужно поменять.

Для всех таблиц, колонок, файлов, сервера и вообще всего, что связано с сайтом, должна быть одна кодировка.

Проблема может не решиться, если все дело в кодировке подключения к базе данных. Что делать:

  1. Подключитесь к серверу с правами mysql root пользователя:
    mysql -u root -p
  2. Выберите нужную базу:
    USE имя_базы;
  3. Выполните запрос:
    SET NAMES ‘utf8’;

Если вы хотите указать Windows-1251, то пишите не «utf-8», а «cp1251» — обозначение для кодировки Windows-1251 у MySQL.

Чтобы установить UTF-8 по умолчанию, откройте на сервере my.cnf и добавьте следующее:

В области [client]:

default-character-set=utf8

В области [mysql]:

default-character-set=utf8

В области [mysqld]:

collation-server = utf8_unicode_ci
init-connect='SET NAMES utf8'

character-set-server = utf8

Вы когда-нибудь сталкивались с проблемами кодировки на сайте?

Если при импорте контактов вы видите нечитаемые символы, как на скриншоте, это значит, что кодировка файла не подходит для импорта в Unisender. Файл нужно перекодировать в UTF-8. Далее мы расскажем, как это сделать в Excel.

нечитаемые числа.

Переходим на вкладку «Данные», выбираем «Получение внешних данных», а далее — «Из текста».

получение данных из текста.

Открывается мастер импорта текста.
С текущей кодировкой содержимое файла нечитабельное.

текущая кодировка.

В поле «Формат файла» перебираем кодировки, пока не найдём ту, в которой текст отображается правильно. Вариантов много, поэтому можно начать с форматов, которые начинаются со слова «Кириллица». Находим нужный формат, нажимаем «Далее».

выбор формата кодировки.

Выбираем символы-разделители. В нашем случае это запятая.

Нажимаем «Далее» → «Готово» → «OK».

выбираем символы-разделители.

Так выглядит импортированный текст в Excel.

как выглядит документ в ексель.

Теперь нажимаем «Файл» → «Сохранить как».

Вводим название файла, тип файла выбираем CSV, ниже нажимаем «Сервис» → «Параметры веб-документа».

сохраняем файл.

Переходим на вкладку «Кодировка», выбираем «Юникод UTF-8» и нажимаем «OK».

выбираем кодировку.

Файл сохранён.

Теперь импортируем его и видим, что текст отображается корректно.

корректное отображение текста после импорта.

Полезные ссылки

Формат данных для загрузки
Как импортировать контакты
Как импортировать номера телефонов
Что такое отчёт об ошибках при импорте
Проверка контактов

Вы нашли ответ?

Свежие статьи

  • Карта позиционирования
    10.02.2023
  • «Живые» письма: что такое интерактивный контент в рассылках
    09.02.2023
  • Внутренняя оптимизация сайта
    09.02.2023
  • Рерайтинг
    08.02.2023
  • Что в тренде в email 2023: мнения экспертов
    08.02.2023
  • Что такое просмотры в Telegram? Как они считаются, увеличиваются и накручиваются?
    08.02.2023

I am using a hosting company and it will list the files in a directory if the file index.html is not there. It uses ISO 8859-1 as the default encoding.

If the server is Apache, is there a way to set UTF-8 as the default instead?

I found out that it is actually using a DOCTYPE of HTML 3.2 and then there is not charset at all… so it is not setting any encoding. But is there a way to change it to use UTF-8?

Peter Mortensen's user avatar

asked May 27, 2009 at 4:04

nonopolarity's user avatar

nonopolaritynonopolarity

144k129 gold badges453 silver badges724 bronze badges

1

In httpd.conf add (or change if it’s already there):

AddDefaultCharset utf-8

answered May 27, 2009 at 4:11

MartinodF's user avatar

8

Add this to your .htaccess:

IndexOptions +Charset=UTF-8

Or, if you have administrator rights, you could set it globally by editing httpd.conf and adding:

AddDefaultCharset UTF-8

(You can use AddDefaultCharset in .htaccess too, but it won’t affect Apache-generated directory listings that way.)

answered Jun 7, 2012 at 6:44

Mathias Bynens's user avatar

Mathias BynensMathias Bynens

142k52 gold badges215 silver badges246 bronze badges

7

See AddDefaultCharset Directive, AddCharset Directive, and this article.

AddDefaultCharset utf-8

But I have to use Chinese characters
now and then. Previously, I translated
Chinese characters to Unicode code and
include it in the document using the
&# hack. But it is only useful for
page having a few characters.

There is a better way to do that:
encode the charset information in the
filename, and apache will output the
proper encoding header based on that.
This is possible thanks to the
AddCharset lines in the conf file,
such as the line below:

conf/httpd.conf:

AddCharset UTF-8 .utf8

So if you have a file whose
names ends in .html.utf8, apache will
serve the page as if it is encoded in
UTF-8 and will dump the proper
character-encoding directive in the
header accordingly.

answered May 27, 2009 at 4:11

Eugene Yokota's user avatar

Eugene YokotaEugene Yokota

94k45 gold badges212 silver badges315 bronze badges

In file .htaccess, add this line:

AddCharset utf-8 .html .css .php .txt .js

This is for those that do not have access to their server’s configuration file. It is just one more thing to try when other attempts failed.

As far as performance issues regarding the use of file .htaccess, I have not seen this. My typical page load times are 150-200 ms with or without file .htaccess.

What good is performance if your page does not render correctly? Most shared servers do not allow user access to the configuration file which is the preferred place to add a character set.

Peter Mortensen's user avatar

answered Aug 12, 2014 at 3:09

Misunderstood's user avatar

MisunderstoodMisunderstood

5,4281 gold badge17 silver badges25 bronze badges

7

On Ubuntu 12.04, it’s sufficient to uncomment the line AddDefaultCharset UTF-8 in /etc/apache2/conf.d/charset. If you’re using upstream Apache, the file may be called httpd.conf, and you may have to insert the line.

answered Mar 6, 2013 at 16:49

Bjartur Thorlacius's user avatar

3

For completeness, on Apache2 on Ubuntu, you will find the default charset in charset.conf in conf-available.

Uncomment the line

AddDefaultCharset UTF-8

answered Aug 26, 2014 at 0:27

David Glance's user avatar

2

This is untested, but it will probably work.

In your .htaccess file, add:

<Files ~ ".html?$">  
     Header set Content-Type "text/html; charset=utf-8"
</Files>

However, this will require mod_headers on the server.

Peter Mortensen's user avatar

answered May 27, 2009 at 4:09

MiffTheFox's user avatar

MiffTheFoxMiffTheFox

21.1k14 gold badges67 silver badges94 bronze badges

3

Just a hint if you have long filenames in UTF-8 format: by default they will be shortened to 20 bytes, so it may happen that the last character might be «cut in half» and therefore unrecognized properly. Then you may want to set the following:

IndexOptions Charset=UTF-8 NameWidth=*

NameWidth setting will prevent shortening your file names, making them properly displayed and readable.

As other users already mentioned, this should be added either in httpd.conf or apache2.conf (if you do have admin rights) or in .htaccess (if you don’t).

Peter Mortensen's user avatar

answered May 3, 2016 at 20:40

pstryk's user avatar

pstrykpstryk

1,8951 gold badge12 silver badges11 bronze badges

1

Where all the HTML files are in UTF-8 and don’t have meta tags for content type, I was only able to set the needed default for these files to be sent by Apache 2.4 by adding both directives:

AddLanguage ru .html
AddCharset UTF-8 .html

hon2a's user avatar

hon2a

6,8605 gold badges44 silver badges54 bronze badges

answered Dec 11, 2014 at 7:59

Alex's user avatar

Just leave it empty: 'default_charset' in WHM :::::: default_charset =''

P.S.: In WHM, go → HomeService ConfigurationPHP Configuration Editor → click ‘Advanced Mode’ → find ‘default_charset’ and leave it blank. Just nothing, not UTF-8 and not ISO.

Peter Mortensen's user avatar

answered Nov 4, 2016 at 9:55

grrow's user avatar

grrowgrrow

313 bronze badges

1

<meta charset=’utf-8′> overrides the Apache default charset (cf /etc/apache2/conf.d/charset)

If this is not enough, then you probably created your original file with the ISO 8859-1 encoding character set. You have to convert it to the proper character set:

iconv -f ISO-8859-1 -t UTF-8 source_file.php -o new file.php

Peter Mortensen's user avatar

answered Oct 22, 2020 at 16:37

Gaby's user avatar

GabyGaby

111 silver badge4 bronze badges

In my case I added this to file .htaccess:

AddDefaultCharset off
AddDefaultCharset windows-1252

Peter Mortensen's user avatar

answered Jan 11, 2020 at 19:15

Ruslan Novikov's user avatar


Вычислительная
система кафедры перешла на использование многобайтовой кодировки UTF-8
для файловых систем и пользовательского окружения вместо однобайтовой
кодировки KOI8-R. В данной инструкции рассматриваются типичные
проблемы, которые могли возникнуть у пользователей в связи с данным
переходом и предлагаются способы их решения (изменения настроек,
команды и т.п.).

Основные понятия

Юнико́д, или Унико́д (англ. Unicode™) — стандарт кодирования
символов, позволяющий представить знаки практически всех письменных
языков.

UTF-8 (от англ. Unicode Transformation Format — формат
преобразования Юникода) — кодировка, реализующая представление Юникода,
совместимое с 8-битным кодированием текста.

Важно понимать, что один символ в кодировке UTF-8 может быть
представлен более чем одним байтом. С этим связано, например, то, что
файл, содержащий текст в кодировке UTF-8 будет иметь больший размер по
сравнению с файлом, содержащим тот-же текст в кодировке KOI8-R.

Пример: команда wc имеет ключ -c для подсчета байтов и ключ -m для подсчета символов.

$ echo -n "Слово." | wc -c
11
$ echo -n "Слово." | wc -m
6

Имена файлов

Имена файлов были перекодированы автоматически с помощью утилиты convmv:

convmv -r -f koi8-r -t utf-8 --notest <каталог>

Каждому пользователю, в домашнем каталоге которого утилита convmv переименовала хотя бы один файл, был автоматически выслан журнал переименований.

При необходимости можно выполнить обратное преобразование:

 convmv -r -f utf-8 -t koi8-r <файлы и каталоги>

После проверки вывода команды повторить с ключем —notest. Ключ -r включает рекурсивный обход каталогов.

Содержимое файлов

Для того, чтобы преобразовать содержимое файлов из кодировки KOI8-R в кодировку UTF-8 можно воспользоваться командой:

recode koi8-r..utf-8 <filename>

Для потокового перекодирования используется команда:

iconv -f koi8-r <filename>

Редактор Emacs может автоматически распознать кодировку текста при
открытии файла. Принудительно задать кодировку открытия или сохранения
файла в редакторе Emacs можно следующим образом:

  1. Ввести комбинацию клавиш C-x RET c.
  2. Внизу экрана будет запрошена кодировка, которую вы хотите применить для следующей команды.
  3. Введите команду, которая будет выполнена с применением введенной на предыдущем шаге кодировки, например:
    • комбинацию клавиш для открытия файла: C-x C-f;
    • комбинацию клавиш для сохранения файла: C-x C-s.

Приложения

Текстовый терминал из Windows

Для корректного отображения русского текста при входе на серверы
кафедры с помощью терминального клиента PuTTY нужно указать в
настройках:

  • Раздел Window/Translation
    • Character set translation on recieved data: UTF-8

Текстовый терминал из Linux

Если системная локаль не UTF-8, то необходимо запустить X-терминал с поддержкой UTF-8 и выполнить вход по ssh из него.

Если системная локаль UTF-8, то никаких дополнительных действий предпринимать не надо.

Если по какой-то причине при входе по ssh не установились правильно переменные окружения локали (вывод команды locale не содержит строки LANG=ru_RU.UTF-8), то необходимо выполнить команду:

export LANG=ru_RU.UTF-8

WinSCP

Для корректного отображения русских имен файлов:

  • Раздел Environment
    • UTF-8 encoding for filenames: On

TEX

  • После выполнения перекодировки содержимого tex-файла (см. Содержимое файлов) необходимо сменить кодировку в преамбуле:

Было:

usepackage[koi8-r]{inputenc}

Стало:

usepackage[utf8x]{inputenc}
  • Также необходимо подключить пакет ucs:
usepackage{ucs}
  • Для установки диакритических знаков (ударений) нужно использовать полную форму стандартной записи ‘, т.е.:
Б'{о}льшую

Bibtex

Bib-файлы, содержащие описание литературы, хранятся в кодировке KOI8-R. После выполнения команды bibtex
необходимо сначала перекодировать получившийся bbl-файл в кодировку
UTF-8 (см. Содержимое файлов), а затем выполнять трансляцию
tex-файлов, подключающих этот список литературы.


Понравилась статья? Поделить с друзьями:

Читайте также:

  • Как изменить кодек файла
  • Как изменить кодек на honor
  • Как изменить кодек видеофайла на телефоне
  • Как изменить кодек видеофайла mp4
  • Как изменить кодек аудиофайла

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии