Python для начинающих

Программа курса:

1.1 - Знакомство с языками программирования 1.2 - Введение в Python 1.3 - Начало работы с кодом Python и редактором кода VSCode 1.4 - Первые функции и запуск кода

2.1 - Варианты выполнения кода и переменные, объекты, типы данных в Python 2.2 - Функция input() в Python 2.3 - Числа и операции над ними 2.4 - Функция print() 2.5 - Логический тип и операции сравнения

3.1 - Строки и методы работы с ними 3.2 - Комментарии в коде 3.3 - Форматирование строк: метод format и F-строки

4.1 - Списки и Кортежи, их методы и функции 4.2 - Распаковка массивов

5.1 - Условные конструкции, тернарный оператор и вложенные условия 5.2 - Цикл while 5.3 - Цикл for и итерируемые объекты 5.4 - Генераторы массивов 5.5 - НУ ВСЁ, НА ЭТОМ МОИ ПОЛНОМОЧИЯ, ОКОНЧЕНЫ

Кодировка символов в Python

Сегодня мы нырнем в пучину одной из самых "волосатых" тем в программировании — кодировку символов. Если вы когда-нибудь видели в консоли надпись РџСЂРёРІРµС‚! вместо "Привет!", значит, вы уже знакомы с тем, как кодировки могут превратить ваш код в тарабарщину. Но не паникуйте! Мы разберемся, как Python работает с символами, почему ваш текст иногда выглядит как послание инопланетян, и как этого избежать. Вперед, в мир байтов, Unicode и магии преобразований!

Что такое кодировка?

Представьте, что компьютер — это иностранец, который понимает только цифры. Когда вы пишете букву "А", он видит не символ, а число. Кодировка — это словарь, который говорит: "Эй, машина, число 65 — это буква 'A', а число 1040 — это русская 'А'". Без кодировок компьютеры бы просто путали кириллицу с эмодзи 😱.

ASCII — дедушка всех кодировок
В начале времен (в 1960-х) появилась кодировка ASCII. Она использовала 7 бит и могла записать 128 символов: латиницу, цифры и знаки препинания. Но тут возникла проблема: как впихнуть в 128 символов кириллицу, иероглифы или смайлы? Ответ: никак. ASCII — как маленькая квартира: места хватит только для базового набора.

Unicode — спаситель человечества
Чтобы все языки мира уместились в одном "алфавите", создали Unicode — мегасловарь, где каждому символу присвоен уникальный номер (например, U+0410 для "А"). Но как хранить эти номера в памяти? Тут на сцену выходят кодировки вроде UTF-8, UTF-16 и других. Они решают, как превратить номер символа в байты (и обратно).

Python и кодировки

В Python 3 есть два типа данных для работы с текстом и байтами:

str — это строки в Unicode. Они как идеальный переводчик: понимают все языки.
bytes — это "сырые" байты, последовательность чисел от 0 до 255. Они как коробка с пазлами: пока не соберешь, не поймешь, что внутри.

Пример:

text = "Привет, 世界!"  # Это строка (str), Unicode
binary_data = text.encode('utf-8')  # А это байты (bytes): b'\xd0\x9f\xd1\x80...'

Если попытаться вывести binary_data без декодирования, получите нечто вроде b'\xd0\x9f...' — это байты в шестнадцатеричном формате. Чтобы превратить их обратно в текст, нужно правильно выбрать кодировку (как ключ от замка).

UTF-8 и Другие кодировки

UTF-8 — это король современных кодировок. Почему?

Он обратно совместим с ASCII: старые тексты работают без проблем.
Экономит место: английский текст занимает столько же байт, сколько в ASCII.
Поддерживает все символы Unicode, включая эмодзи 🦄.

Другие кодировки:

UTF-16 и UTF-32 — используют 2 или 4 байта на символ. Мощно, но расточительно.
Windows-1251 (кириллица) и ISO-8859-1 (Европа) — локальные герои, но за пределами своей зоны бесполезны.
KOI8-R — ретро-кодировка для русского языка, как виниловая пластинка: редко, но атмосферно.

Проблема: Если открыть файл в неправильной кодировке, текст превратится в кракозябры. Например, русский текст в Windows-1251, прочитанный как ISO-8859-1, станет чем-то вроде "РџСЂРёРІРµС‚!".

Таблица с популярными кодировками, их описанием и примерами использования:

Кодировка	Описание	Пример использования
ASCII	7-битная кодировка, поддерживает только английский алфавит, цифры и символы.	`A` → `65`, `a` → `97`
UTF-8	Универсальная кодировка, поддерживает все символы Unicode. Экономит место для ASCII.	`A` → `65`, `Я` → `D0 AF`, `😊` → `F0 9F 98 8A`
UTF-16	Использует 2 или 4 байта на символ. Подходит для текстов с большим количеством символов за пределами ASCII.	`A` → `00 41`, `Я` → `04 2F`, `😊` → `D8 3D DE 0A`
UTF-32	Использует 4 байта на символ. Простая, но расточительная кодировка.	`A` → `00 00 00 41`, `Я` → `00 00 04 2F`
Windows-1251	Кодировка для кириллицы, используется в Windows.	`А` → `C0`, `Я` → `DF`
ISO-8859-1	Кодировка для западноевропейских языков (латиница).	`A` → `41`, `é` → `E9`
KOI8-R	Кодировка для русского языка, популярная в Unix-системах.	`А` → `E1`, `Я` → `D1`
CP866	Кодировка для кириллицы, использовалась в DOS.	`А` → `80`, `Я` → `AF`
Shift_JIS	Кодировка для японского языка.	`あ` → `82 A0`, `ア` → `83 41`
GB2312	Кодировка для китайского языка (упрощенные иероглифы).	`中` → `D6 D0`, `文` → `CE C4`
EBCDIC	Кодировка, используемая в мейнфреймах IBM.	`A` → `C1`, `0` → `F0`

Пояснения к таблице:

ASCII — базовая кодировка, но она не поддерживает кириллицу, иероглифы или эмодзи.
UTF-8 — самая популярная кодировка в современном мире. Она поддерживает все символы Unicode и экономит место для текстов на английском.
UTF-16 и UTF-32 — используются реже, но полезны для специфических задач, где важна простота обработки.
Windows-1251 и KOI8-R — локальные кодировки для русского языка. Если открыть файл в неправильной кодировке, текст превратится в кракозябры.
Shift_JIS и GB2312 — кодировки для азиатских языков. Они поддерживают тысячи иероглифов.
EBCDIC — устаревшая кодировка, но до сих пор используется в некоторых банковских системах.

Примеры использования:

UTF-8:

text = "Привет, мир! 😊"
binary = text.encode('utf-8')  # b'\xd0\x9f\xd1\x80...'
decoded = binary.decode('utf-8')  # "Привет, мир! 😊"

Windows-1251:

text = "Привет!"
binary = text.encode('windows-1251')  # b'\xcf\xf0\xe8\xe2\xe5\xf2!'
decoded = binary.decode('windows-1251')  # "Привет!"

KOI8-R:

text = "Привет!"
binary = text.encode('koi8-r')  # b'\xf0\xd2\xc9\xd7\xc5\xd4!'
decoded = binary.decode('koi8-r')  # "Привет!"

Важно:

Всегда указывайте кодировку при работе с файлами или сетевыми запросами.

Если вы не уверены в кодировке, попробуйте угадать её с помощью библиотек, например chardet:

import chardet
data = b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82!'
result = chardet.detect(data)
print(result)  # {'encoding': 'utf-8', 'confidence': 0.99}

Байты и строки

Представьте: вы получили сообщение в байтах — b'\xd0\x9f\xd1\x80\xd0\xb8...'. Как понять, что это?

Если это русский текст, попробуйте декодировать через utf-8:
```
binary_data.decode('utf-8')  # "Привет!"
```
Если декодировать через latin-1, получите "ÐŸÑ€Ð¸..." — типичные кракозябры.

Важно: Байты — это не текст! Это как коробка с зашифрованным посланием. Без правильного "ключа" (кодировки) вы его не прочитаете.

Совет: Всегда явно указывайте кодировку при работе с файлами:

# Открываем файл с указанием кодировки
with open('secret.txt', 'r', encoding='utf-8') as file:
    text = file.read()

Если пропустить encoding, Python использует системную кодировку по умолчанию. На Windows это часто cp1251, и тогда ваш файл в utf-8 превратится в "иероглифы".

Шестнадцатеричные Escape-символы

Иногда Python показывает символы в виде \x41 (для "A") или \u0410 (для "А"). Это шестнадцатеричное представление символов. Например:

\x41 — байт 0x41 (65 в десятичной) → символ "A".
\u0410 — Unicode-символ с кодом U+0410 → русская "А".

Пример "магии":

text = "\u0031\u0432\u0430\u043d"  # "1ван"

Это удобно, если нужно вставить символ, которого нет на клавиатуре.

Кодировки в строках

В Python есть префиксы для строк, которые меняют их поведение:

b'' — строка байтов: b'hello'.
u'' — строка Unicode (в Python 3 это по умолчанию).
r'' — "сырая" строка (игнорирует экранирование): r'C:\Users\Хакер'.

Совет: Префикс r спасает, когда нужно использовать обратные слеши без экранирования (например, в регулярных выражениях или путях файлов).

Ошибки кодировки

Когда Python не может преобразовать байты в строку (или наоборот), он выбрасывает ошибку. Самые частые:

UnicodeEncodeError — попытка записать символ, которого нет в целевой кодировке.
Например, записать русскую "Я" в ASCII (он её не знает).
UnicodeDecodeError — попытка прочитать байты в неправильной кодировке.
Например, прочитать utf-8 как cp1251.

Решение: Используйте параметр errors:

ignore — пропустить недопустимые символы.
replace — заменить их на ? (для декодирования) или \ufffd (для кодирования).
xmlcharrefreplace — заменить на XML-сущности (например, А для "А").

Пример:

text = "Привет, 🐍"
binary = text.encode('ascii', errors='replace')  # b'??????, ?'

Кодировки и Веб

Если вы отправляете данные на сервер или в браузер без указания кодировки, возможны два исхода:

Все работает (если повезет).
Пользователи видят абракадабру и шлют вам гневные письма.

HTTP-заголовки и HTML-теги должны явно указывать кодировку:

<meta charset="UTF-8">

Иначе браузер попытается угадать её, что может привести к "сюрпризам". Например, кириллица может отобразиться как РґРІР° вместо "два".

Забавные факты о кодировках

Эмодзи в Unicode — это тоже символы! 🎉 Смайлик "😂" имеет код U+1F602.
Самый редкий символ — U+1F47D (👽). Привет, инопланетяне!
Споры о пробеле: В Unicode есть пробелы разной ширины (например, U+2002 — средний пробел). Дизайнеры это оценят.
Кодировка EBCDIC, использовавшаяся в мейнфреймах IBM, до сих пор жива в некоторых банковских системах. Это как динозавр в IT-музее.

Философия кодировок

Кодировки — это мосты между людьми и машинами. Они позволяют:

Сохранять знания на всех языках.
Общаться без границ (даже если ваш друг говорит на китайском, а вы — на суахили).
Создавать программы, которые понимают весь мир.

Помните: Неправильная кодировка — как неправильный переводчик на переговорах. Может выйти конфуз!

Заключение: Кодируй с умом, и будет тебе счастье

Теперь вы знаете, что кодировки — это не страшные монстры, а инструменты. Главное — всегда явно указывать, с чем работаете. Используйте UTF-8, проверяйте кодировки файлов и не доверяйте "автоопределению".

И если вы вдруг увидите в консоли Ð¢Ð°Ðº Ð·Ð´Ð¾Ñ€Ð¾Ð²Ð¾!, не спешите винить Python. Возможно, вы просто забыли сказать ему: "Эй, это же UTF-8!". Удачи в мире байтов и символов! 😎

Перейти к следующему шагу

Вы должны Войти или Зарегистрироваться чтобы оставлять комментарии