Одна и та же строка может быть представлена по-разному в Unicode

Библиотека Python разработчика | Книги по питону

Одна и та же строка может быть представлена по-разному в Unicode, и стандарт это учитывает. Он определяет два типа эквивалентности: последовательности могут быть канонически эквивалентными или совместимыми.

Канонически эквивалентные последовательности выглядят одинаково, но содержат разные кодовые точки. Например, символ ö может быть представлен как LATIN SMALL LETTER O WITH DIAERESIS (U+00F6) или как комбинация из o и диакритического знака: LATIN SMALL LETTER O (U+006F) + COMBINING DIAERESIS (U+0308).

Совместимые последовательности выглядят по-разному, но могут трактоваться одинаково с точки зрения смысла, например, ﬀ и ff.

Для каждого из этих типов эквивалентности можно нормализовать строку в Unicode, сжимая или расширяя последовательности. В Python для этого используется модуль unicodedata:


import unicodedata

modes = [
    # Сжать канонически эквивалентные
    'NFC',
    # Расширить канонически эквивалентные
    'NFD',
    # Сжать совместимые
    'NFKC',
    # Расширить совместимые
    'NFKD',
]

s = 'ﬀ + ö'

for mode in modes:
    norm = unicodedata.normalize(mode, s)
    print('\t'.join([
        mode,
        norm,
        str(len(norm.encode('utf8'))),
    ]))

Результат:


NFC     ﬀ + ö   8
NFD     ﬀ + ö   9
NFKC    ff + ö  7
NFKD    ff + ö  8

👉@BookPython

👍5

www.tgoop.com/BookPython/3604

2.49K viewsApr 7 at 06:30

tgoop.com/BookPython/3604

Create: 2025-04-07
Last Update: 2025-07-08 15:39:46


import unicodedata

modes = [
    # Сжать канонически эквивалентные
    'NFC',
    # Расширить канонически эквивалентные
    'NFD',
    # Сжать совместимые
    'NFKC',
    # Расширить совместимые
    'NFKD',
]

s = 'ﬀ + ö'

for mode in modes:
    norm = unicodedata.normalize(mode, s)
    print('\t'.join([
        mode,
        norm,
        str(len(norm.encode('utf8'))),
    ]))

Результат:


NFC     ﬀ + ö   8
NFD     ﬀ + ö   9
NFKC    ff + ö  7
NFKD    ff + ö  8

👉@BookPython

BY Библиотека Python разработчика | Книги по питону

Share with your friend now:
tgoop.com/BookPython/3604

Telegram News

Одна и та же строка может быть представлена по-разному в Unicode