Комбинируемый символ

В цифровой типографике комбинируемые символы — это символы, предназначенные для изменения других символов. Наиболее распространенными комбинируемыми символами в латинице являются комбинируемые диакритические знаки (в том числе комбинируемые акценты).
Юникод также содержит много предварительно составленных символов, так что во многих случаях можно использовать как комбинируемые диакритические знаки, так и предварительно составленные символы по выбору пользователя или приложения. Это приводит к требованию выполнить нормализацию Юникода перед сравнением двух строк Юникода и тщательно разработать преобразователи кодирования, чтобы правильно сопоставить все допустимые способы представления символа в Юникоде с устаревшей кодировкой, чтобы избежать потери данных.
В Юникоде основным блоком для комбинируемых диакритических знаков европейских языков и Международного фонетического алфавита является U+0300…U+036F. Комбинируемые диакритические знаки также присутствуют во многих других блоках Юникода. В Юникоде диакритические знаки всегда ставятся после основного символа (в отличие от некоторых более старых наборов комбинируемых символов, таких как ANSEL, что позволяет добавлять несколько диакритических знаков к одному символу.
Zalgo-текст

Комбинируемые символы также используются для создания так называемого «Zalgo-текста» — текста, выглядящего искажённым из-за чрезмерного использования диакритических знаков. Это заставляет текст расширяться по вертикали, перекрывая этим другой текст[1].
п̴̢̧̡̧̨̨̨̡̧̢̢̢̢̡̡̢̨̡̧̢̛̛͈͕̩̱̼̲͚̼̻͉̱̤͔̞̤̝̠̗͍̯̰̹̺̺̘͎̝̦̱̤̩͉̼͕̳̹͕͙̘̘̝̘̦̜͇̞͇̰̙̘͙̞̖̝̰̘̰̫̰͉͉͚̥͉̝̣̥̠̳̘͕̖̹̪̘̦̝̗͖̭̺̪̱͓̝̻͈̟̲̳̞̫̥̞̝̹̜̱̺̹͕̟̖̰̫̟͇̭͇̩͖̘̩̺̱̥̯̮̜̰̘̹̼̲̬̣̞̬̥͖͇͎̤̠̠̜̮̱̱̩͙̥͔̯͕̘͍̳͚̝̼͍̱̳̼͓̱̟̫̭͓̬̘̻̟̜̮̹͍̳̙̟̙̝̦͇̣̤̮̘͉̭͙̩͓̯̥̳̳̠̻̭̭͕̝̮̞̠̺͈̮̦̥̺̩͉̞͔̗̬̣̣̬͔̦̩̬̘̟̹͎͎̤̖̻̱͍͍̝͔̠̼͔̦͚̦͍̤̭̝͖͈̥̱͉͉̟̲̫̻̤͓̮̖̜̱̖͍̦̺̦͍̩̱͔͆̈́̈́̎͑̉͋͑͂̾̐̿͑̈́̈͌̇͗̏̔̓̓̐̇̈́̾̇̈̐̾͐̐̊̊̔̋̀̍͌͒͌͌̎͊̔̓̒͑̈́͒̅̂̈́̊̔̄̾͐̃͋͋̐̈̒̂̆͌͐͐͛́͋̏̿͒̋̀̃̕̕̚̕͘̚̕͜͜͜͜͠͝͝͝ͅͅͅͅͅͅͅͅͅр̷̨̧̡̧̨̡̛̛̛̛̛̰̙͔̯͚͔̠͓͙̭̼̱̫̹̪̪̞̤̪͔̻͓̪̥̣̫̪̬̰̘͙͋̆̏̔͛́̀̀̒̊̆̊̅͌͌̓̊̌̍͊͒͊͆̎̀̅̏̃̆̅͒͒͑͒͗̇̈́̈́̓̒̾̂̀̈́͛̈̌̉͂̉̓̊̓͋̈́̀̌̍̉̆̈̊͋̀͐͂̀̃̄̒̋͒̈̄̐̈̈́̒͊̀̀̂͒̍̂̃͋̋̌̑͊́̅̿̌̌̆̆́́́͛̒̃̔̋̆̊̐̀̐͊̉͗͑̂͒͐̿̇͊̍͋̏̏͊͛́̉̌̿̇̔̀̓̒̈́̂̀͋̉͗̎̽͐̍̀͊́́̉̍̿̉̉̆͒̀̃͛̈́̏̇̾͛̏̎̓̋̈́̽̚̚͘̚̚̕͘͘͘̕̚̚͜͜͠͝͠͠͠͝͠͠͠͝͝ѝ̴̡̡̢̛̟͚͉̲̞͓͍͚̱͉͖͕̙̮͎̳̣̰͙̞͍͊̐͐̂̃͛̽̈́̇̒͌̓̿̑̑̽̀̉́̑̏̚͝͝͝͝ͅм̸̡̡̢̛̛̛̣͉̗̪͚͔̹̜̣̱̜̠͎̥̘͎̟̥̬̘́̄̂̌͌͑͛̾͒̑̈̋̌̉̾͑͛̒̓͗̈́́̿̇́́̎͒̌̓̎̊͋͛́̊̅̃̇͛̄̽̒̋̋̇͂̋̐̈͐̆͑̎̂̔͂͊̈́̔̑̎̾̽̔́̃́̌̒̐͑̌̐͋̅͆̇̈́̏̃̋̈́̍͛̿̈́̅̿̌̔̈́̅̄͐̈́̔͋̄̎͑̇͊́̇̌͊̃̏̄͂̊͌̇͗̆̈́̿͋̍̈̎̑̿̈́͗̋̎̓̐̆̾̈́͋̎̎̍̀̈́̈́͋͗̾͐̉̃̌͋͊̕͘͘͘̚̚̚͠͝͠͝͝͝͠͝͝͠͝͝͠͠͝ͅͅе̴̧̨̡̡̛̛̜͈͇̗̦̳͙̪͍̼̯̬̳̺͖̲͖͓̖̦̮̪̗͉̖͈̏̽̅̍̌́̒̿́̾̈̀͛̈́̈̆̊̏͐̈́̀̃̍͊̈́̔̋͋̇̍̈̓̾̊͐̓̋̓̄̇̾̿́̓̽̃͒̀̆̀̏̅̈́͆̐̄͂̅̾̓͂̓̇̎͊̽̀͐̈́͑͐̑̏̈́̐̈́̋̈̂̈́̀̈́̈́̽̏̈͛̽̋͛̀̈́́͋̿̈̋̑̌̿̆͐̍͗́̓́̊̌̊̍͊͊͒̓̉͛̈͑̀͑̉̾͊̅̍̅̈́̾̊̀̾̎̐͒̾́̏̃̇̅̑͆̅͂̊̄͐́̔͑͑̍́͌̂́͗͆͛͋̎̈́̀̋̅̀͋̆̔̄͂̅̒̋͊̉̽͊̀̉̄͌͒͌͛̈̈̆͊̉̋̿̈͋̎́̆̂͊̉̇̾̉̓̑͗̌͊͂͋̎́͋̽̈́͑̇̆̚̕̚̚̕̚͘̕͘̚̕̕̕̕̚̚̚̚͜͝͝͠͠͝͝͝͠͝͠͝͝͝͝͠͝͝р̵̛̛̛̤̖̩̺̖̹̯̮̄͊̈͋̑͒͆͋͗̌̇̈͒̃̎͌̇̔̋̄̓̔̍̑͗͆̈́̒́̾̉̅͒͒̇̄̎̋͌̅̽̀͌̈́͐̈̆̑̍̒̅̄̑̀̽̆͌̈́̊̋̔̀̓̌̓́̊̑̓̋̀͋̑̍̊̔̃̄́̔̂͂̾͋̅͋͗̏͒͊̔̏̽̽̏̽̍̓́̈̔̑͊̀̌́̓̕͘̕̚͘͘̚̕͘̕͘͝͝͝͝
Диапазоны в Юникоде
Юникод содержит следующие блоки, предназначенные специально для комбинируемых диакритических знаков:
- Комбинируемые диакритические знаки (англ. Combining Diacritical Marks, U+0300…U+036F)
- Расширенные комбинируемые диакритические знаки (англ. Combining Diacritical Marks Extended, U+1AB0…U+1AFF)
- Дополнение к комбинируемым диакритическим знакам (англ. Combining Diacritical Marks Supplement, U+1DC0…U+1DFF)
- Комбинируемые диакритические знаки для символов (англ. Combining Diacritical Marks for Symbols, U+20D0…U+20FF)
- Комбинируемые полузнаки (англ. Combining Half Marks, U+FE20…U+FE2F)
Канонический класс комбинируемости
Одна из характеристик символа в Юникоде — канонический класс комбинируемости, принимающий только числовые значения[2].
| Значение | Полное английское название | Русский перевод | Описание |
|---|---|---|---|
| 0 | Not_Reordered | Не определён | Некомбинируемые и обрамляющие знаки; также многие знаки для гласных и согласных, даже если они комбинируемые |
| 1 | Overlay | Накладывающийся знак | Знаки, накладывающиеся на базовую букву или символ |
| 7 | Nukta | Нукта | Нукта — знак в системах письма, происходящих от брахми |
| 8 | Kana_Voicing | Знаки звонкости каны | Знаки звонкости в кане — дакутэн и хандакутэн |
| 9 | Virama | Вирама | Вирама — знак в системах письма, происходящих от брахми |
| 10—199 | Ccc10—Ccc199 | Канонические классы комбинируемости 10—199 | Классы фиксированных позиций |
| 200 | Attached_Below_Left | Контактный знак слева снизу | |
| 202 | Attached_Below | Контактный знак снизу | |
| 204 | — | ||
| 208 | — | ||
| 210 | — | ||
| 212 | — | ||
| 214 | Attached_Above | Контактный знак сверху | |
| 216 | Attached_Above_Right | Контактный знак справа сверху | |
| 218 | Below_Left | Знак слева снизу | |
| 220 | Below | Знак снизу | |
| 222 | Below_Right | Знак справа снизу | |
| 224 | Left | Знак слева | |
| 226 | Right | Знак справа | |
| 228 | Above_Left | Знак слева сверху | |
| 230 | Above | Знак сверху | |
| 232 | Above_Right | Знак справа сверху | |
| 233 | Double_Below | Двойной знак снизу | |
| 234 | Double_Above | Двойной знак сверху | |
| 240 | Iota_Subscript | Подстрочная йота | Только греческая подстрочная йота |
См. также
Примечания
- ↑ How does Zalgo text work? Stack Overflow. Дата обращения: 11 апреля 2019. Архивировано 27 мая 2019 года.
- ↑ Unicode Standard Annex #44 — Canonical Combining Class Values. Дата обращения: 6 июня 2019. Архивировано 8 июня 2019 года.