Špeciály (blok Unicode) - Specials (Unicode block)

Z Wikipédie, Voľnej Encyklopédie

Pin
Send
Share
Send

Špeciálne ponuky
RozsahU + FFF0..U + FFFF
(16 kódových bodov)
RovinaBMP
SkriptyBežné
pridelených5 kódových bodov
Nevyužité9 vyhradených kódových bodov
2 neznaky
História verzií Unicode
1.0.01 (+1)
2.12 (+1)
3.05 (+3)
Poznámka: [1][2]

Špeciálne ponuky je skratka Unicode blok pridelený na samom konci Základné viacjazyčné lietadlo, na U + FFF0 – FFFF. Z týchto 16 kódových bodov bolo od Unicode 3.0 pridelených päť:

  • U + FFF9 INTERLINEAR ANOTATION ANCHOR, označuje začiatok komentovaný text
  • U + FFFA MEDZIARNÝ ODDELOVAČ ANOTÁCIE, označí začiatok anotujúcich znakov
  • U + FFFB TERMINÁTOR MEDZIARNEJ ANOTACE, označí koniec bloku anotácií
  • U + FFFC CHARAKTER VÝMENY PREDMETU, zástupný symbol v texte pre ďalší nešpecifikovaný objekt, napríklad v a zložený dokument.
  • U + FFFD CHARAKTER VÝMENY slúži na nahradenie neznámeho, nerozpoznaného alebo nereprezentovateľného znaku
  • U + FFFE <noncharacter-FFFE> nie postava.
  • U + FFFF <noncharacter-FFFF> nie postava.

FFFE a FFFF nie sú nepriradené v obvyklom zmysle, ale zaručene, že to nebudú vôbec znaky Unicode. Dajú sa použiť na odhad schémy kódovania textu, pretože akýkoľvek text, ktorý ich obsahuje, nie je podľa definície správne zakódovaný text Unicode. Unicode U + FEFF ZNAČKA OBJEDNÁVKY BYTE Na začiatku textu Unicode je možné vložiť znak, ktorý signalizuje jeho znak endianizmus: program, ktorý číta taký text a stretne sa s 0xFFFE, by potom vedel, že by mal zmeniť poradie bajtov pre všetky nasledujúce znaky.

Názov jeho bloku v Unicode 1.0 bol Špeciálne.[3]

Náhradný znak

Náhradný znak

The náhradný znak (často čierny diamant s bielym otáznikom alebo prázdnym štvorcovým políčkom) je symbol nájdený v Unicode štandard v kódovom bode U + FFFD v Špeciálne ponuky stôl. Používa sa na označenie problémov, keď systém nie je schopný vykresliť tok údajov na správny symbol. Spravidla sa zobrazuje, keď sú údaje neplatné a nezhodujú sa so žiadnym znakom:

Zvážte textový súbor obsahujúci nemecké slovo für (znamená „pre“) v ISO-8859-1 kódovanie (0x66 0xFC 0x72). Tento súbor je teraz otvorený v textovom editore, ktorý predpokladá, že vstup je UTF-8. Prvý a posledný bajt sú platné kódovania ASCII UTF-8, ale prostredný bajt (0xFC) nie je platný bajt v UTF-8. Preto by textový editor mohol nahradiť tento bajt symbolom náhradného znaku, aby vytvoril platný reťazec Unicode kódové body. Celý reťazec sa teraz zobrazuje takto: „f r“.

Zle implementovaný textový editor môže uložiť náhradu vo forme UTF-8; údaje textového súboru potom budú vyzerať takto: 0x66 0xEF 0xBF 0xBD 0x72, ktoré sa v ISO-8859-1 zobrazia ako „f�r“ (toto sa nazýva mojibake). Pretože nahradenie je pri všetkých chybách rovnaké, znemožňuje obnovenie pôvodného znaku. Lepším (ale ťažšie implementovateľným) dizajnom je zachovať pôvodné bajty vrátane chyby a previesť ich na náhradu iba v prípade, že zobrazovanie text. To umožní textovému editoru uložiť pôvodnú sekvenciu bajtov a zároveň používateľovi naďalej zobrazovať indikátor chyby.

V rovnakom čase sa náhradný znak často používal, keď pre tento znak nebol v písme k dispozícii žiadny glyf. Väčšina moderných systémov na vykresľovanie textu však namiesto toho používa písmo .notdef znak, ktorý je vo väčšine prípadov prázdny rámček (alebo „?“ v rámčeku[4]), niekedy nazývaný „tofu„(tento prehliadač zobrazuje ). Pre tento symbol neexistuje žiadny bod kódu Unicode.

Náhradný znak sa teda teraz zobrazuje iba pri chybách kódovania, ako je napríklad neplatný UTF-8. Niektorý softvér sa to pokúša skryť prevedením bajtov neplatného UTF-8 na zodpovedajúce znaky v jazyku Windows-1252 (pretože to je najpravdepodobnejší zdroj týchto chýb), aby sa náhradný znak nikdy nevidel.

Tabuľka Unicode

Špeciálne ponuky[1][2][3]
Oficiálna tabuľka kódov konzorcia Unicode (PDF)
 0123456789ABC.DEF
U + FFFx IA
A
IA
S
IA
T
Poznámky
1.^ Od verzie Unicode 13.0
2.^ Šedé oblasti označujú nepriradené body kódu
3.^ Čierne oblasti označujú neznaky (body kódu, u ktorých je zaručené, že nebudú nikdy priradené ako kódované znaky v štandarde Unicode)

História

Nasledujúce dokumenty týkajúce sa Unicode zaznamenávajú účel a postup definovania konkrétnych znakov v bloku Špeciály:

VerziaKonečné body kódu[a]GrófUTC IDL2 IDWG2 IDDokument
1.0.0U + FFFD1(byť odhodlaný)
U + FFFE..FFFF2(byť odhodlaný)
L2 / 01-295RMoore, Lisa (06.11.2001), „Motion 88-M2“, Zápisnica zo stretnutia UTC / L2 # 88
L2 / 01-355N2369 (html, doc)Davis, Mark (2001-09-26), Žiadosť o povolenie FFFF, FFFE v UTF-8 v texte ISO / IEC 10646
L2 / 02-154N2403Umamaheswaran, V. S. (2002-04-22), „9.3 Povolenie FFFF a FFFE v UTF-8“, Návrh zápisnice zo stretnutia pracovnej skupiny 2 41, Hotel Phoenix, Singapur, 19. 10. 2001
2.1U + FFFC1UTC / 1995-056Sargent, Murray (06.12.1995), Odporúčanie na zakódovanie znaku WCH_EMBEDDING
UTC / 1996-002Aliprand, Joan; Hart, Edwin; Greenfield, Steve (05.03.1996), „Vložené objekty“, UTC # 67 minút
N1365Sargent, Murray (1996-03-18), Zhrnutie návrhu - znak výmeny objektu
N1353Umamaheswaran, V. S .; Ksar, Mike (25.06.1996), „8,14“, Návrh zápisnice zo zasadania WG2 v Kodani č. 30
L2 / 97-288N1603Umamaheswaran, V. S. (1997-10-24), „7.3“, Nepotvrdená zápisnica zo schôdze, 2. schôdza pracovnej skupiny č. 33, Iraklio, Kréta, Grécko, 20. júna - 4. júla 1997
L2 / 98-004RN1681Text ISO 10646 - AMD 18 pre registráciu PDAM a hlasovanie FPDAM, 1997-12-22
L2 / 98-070Aliprand, Joan; Winkler, Arnold, „Ďalšie komentáre týkajúce sa bodu 2.1“, Zápisnica zo spoločného stretnutia UTC a L2 zo stretnutia v Cupertine 25. - 27. februára 1998
L2 / 98-318N1894Prepracované znenie dokumentu 10646-1 / FPDAM 18, POZMEŇOVACÍ NÁVRH 18: Symboly a ďalšie, 1998-10-22
3.0U + FFF9..FFFB3L2 / 97-255RAliprand, Joan (03.12.1997), „3.D návrh na in-line notáciu (rubín)“, Schválené zápisnice - spoločné stretnutie UTC # 73 a L2 # 170, Palo Alto, Kalifornia - 4. - 5. augusta 1997
L2 / 98-055Freytag, Asmus (1998-02-22), Podpora implementácie vložených a medziriadkových anotácií
L2 / 98-070Aliprand, Joan; Winkler, Arnold, „3.C.5. Podpora implementácie riadkových a medziriadkových anotácií“, Zápisnica zo spoločného stretnutia UTC a L2 zo stretnutia v Cupertine 25. - 27. februára 1998
L2 / 98-099N1727Freytag, Asmus (1998-03-18), Podpora implementácie medziriadkových anotácií, ako sa používajú vo východoázijskej typografii
L2 / 98-158Aliprand, Joan; Winkler, Arnold (1998-05-26), „Inline a Interlineárne anotácie“, Návrh zápisnice - UTC # 76 a NCITS Podskupina L2 # 173 spoločné stretnutie, Tredyffrin, Pensylvánia, 20. - 22. apríla 1998
L2 / 98-286N1703Umamaheswaran, V. S .; Ksar, Mike (02.07.1998), „8.14“, Nepotvrdené zápisy zo stretnutí, schôdza pracovnej skupiny 2, č. 34, Redmond, WA, USA; 1998-03-16-20
L2 / 98-270Hiura, Hideki; Kobajaši, Tatsuo (1998-07-29), Návrh na návrh vloženej a medziriadkovej anotácie
L2 / 98-281R (pdf, html)Aliprand, Joan (1998-07-31), „In-Line a Interlineárna anotácia (III.C.1.c)“, Nepotvrdené minúty - UTC # 77 a NCITS Podskupina L2 # 174 SPOLOČNÉ ZASADNUTIE, Redmond, WA - 29. - 31. júla 1998
L2 / 98-363N1861Sato, T. K. (01.09.1998), Ruby markery
L2 / 98-372N1884R2 (pdf, doc)Whistler, Ken; a kol. (1998-09-22), Ďalšie znaky pre UCS
L2 / 98-416N1882.zipPodpora implementácie medziriadkových anotácií, 1998-09-23
L2 / 98-329N1920Kombinovaná registrácia PDAM a hlasovanie o zvážení na WD pre ISO / IEC 10646-1 / Amd. 30, POZMEŇOVACÍ NÁVRH 30: Dodatočné znaky latinky a ďalšie znaky, 1998-10-28
L2 / 98-421RSuignard, Michel; Hiura, Hideki (04.12.1998), Poznámky týkajúce sa znakov medziriadkovej anotácie PDAM 30
L2 / 99-010N1903 (pdf, html, doc)Umamaheswaran, V. S. (1998-12-30), „8.2.15“, Zápisnica z rokovania pracovnej skupiny 2 35, Londýn, Spojené kráľovstvo; 1998-09-21-25
L2 / 98-419 (pdf, doc)Aliprand, Joan (02.02.1999), „Interlinear Annotation Characters“, Schválené zápisnice - UTC # 78 a NCITS Podskupina L2 # 175 Spoločné stretnutie, San Jose, CA - 1. - 4. decembra 1998
UTC / 1999-021Duerst, Martin; Bosak, Jon (1999-06-08), Vyhlásenie W3C XML CG o anotačných znakoch
L2 / 99-176RMoore, Lisa (04.11.1999), „Styčné vyhlásenie W3C k znakovým anotáciám“, Zápisnica zo spoločného stretnutia UTC / L2 v Seattli 8. - 10. júna 1999
L2 / 01-301Whistler, Ken (2001-08-01), „E. Označený ako„ silne odrádzaný “pre výmenu obyčajného textu“, Analýza nepoužívania znakov v štandarde Unicode
  1. ^ Navrhované názvy znakov a znakov sa môžu líšiť od konečných znakov a mien znakov

Pozri tiež

Referencie

  1. ^ "Databáza znakov Unicode". Štandard Unicode. Získané 2016-07-09.
  2. ^ „Vymenované verzie štandardu Unicode“. Štandard Unicode. Získané 2016-07-09.
  3. ^ „3.8: Grafy po blokoch“ (PDF). Štandard Unicode. verzia 1.0. Konzorcium Unicode.
  4. ^ „Odporúčania pre písma OpenType (OpenType 1.7) - typografia“. docs.microsoft.com. Získané 18. októbra 2020.

Pin
Send
Share
Send