|
CHARSETS(4) manual page
Table of Contents
charsets - il punto di vista del programmatore sugli insiemi di caratteri
e sull'internazionalizzazione
Linux è un sistema operativo
internazionale. Molte delle sue utilità e device driver (incluso il driver
di consolle) supportano insiemi di caratteri multilinguistici, come le
lettere dell'alfabeto latino con segni diacritici, accenti, logotipi (ligature,
in inglese), e interi alfabeti non latini compresi quello greco, cirillico,
arabico ed ebraico.
Questa pagina di manuale presenta il punto di vista
di un programmatore sui diversi standard per gli insiemi di caratteri
e su come interagiscono in Linux. Gli standard discussi includono ASCII,
ISO 8859, KOI8-R, Unicode, ISO 2022 e ISO 4873.
ASCII (American
standard code for information: Codice standard americano per l'informazione)
è l'insieme di caratteri originale a 7 bit, creato in origine per l'inglese
americano. Viene ora descritto dallo standard ECMA-6.
Una variante di ASCII
che sostituisce il cancelletto «#» col simbolo della sterlina inglese
è usata in Gran Bretagna; se necessario, le varianti americane e britanniche
possono essere distinte come «US ASCII» e «UK ASCII».
Essendo Linux stato
scritto per hardware progettato negli USA, supporta nativamente lo US
ASCII.
ISO 8859 è una serie di dieci insiemi di caratteri a
8 bit che contengono US ASCII nella metà bassa (quella a 7 bit), caratteri
invisibili di controllo nelle posizioni da 128 a 159, e novantasei grafici
a largezza fissa nelle posizioni da 160 a 255.
Di questi, il più importante
è ISO 8859-1 (Latin-1). È supportato nativamente dal driver di consolle di
Linux, abbastanza bene da X11R6, ed è l'insieme base di caratteri di HTML.
Il supporto di consolle per gli altri insiemi di carattere ISO 8859 è
disponibile in Linux grazie a utilità in modo utente (come setfont(8)
)
che modificano le associazioni di tastiera e la tabella grafica EGA, e
impiegano una «mappa utente» per la tabella di caratteri nel driver di
consolle.
Ecco una breve decrizione di ciascun insieme:
- 8859-1 (Latin-1)
- Latin-1 copre la maggior parte delle lingue europee occidentali, come
albanese, catalano, danese, faroese, finlandese, francese, galiziano,
inglese, irlandese, islandese, italiano, norvegese, olandese, portoghese,
spagnolo, svedese e tedesco. La mancanza dei logotipi oe (francese), ij
(olandese) e virgolette ,,vecchio-stile`` (tedesco) è tollerabile. 8859-2 (Latin-2)
Latin-2 supporta molte lingue slave e centro-europee a caratteri latini:
ceco, croato, polacco, rumeno, slovacco, sloveno, tedesco e ungherese.
- 8859-3 (Latin-3)
- Latin-3 è popolare con gli autori di esperanto, galiziano,
maltese e turco.
- 8859-4 (Latin-4)
- Latin-4 introduce lettere per estone, lettone
e lituano. È essenzialmente obsoleto; vedi 8859-10 (Latin-6).
- 8859-5
- Lettere
cirilliche per bulgaro, bellorusso, macedone, russo, serbo e ucraino. Gli
ucraini leggono la lettera «ghe»
Table of Contents
|