I linguaggi di programmazione seguono una serie di standard per la codifica dei caratteri. Questi standard rappresentano le lingue scritte e definiscono alcune regole che devono essere seguite per codificare i personaggi appartenenti a quelle lingue scritte. Proprio come altri linguaggi di programmazione, Java ha anche uno standard di codifica dei caratteri che viene definito un sistema Unicode. Questo post getta luce sul sistema Java Unicode.
Cos'è un sistema Unicode?
Il sistema Unicode è uno standard mondiale utilizzato per codificare i caratteri a 16 bit. Questo sistema può rappresentare quasi ogni linguaggio rinomato del mondo.
Perché un sistema Unicode?
Prima dell'emergere del sistema Unicode, c'erano numerosi standard per codificare i caratteri. Questi erano:
- ASCII
ASCII, l'abbreviazione del codice standard americano per lo scambio di informazioni è uno degli standard più antichi e comuni per la codifica dei caratteri e include lettere A-Z (maiuscole e minuscole) e numero 0-9 e alcuni simboli di base. - ISO 8859-1
ISO 8859-1 è uno standard sviluppato per la lingua dell'Europa occidentale che include 128 caratteri ASCII e 128 personaggi aggiuntivi. - Koi-8
Koi-8 è uno standard originariamente sviluppato per il russo che consente la codifica di caratteri a 8 bit e comprende alfabeti latini e alfabeti russi (maiuscole e minuscole). - GB 18030 e BIG-5
GB 18030 e BIG-5 sono standard sviluppati per i cinesi. GB18030 rappresenta tutti i 20.902 personaggi Han e i simboli DBC aggiuntivi, nel frattempo, Big5, rappresenta caratteri cinesi convenzionali.
Negli standard sopra menzionati, il problema che si è verificato era che un valore di codice specifico è stato utilizzato per rappresentare vari caratteri in più lingue. Inoltre, la codifica del set di caratteri più grandi per varie lingue variazioni variabili come 1 byte, 2 byte o più.
Quindi, al fine di risolvere questo problema, è stato sviluppato un sistema Unicode per le lingue. Ogni personaggio in questo sistema contiene 2 byte, quindi, in java 2 byte viene utilizzato per ogni carattere.
Conclusione
Il sistema Unicode è uno standard globale utilizzato per la codifica dei caratteri di caratteri a 16 bit. Ha avuto origine come soluzione ai problemi che si sono verificati negli standard linguistici precedentemente sviluppati. Java utilizza questo sistema progettato per contenere 2 byte per ogni carattere. Questo post discute in profondità il sistema Java Unicode.