Unicode
Unicode är en universell teckenkodning standard. Det definierar hur individuellt är tecken representeras i textfiler, webbsidor, och andra typer av dokument.
Till skillnad från ASCII, som var utformat för att endast representera engelska engelska tecken, var Unicode utformat för att stödja tecken från alla språk runt om i världen. Standard ASCII-teckenuppsättningen stöder endast 128 tecken, medan Unicode kan stödja ungefär 1,000,000 XNUMX XNUMX tecken. Medan ASCII bara använder en bitgrupp För att representera varje tecken stöder Unicode upp till 4 byte för varje tecken.
Det finns dock flera olika typer av Unicode-kodningar UTF-8 och UTF-16 är de vanligaste. UTF-8 har blivit den standardteckenkodning som används på web och är också standardkodningen som används av många programvara program. Medan UTF-8 stöder upp till fyra byte per tecken, skulle det vara ineffektivt att använda fyra byte för att representera ofta använda tecken. Därför använder UTF-8 bara en byte för att representera vanliga engelska tecken. Europeiska (latinska), hebreiska och arabiska tecken representeras med två byte, medan tre byte används för kinesiska, japanska, koreanska och andra asiatiska tecken. Ytterligare Unicode-tecken kan representeras med fyra byte.