Hoofdstuk 3 - Les 2

American Standard Code for Information Interchange (ASCII) is de organisatie voor encoding types.ASCII is 7 bits en gebruikt dus nummers van 0 - 127. Hierin is ons alfabet in opgeslagen, zowel hoofd als kleine letters en alle cijfers en nog een aantal bijzondere tekens, zoals bijv de plus en min tekens.

Vele (Oosterse) talen kunnen hun karakters niet kwijt in ASCII. Om deze reden heeft het American National Standars Institute (ANSI) code pagina's gedefinieerd die de standaard ASCII karakters bevat plus taal specifieke karakters toegevoegd in de range van 128 - 255. Een code pagina is een lijst met geselecteerde karakter codes.

Als een website wordt bekeken en er worden ? getoond in de tekst wat eigenlijk tekst had moeten zijn, dan is een verkeerd encoding type gebruikt. In e-mails wordt aangegeven wat het encoding type is:

Content-type: text/plain; charset=ISO-8859-1
Content-type: text/plain; charset="Windows-1251"

ISO-8859-1 corrospendeert met code pagina 28591, West Europa (ISO). Op dezelfde wijze maken html pagina's hier ook gebruik van.

Steeds meer worden ASCII en ISO 8859 encoding types vervangen door Unicode. Unicode is een enorme code pagina met duizenden karakters die vele talen onderstuent, waaronder Japans, Grieks, Chinees en meer.
Unicode zelf heeft geen encoding type, hoewel er wel verschillende standaarden voor Unicode. Het .NET Framework gebruikt Unicode UTF-16 (Unicode Transformation Format, 16-bits).
System.Text ondersteunt de volgende encodings:
Unicode UTF-32 encoding
Unicode UTF-16 encoding
Unicode UTF-8 encoding
ASCII encoding
ANSI/ISO Encoding

Let bij het maken van tekstbestanden op het encoding type. Bestanden met UTF-7 of UTF-32 encopding kunnen bijvoorbeeld niet worden gelezen door kladblok. Als geen encoding wordt aangegeven maakt het .NET Framework standaard gebruik van UTF-16.

Reacties

Populaire posts van deze blog

[SQL Server] varchar vs nvarchar

MS Sql 70-461: Chapter 5

[C#] Class serialiseren en deserialiseren