Codificación de caracteres en HTML

Por motivos históricos, el abecedario inglés y muchos de sus signos de puntuación están codificados con dispositivos electrónicos de una manera universal y única. Esta codificación se denomina ASCII (código estándar estadounidense para el intercambio de información). No obstante, ni bien salimos de esta estrecha configuración de caracteres, los problemas están al acecho de los incautos.

Cualquier letra que no forme parte del abecedario inglés debe representarse en algún código que extienda ASCII. Después de algunos años de diversos intentos, se acordó utilizar el UTF-8 (formato de transformación Unicode de 8 bits) como codificación estándar para estos caracteres.

Todas las etiquetas HTML y scripts de un sitio web son caracteres ASCII. Y si el contenido de una página (el texto que aparece) está en el inglés cotidiano, todo debería estar bien. No obstante, si el contenido de la página tiene caracteres no ASCII, el navegador web requiere instrucciones que indiquen la codificación que se utilizará para estos caracteres adicionales.

Los sitios web poseen una función que los distingue de la mayoría de otros archivos de texto. Al comienzo del archivo, hay una etiqueta que informa al navegador cuál es la codificación que se utiliza. Si observa la fuente de una página, verá una etiqueta de este tipo:

<meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″ />

Cuando traduce los sitios web armados en inglés, frecuentemente descubrirá que la codificación especificada en esta metaetiqueta no es UTF-8, dado que, como mencionamos antes, la codificación es irrelevante en los sitios en inglés.

Pero cuando el idioma de destino utiliza una configuración de caracteres extendida (y esto ocurre prácticamente todo el tiempo), es importante verificar cuidadosamente que coincidan la codificación de la página y la indicación de la metaetiqueta. En caso de que no coincidan, hay dos opciones. La primera es cambiar “charset=UTF-8 bit” a la configuración de la página. La otra opción es recodificar la página a la configuración de caracteres apropiada.

Recuerde que estos problemas de codificación surgen no solo en el contexto de la traducción de sitios web, sino cada vez que el idioma de destino no sea el inglés. Solamente se menciona el idioma de destino, porque si el texto fuente ya está en otro idioma, debería tener una codificación específica. En este caso, el idioma de destino podría codificarse de otra manera, si fuera necesario.

 

Artículo original: Character encoding in HTML