Windows-1252 _ AcademiaLab

Windows-1252

Compartir Imprimir Citar
Codificación de caracteres

Windows-1252 o CP-1252 (página de códigos 1252) es una codificación de caracteres de un solo byte del alfabeto latino (con adiciones) que se usaba de forma predeterminada en Microsoft Windows para inglés y muchos idiomas romances y germánicos, incluidos español, portugués, francés y alemán (aunque falta la ẞ mayúscula). Este esquema de codificación de caracteres se utiliza en todo el continente americano, Europa occidental, Oceanía y gran parte de África. Todos los sistemas operativos modernos, incluido Windows, ahora usan puntos de código Unicode y codificaciones de texto de forma predeterminada, que son portátiles en todos los idiomas principales del mundo.

Las codificaciones de caracteres de un solo byte son compactas y más rápidas para muchas operaciones de cadenas comunes (especialmente el acceso aleatorio), pero tienen una portabilidad restringida debido al conjunto de caracteres altamente restringido. Incluso si se extienden a codificaciones de una sola palabra para ampliar el conjunto de caracteres admitido (que se vuelven sustancialmente menos compactos para los idiomas latinos), las codificaciones heredadas rara vez admiten ninguna función de procesamiento de texto más allá de la semántica de cadenas ingenua, como texto bidireccional, p. al combinar texto en alfabeto latino y texto en árabe o hebreo en la misma cadena o documento. Los componentes heredados de Microsoft Windows originalmente codificados para asumir una representación de cadena de un solo byte uniforme comúnmente conservan estas limitaciones independientemente de la evolución del sistema operativo, incluso si estos componentes siguen siendo lo suficientemente compatibles para continuar ejecutándose en el entorno más sofisticado.

Es la codificación de caracteres de un solo byte más utilizada en el mundo. A partir de enero de 2023, el 1,4 % de todos los sitios web declaran ISO 8859-1, que todos los navegadores modernos tratan como Windows-1252 (según lo exige el estándar HTML5), más el 0,3 % de todos los sitios web declararon el uso de Windows-1252, por un total del 1,7% (y solo 16 de los 1000 principales sitios web). Los navegadores también asumen que las páginas declaradas como ASCII, o un juego de caracteres faltante o no válido, son Windows-1252.

Según el país o el idioma, el uso puede ser mucho más alto que el promedio mundial, por ejemplo, para Brasil, el uso del sitio web es del 9,2 % y en Alemania del 3,9 % (estas son las sumas de ISO-8859-1 y CP1252). declaraciones).

A menudo se asume que Windows-1252 es la codificación de texto en los sistemas operativos, en particular en Microsoft Windows; esto solo se está cambiando gradualmente a UTF-8.

Detalles

Esta codificación de caracteres es un superconjunto de ISO 8859-1 en términos de caracteres imprimibles, pero se diferencia de la ISO-8859-1 de la IANA al agregar caracteres adicionales en el rango de 80 a 9F (hexadecimal) (la ISO los estándares reservan este rango para los caracteres de control). Los caracteres adicionales notables incluyen comillas y todos los caracteres imprimibles de ISO 8859-15. Windows lo conoce por el número de página de códigos 1252 y por el nombre aprobado por IANA "windows-1252".

En una etapa, muchos productos de Internet de Microsoft producían texto en Windows-1252 pero marcados como ISO-8859-1. El resultado fue que todas las comillas y apóstrofes (producidos por "comillas tipográficas") se reemplazaron con signos de interrogación o cuadros cuando se visualizaban en sistemas operativos que no eran de Windows. La mayoría de los navegadores web y clientes de correo electrónico modernos tratan el juego de caracteres de tipo multimedia ISO-8859-1 como Windows-1252 para adaptarse a este tipo de etiquetado incorrecto. Este comportamiento ahora es requerido por la especificación HTML5. Los navegadores parecen tratar el juego de caracteres "ASCII" y juegos de caracteres que faltan lo mismo.

Históricamente, la frase "Página de códigos ANSI" se usó en Windows para referirse a codificaciones que no son de DOS; la intención era que la mayoría de estos fueran estándares ANSI como ISO-8859-1. A pesar de que Windows-1252 fue la primera página de códigos, y con mucho, la más popular, nombrada así en el lenguaje de Microsoft Windows, la página de códigos nunca ha sido un estándar ANSI. Microsoft explica, "El término ANSI como se usa para referirse a las páginas de códigos de Windows es una referencia histórica, pero hoy en día es un nombre inapropiado que persiste en la comunidad de Windows."

En los paquetes de LaTeX, CP-1252 se conoce como "ansinew".

IBM utiliza la página de códigos 1252 (CCSID 1252 y CCSID 5348 ampliado con el símbolo del euro) para Windows-1252.

Se llama "WE8MSWIN1252" por Oráculo.

Diseño de página de códigos

La siguiente tabla muestra Windows-1252. Las diferencias con ISO-8859-1 tienen el número de punto de código Unicode debajo del carácter, según el mapeo de Unicode.org de Windows-1252 con "mejor ajuste". Una información sobre herramientas, generalmente disponible solo cuando uno apunta a la izquierda inmediata del carácter, muestra el nombre del punto de código Unicode y el código Alt decimal.

Windows-1252 (CP1252)
0 1 2 3 4 5 6 7 8 9 A B C D E F
0_ NULSOHSTXETXEOTENQACKBELBSHTLFVTFFCRSOSI
1_ DLEDC1DC2DC3DC4NAKSYNETBCANEMSUBESCSMSGRSEE.UU.
2_ SP! " # $ % " ' () ) * + , - . /
3_ 0 1 2 3 4 5 6 7 8 9 : ; . = ?
4_ @ A B C D E F G H I J K L M N O
5_ P Q R S T U V W X Y Z [ ] ^ ¿Qué?
6_ ` a b c d e f g h i j k l m n o
7_ p q r s t u v w x Sí. z {} Silencio } ~ DEL
8_
20AC
.
201A
.
0192

201E
...
2026

2020
.
2021
.
02C6
.
2030
Š
0160

2039
.
0152
Ž
017D
9_ '
2018

2019

201C

201D

2022

2013

2014
?
02DC
TM
2122
š
0161

203A
œ
0153
ž
017E
.
0178
A_ NBSP¡No! ¢ £ # . . § . © a « ¬ SHY® ̄
B_ ° ± 2 3 ́ μ · . 1 o » 1⁄4 1⁄2 3⁄4 ¿Qué?
C_ À Á # Ã Ä Å . Ç Èl É Ê . . Í Î Ï
D_ . Ñ . Ó Ô . Ö × Ø . Ú . Ü Í . ß
E_ a A . ä å æ ç è é ê ë . í î ï
F_ ð ñ # ó ô õ . . ø ù ú û ü . . ÿ

Según la información de los sitios web de Microsoft y Unicode Consortium, las posiciones 81, 8D, 8F, 90 y 9D no se utilizan; sin embargo, la API de Windows MultiByteToWideChar los asigna a los códigos de control C1 correspondientes. El "mejor ajuste" el mapeo también documenta este comportamiento.

Historia

  • La primera versión del codepage 1252 utilizado en Microsoft Windows 1.0 no tenía posiciones D7 y F7 definidas. Todos los personajes de los rangos 80-9F también fueron indefinidos.
  • La segunda versión, utilizada en Microsoft Windows 2.0, se habían definido posiciones D7, F7, 91 y 92.
  • La tercera versión, usada desde Microsoft Windows 3.1, tenía todas las posiciones actuales definidas, excepto el signo de euro y Z con par de caracteres de caron.
  • La versión final lista arriba debutó en Microsoft Windows 98 y fue portada a versiones anteriores de Windows con la actualización del símbolo del euro.

Extensiones OS/2

El sistema operativo OS/2 admite una codificación con el nombre de Página de códigos 1004 (CCSID 1004) o "Windows Extended". Esto coincide principalmente con la página de códigos 1252, con la excepción de ciertos caracteres de control C0 que se reemplazan por caracteres diacríticos.

Code page 1004 (differing rows only)
0 1 2 3 4 5 6 7 8 9 A B C D E F
0_ NULSOHSTXETXˉ
02C9
¢
02D8
Í
02D9
BEL̊
02DA
HTEspañol
02DD
#
02DB
.
02C7
CRSOSI

Extensiones de MSDOS [raras]

Hay una página de códigos extendidos de gráficos 1252 rara vez utilizada, pero útil, donde los códigos 0x00 a 0x1f permiten el dibujo de cuadros tal como se usa en aplicaciones como MSDOS Edit y Codeview. Una de las aplicaciones para utilizar esta página de códigos fue una utilidad de imagen de disco de instalación/recuperación de Intel Corporation de mediados o finales de 1995. Estos programas se escribieron para sus máquinas P6 User Test Program (ejemplo de EE. UU.). Se utilizó exclusivamente en su entonces región EMEA (Europa, Oriente Medio y África). Con el tiempo, los programas se cambiaron para usar la página de códigos 850.

Gráficos Página de código extendido 1252
0 1 2 3 4 5 6 7 8 9 A B C D E F
0_ :: ; . . . Ø . UU
1_ . - . À . . . . . . .

Variante de Palm OS

Esta variante de Windows-1252 es utilizada por Palm OS 3.5. Python le da la etiqueta palmos. Las diferencias con Windows-1252 tienen su punto de código Unicode.

página de código de Palm OS
0 1 2 3 4 5 6 7 8 9 A B C D E F
8_ . . ... . . . Š .
2666

2663

2665
9_ .
2660
' ? TM š œ .