Idioma japonés en las computadorasCon respecto al idioma japonés y su implementación en las computadoras, han surgido muchos problemas de adaptación, algunos de ellos exclusivos del japonés y otros comunes a idiomas que tienen un gran número de caracteres. El número de caracteres necesarios para escribir en idiomas que usan el alfabeto latino como el idioma español o el idioma francés es bastante pequeño, por lo tanto es posible hacer uso de un único octeto para codificar un carácter latino. Sin embargo, el número de caracteres en japonés es mucho mayor que 256, y por eso el japonés no puede ser codificado utilizando únicamente un octeto, por lo que para codificar el sistema de escritura japonés se utilizan dos o más octetos, en una denominada codificación «doble byte» o «multi byte». Así, parte de los problemas surgen en la transliteración y romanización del idioma, algunos de ellos en la codificación de los caracteres, y finalmente los otros en el método de entrada de texto en japonés.[1] Codificación de caracteresVéase también: Codificación de caracteres
Existen varios métodos estándar para codificar caracteres japoneses para su uso en un ordenador, entre ellos JIS, Shift JIS, EUC y Unicode. Si bien el mapeo del conjunto de kanas es una cuestión simple, el mapeo de los kanji ha sido más difícil de realizar. A pesar de los esfuerzos, ninguno de los esquemas de codificación se convirtió en el estándar de facto, y por ello varios estándares de codificación todavía están en uso hoy en día. Por ejemplo, la mayoría de los correos electrónicos en Japón utilizan la codificación JIS y las páginas web están en Shift JIS; sin embargo, los teléfonos móviles habitualmente utilizan una forma de Extended Unix Code. Si un programa falla en determinar el esquema de codificación empleado, el texto se muestra incorrectamente, fenómeno denominado mojibake (文字化け? lit. secuencia de caracteres mal convertidos), visualizándose en su lugar símbolos e incoherencias en el texto. El primer sistema de codificación en ser usado ampliamente fue JIS X 0201, que se trataba de una codificación de un solo octeto que solamente cubría caracteres ASCII estándar de siete bits con extensiones para katakana de mitad de ancho (en inglés half-width). Esto se solía usar con frecuencia en sistemas en los que no eran lo suficientemente potentes o que no tenían el almacenamiento suficiente para manejar kanji (incluyendo equipos antiguos embebidos como las cajas registradoras). Esto significó que sólo era posible usar katakana con esta técnica. Algunas pantallas embebidas todavía poseen esta limitación. El desarrollo de la codificación de kanji fue el principio de la división. Shift JIS es compatible con kanji y fue desarrollado para ser completamente compatible hacia atrás con JIS X0201, y por tanto es muy usado en equipos electrónicos embebidos. No obstante, Shift JIS tiene la desafortunada propiedad de que a menudo rompe cualquier analizador o parser (software que lee el texto codificado) que no esté diseñado específicamente para manipularlo. Por ejemplo, un método de búsqueda de texto podría obtener falsos resultados si no está diseñado para Shift JIS. En cambio, EUC es manejado mejor por parsers que se escribieron para ASCII de siete bits (y por lo tanto las codificaciones EUC son usadas en UNIX, donde gran parte del código de manejo de archivos históricamente sólo estaba escrito para codificaciones en inglés). Entrada de textoTransliteraciónFuentes tipográficasVéase también: Anexo:Fuentes tipográficas CJK
Dirección de textoVéase tambiénReferencias
Bibliografía
|