2012-01-01 21 views
24

Unicode define varios caracteres de control desde ASCII. http://www.unicode.org/charts/PDF/U0000.pdf¿Cuáles son los caracteres de control del separador de archivos/grupos/registros/unidades y su uso?

La mayoría de ellos suelen ser empleados, pero realmente no podía ver cualquier uso de separadores de información (U + 001C ~ U + 001F)

¿Cuáles son ellos? ¿Cuál es la historia de ellos? ¿Dónde lo usaban?

+1

Los separadores de campo y registro se pueden usar para ordenar los datos de la tabla como una cadena. Es un poco arcaico, pero funciona. –

+0

Gracias por preguntar esto. Totalmente voy a usar separadores de unidades en lugar de tabuladores o texto de delimitación de comas ahora. – bugloaf

Respuesta

34

Lammert Bies explica tanto su uso y la historia detrás.

28 - FS - separador del archivo separador de FS es una interesante código de control, ya que nos da una idea de la manera que la informática era organizada en los años sesenta. Ahora somos utilizados para medios de acceso aleatorio como RAM y discos magnéticos, pero cuando se definió el estándar ASCII , la mayoría de los datos eran en serie. No sólo estoy hablando de comunicaciones en serie, sino también sobre de almacenamiento en serie como tarjetas perforadas, cinta de papel y cintas magnéticas. En tal situación es claramente eficaz para tienen un único código de control para señalar la separación de los dos archivos. El FS se definió para este propósito.

29 - GS - Grupo separador de almacenamiento de datos fue una de las principales razones para un cierto control códigos para obtener en la definición ASCII. Las bases de datos son la mayoría de las veces configuradas con tablas que contienen registros. Todos los registros en una tabla tienen el mismo tipo , pero los registros de las diferentes tablas pueden ser diferentes. El separador de grupo GS se define para separar las tablas en un sistema de almacenamiento de datos en serie . Tenga en cuenta que la palabra tabla no se utilizó en ese momento y la gente ASCII lo llamó un grupo.

30 - RS - separador de registros Dentro de un grupo (o tabla) los registros se separan con RS o grabar separador.

31 - US - separador Unidad Los elementos de datos más pequeños que se almacena en una base de datos se llaman unidades en la definición ASCII. Los llamaríamos campo ahora.El separador de unidades separa estos campos en un entorno de almacenamiento de datos serial . La mayoría de las implementaciones de bases de datos requieren que los campos de la mayoría de los tipos tengan una longitud fija de . Suficiente espacio en el registro es asignado para almacenar el miembro más grande posible de cada campo, incluso si esto no es necesario en la mayoría de los casos. Esto cuesta una gran cantidad de espacio en en muchas situaciones. El código de control de EE. UU. permite que todos los campos tengan una longitud variable . Si el espacio de almacenamiento de datos es limitado, como en los años sesenta, esta es una buena forma de preservar el valioso espacio de . Por otro lado, el almacenamiento en serie es mucho menos eficiente que la tabla implementaciones de memoria RAM y disco de en los tiempos modernos. No me puedo imaginar una situación donde bases de datos SQL modernas se ejecutan con los datos almacenados en el papel cinta o bobinas magnéticas ...

Un separador de unidad podría proporcionar esencialmente el mismo propósito que una coma en un archivo CSV archivo o una pestaña en un archivo delimitado por tabuladores.

7

¿Quiso decir que la mayoría de ellos son generalmente no utilizados en estos días? Los caracteres de control se relacionan principalmente con las funciones de control del dispositivo, pero algunos de ellos se pueden haber usado como separadores en archivos de texto. Para una referencia rápida, consulte mi table of C0 Controls.

Los separadores de información se han usado para agrupar datos de una manera simple, pero en la actualidad, se utilizan formatos binarios o formatos XML para la organización de datos. Todavía hay curiosidades, como el uso interno de U + 001E y U + 001F en Microsoft Word para implementar la propia idea del programa de "guión no separable" y "guión opcional" (como opuesto a los caracteres Unicode para propósitos similares). Esto ilustra principalmente que los programas pueden usar caracteres de control de maneras extrañas. Los problemas surgen, por supuesto, si los personajes se incluyen en el texto transmitido a otros programas.

Cuestiones relacionadas