La calidad de los datos
Mi nombre es Francisco Javier, mi primer apellido es “González” y el segundo “de los Reyes Gavilán”. Todo un reto para la cuestión de la calidad de los datos. Por cierto, mis amigos y allegados me llaman Javier.
Pongámonos en situación: alguien (inclusive yo mismo) tiene que introducir mi/s nombre/s y apellidos en un formulario. La información irá a parar a una base de datos. Alguien utilizará posteriormente esa base de datos y deseará identificarme de forma unívoca. ¡Que empiece la función!
Aún a riesgo de no ser muy original vamos a empezar con el nombre: “Francisco Javier”; es bastante largo. La casilla destinada al efecto podrá alojar todos esos caracteres o no. Si el espacio es insuficiente habrá que hacer algo; si tenemos hueco de sobra aún hay incentivos para la creatividad de mecanógrafo. El dato completo es “Francisco Javier”, situándonos en el la hipótesis de escasez de espacio o aún no existiendo esta pero con un mecanógrafo víctima de un ataque de vagancia podrá introducir sólo “Fco. Javier”. También puede considerar que con poner el primer nombre es más que suficiente y olvidarse del segundo, nos quedaremos con “Francisco”. Si el aguerrido operario me conoce personalmente cabe que ponga simplemente Javier, al fin y al cabo es como me conoce. Los apellidos casi a buen seguro me los pedirá.
En el encabezado he dejado claro cuál es mi primer apellido y cuál el segundo, pero ¿qué ocurre si alguien lo ve en conjunto y tienen que trocearlo por su cuenta y riesgo? “González de los Reyes Gavilán”. ¿el primer apellido es González o González de los Reyes? Ya tenemos un par de variantes más. Si se asume que es González de los Reyes nuevamente va a ser muy largo y es fácil que nos encontremos de nuevo con la cuestión de la “compresión”. Hay muchas formas de hacerlo. Cambiar González por Glez. es de las más obvias y lo puede hacer poniendo el punto detrás de la abreviatura o no. Quitar el “de los” es otra de las variantes que me he encontrado alguna vez. Por último se escribe hasta donde llegue la capacidad de la casilla y punto. “Glez. de los Reyes”, “González Reyes” o “Gonzáles de los Rey” son tres opciones.
Queda el tema del Gavilán. Es un apellido luego podría escribirse con “b” o con “v”, mucha gente pregunta, otras toman la opción que se le antoja como la más plausible.
Pero tenemos más variantes. Aún sabiendo que el primer apellido es González y el segundo de los Reyes Gavilán en algunas bases de datos (el censo electoral por poner un ejemplo conocido) pone como mi primer apellido “González de los” y como segundo “Reyes Gavilán”. Cuando voy a ejercer mi derecho al voto he tomado como costumbre buscarme yo mismo antes en el censo y comunicarles a las personas de la mesa el número que me corresponde en el listado. Les evito el que tengan que buscar el segundo apellido empezando por “R” o por “d”.
Lo que en principio pretendía ser la identificación de una persona puede devenir en una numerosa pléyade. No hemos entrado para nada en la cuestión de los errores mecanográficos e incluso de ortografía.
Puede parecer anecdótico el que mi nombre y apellidos puedan figurar de una o mil formas. El problema sale a la luz cuando este se introduce por varios medios o se agrega desde varias bases de datos. Yo soy uno sólo, para la base de datos puedo ser muchas personas. Decididamente cuando vamos a utilizar los datos para obtener algún tipo de información es necesario depurarlos previamente.