
Los sistemas que, a partir de un texto escrito o impreso en papel o similar, crean un fichero de texto en un soporte de almacenamiento informático, se denominan Sistemas de OCR (Optical Character Recognition), o de Reconocimiento Óptico de Caracteres. En 1929, Gustav Tauschek obtuvo una patente sobre OCR en Alemania, luego, Handel en 1933 obtiene la patente de OCR en Estados Unidos. En 1935, a Tauschek también se le concedió una patente en ese país por su método. En 1950, David Shepard, utilizó esta tecnología en la agencia de seguridad de las fuerzas armadas de los Estados Unidos. El primer sistema comercial fue instalado en Readers Digest en 1955. El servicio postal de Estados Unidos utilizó las máquinas de OCR para clasificar el correo desde que 1965, basados en la tecnología ideada por el inventor Jacob Rabinow. El primer uso del OCR en Europa sucedió en la oficina de Gran Bretaña. En 1965 se comenzó a planear un sistema de actividades bancarias completo, Nacional Giro, usando la tecnología del OCR, ideó un proceso que revolucionó los sistemas del pago de cuentas en el Reino Unido. El correo postal de Canadá utilizó sistemas OCR desde 1971. El reconocimiento exacto de la escritura latina, ahora se considera en gran parte un problema solucionado. La exactitud excede el 99%, requiriendo la revisión humana para los errores.
"Google Libros” es un servicio que busca el texto completo de los libros que Google digitaliza, convierte el texto por medio de reconocimiento óptico de caracteres y los almacena en su base de datos en línea. El servicio era conocido como Google Print cuando fue introducido en la Feria del Libro de Fráncfort en octubre de 2004.
Gallica es la biblioteca digital de la Biblioteca Nacional de Francia. De acceso gratuito, incluye libros digitalizados, cartularios, diarios, fotos y una colección de códices miniados. El 10 de febrero de 2010, Gallica digitalizó el documento un millón. Toda la colección almacenada en Gallica supuso un volumen de 1.519 terabytes al 31 de diciembre de 2014.
El sitio web de "British Newspaper Archive” proporciona acceso a los archivos digitalizados de los periódicos británicos e irlandeses. Fue lanzado en noviembre de 2011.
La Biblioteca Virtual de Prensa Histórica es una hemeroteca digital española. Fundada en 2009 y gestionada por el Ministerio de Educación, Cultura y Deporte de España, ha digitalizado numerosas publicaciones periódicas, desde el siglo XVIII hasta el XXI.
En Argentina tímidamente aparecen dos referentes de este recurso son Biblioteca Digital de Tratados y la Biblioteca del Colegio Nacional Buenos Aires. Existe un atraso o brecha tecnológica en Argentina y en nuestra provincia en este tipo de recurso. El mayor acervo de periódicos antiguos de la provincia de San Juan no utiliza la tecnología OCR.
Existen subsidios internacionales que promueven la conservación de libros y periódicos históricos. A citar:
Consejo Internacional de Archivos los cuales donan hasta ¥ 10.000 por archivo. Contacto: Jessica Squires. Email: squires @ica.org http://www.ica.org/es
Empresa Familysearch.org para digitalizar de manera gratuita los archivos relacionados a la ciencia genealógica como cementerios, poder judicial, etc. Contacto: H. Leandro Soria www.facebook.com/leandrobyu Iberarchivos. Contacto: www.iberarchivos.org
Por Ricardo Sánchez Alonso
Licenciado en Ciencias de la Educación.
