Preservación del documento digital

jueves, 4 de abril de 2019

Conservación y preservación digital: la migración

Tomado de los apuntes de cátedras de la maestra Izaskun Herrojo Salas

Dentro de los procesos de conservación y preservación de documentos, existen varios, como son: Respaldo (Respaldo análogo), renovación de soportes, replicación, mantenimiento, arqueología digital y la migración de datos. De esto último se trata el post de hoy.

Otros elementos a tener en cuenta también son:

Estándares
Normalización
Emulación
Encapsulación
Canonicalización
Autenticidad
Estabilidad e integridad
Metadatos

Para entender mejor el proceso de migración de datos, acudamos a la definición que nos ofrece la Wikipedia:

“La migración de datos consiste en la transferencia de materiales digitales de un origen de datos a otro, transformando la forma lógica del ente digital de modo que el objeto conceptual pueda ser restituido o presentado por un nuevo equipo o programa informático. Se trata de una consideración clave para cualquier implementación, actualización o consolidación de un sistema informático.”

En las bibliotecas este fenómeno se da con mucha frecuencia, especialmente en lo concerniente a los registros bibliográficos. En este caso es frecuente que al cambiar de una plataforma informática a otra, se hace necesario la migración de los registros al nuevo formato. Existen diversos motivos para realizar la migración y algunos de ellos son:

Preservación
Mejoras en el Funcionamiento
Nuevos requerimientos (usuario o software)
Interoperabilidad
Actualización de versiones
Estandarización de la tecnología
Reducción de costos (software libre)
Aumento manejo volumen datos
Mejoras en la seguridad y control de datos
Etc.

Ejemplos de migraciones son:

De un formato a otro (Word a PDF).
De un sistema operativo a otro (Windows a Linux)
De lenguajes básicos a otros avanzados (Basic a Java).

Pero estos procesos no se realiza al azar, sino que se deben tener en cuenta algunos elementos y criterios, a saber:

La fase de planificación conlleva:

•Inventario de los activos actuales (documentación, máquinas, software, instancias, bases de datos y código personalizado).

•Documentar los requisitos de la Institución.

•Documentar los requisitos de hardware.

•Conocer las capacidades que serán necesarias en cada fase de la migración (gestor de proyectos, arquitecto de soluciones que comprenda la topología del sitio, los puntos de integración y todas las tecnologías utilizadas, administradores de bases de datos, Desarrolladores experimentados en los lenguajes utilizados para las personalizaciones que se lleven a cabo).

•Asegurarse de que los entornos de desarrollo y de pruebas estén sincronizados con la versión del código que se encuentra en producción.

•Desarrollar una planificación detallada incluyendo usuarios, contraseñas, tareas, propietarios, temporización, puntos de comprobación, pasos de validación y planes de retrotracción (determinar además la formación del personal).

Analítica de datos.

Según Leguizamon Tarazona (2017) es "aquellas en que las variables de integridad, de exactitud o de consistencia de los datos a tener en cuenta de cara a migrar los datos, teniendo en cuenta las características de las bases de datos de origen y destino. Esta analítica se hará como un enfoque para la recopilación y análisis de datos.

Validación de datos.

Para este concepto, González Lau y Aristizábal Moreno,(2007) hace referencia a verificar, controlar o filtrar cada una de las entradas de datos que provienen desde el exterior del sistema. proceso que asegura que un programa opere sobre datos limpios, correctos y útiles. Emplea rutinas, frecuentemente conocidas como reglas de validación, que verifican la exactitud y la significancia del dato en el sistema. Una validación incorrecta de datos puede llevar a la corrupción de datos o a vulnerabilidades de seguridad.

Tipos de validación de datos.

Los autores antes citados, explican los siguientes:

•Verificaciones de formato o imagen: Verifica que el dato esté en un formato específico.

•Verificaciones del tipo de dato: Verifica el tipo de dato ingresado con respecto al esperado y presenta mensajes de error cuando no se cumple.

•Verificaciones de rango: Verifica que el dato se encuentre entre un rango especificado de datos.

•Verificaciones de límites: A diferencia de la verificación de rango, este solo compara con respecto a un límite, superior o inferior.

•Verificaciones de presencia (o de datos nulos): Verifica que datos de importancia no tengan valores en blanco (o nulos).

•Verificaciones de consistencia: Verifica los campos dentro de la base de datos para asegurar que los datos estén en sus campos correspondientes.

Pruebas para la migración.

Partir de un estado conocido.
Problema: puede ser modificado desde infinidad de puntos de la aplicación, por lo que hay que generar un sistema cómodo y rápido para generar información antes de ejecutar cada test (esto lo suelen hacer los expertos en el área e incluso los proveedores del software en caso de contratar un servicio externo).
Preparar la base de datos para cada test que apliquemos e informaciones que necesitemos (utilizar la misma API del sistema - ORM).
Mapeo objeto-relacional (Object-Relational mapping) es una técnica de programación para convertir datos entre el sistema de tipos utilizado en un lenguaje de programación orientado a objetos y la utilización de una base de datos relacional como motor de persistencia. Wikipedia.

Problemas para la migración.

No siempre se cuentan con los datos de las codificaciones anteriores, sobre todo en los formatos cerrados o de propietario; este problema se agranda con la necesidad de sucesivas migraciones. Como no siempre es posible hacer copias exactas, sobre todo cuando se transfiere desde una tecnología anterior a una subsecuente, se trata de interferir lo menos posible, pero tras la acumulación de varias migraciones estos cambios pueden acrecentar demasiado las diferencias con el material original. Los nuevos formatos pueden ser incapaces de interpretar toda la funcionalidad del formato original.

Normalmente las empresas proporcionan compatibilidad con sus productos de software anteriores, pero esto rara vez sobrepasa tres generaciones, por lo que las versiones anteriores a estas pierden la compatibilidad o bien la conservan con pérdidas. No es un plan de preservación por sí mismo, puesto que está aún lejos de resolver los problemas de la mantención de la integridad, apariencia y autenticidad de los contenidos digitales. Los costos para migrar todo un archivo pueden llegar a ser muy altos, por lo que muchas instituciones han tenido que privilegiar unos contenidos por sobre otros, lo que genera un grave riesgo de pérdida irreparable para mucha información.

Rivera Donoso, 2009.

En conclusión, podemos confirmar lo anterior basamentado en las experiencias que hemos tenidos en la migración de registros bibliográficos. No siempre resulta 100 por ciento completo el proceso. Es complejo, muy técnico y se requieren de habilidades y competencias informáticas, para ser capaz de manejar más de una aplicación a al vez, para mapear las bases de datos, realizar comparaciones entre un sistema y otro, y finalmente migrar los registros, etc.

La migración es un proceso que nos ayuda a ir actualizando la información a medida que los cambios tecnológicos nos impactan, pues de lo contrario, se cae en la obsolescencia.

lunes, 1 de abril de 2019

Evaluación de Software: breve bibliografía

Evaluar software, en verdad es algo un poco complejo, debido sobre todo, al buen desenvolvimiento informático que debe tener la persona que se dedica a ello. Una de las opciones que podríamos tener a disposición es la de acceder a la aplicación, para poder evaluarla, atendiendo a criterios establecidos. Es necesario, por ejemplo, evaluar la interfaz, funcionalidades, interoperabilidad con otras aplicaciones, los sistemas operativos bajo el cual corre, capacidad de cambios, capacidades de adaptación, entre otros.

Para los fines de este artículo, les voy a recomendar algunas lecturas, que de seguro, les va ayudar bastante a comprender la complejidad de evaluar software, pero con atención a los software para bibliotecas, especialmente los de carácter libres.

El primer trabajo es el de Mynor Fernández Morales, bajo tema "Automatización de unidades de información: Matriz técnica para la evaluación de software libre". Y cuyo resumen reza así:

En este artículo se presenta una propuesta de matriz de evaluación para software libre orientado a la automatización de unidades de información. Esta matriz está compuesta por una serie de parámetros técnicos que facilitarán la evaluación de diferentes programas de aplicación de software libre, los cuales se agruparán en cuatro distintas clasificaciones. Cada una de ellas permitirá filtrar las diferentes aplicaciones que cumplan uno u otro requisito de acuerdo a las necesidades de información y automatización que tenga la unidad de información. Por tanto esta matriz se convierte en una herramienta útil que servirá al equipo responsable de la automatización de una unidad de información en el proceso de evaluar y seleccionar software libre para este propósito.

Es un trabajo de investigación que vale la pena leer. Allí se muestra una matriz con 20 puntos que se deben tomar en cuenta a la hora de evaluar una aplicación para bibliotecas.

Otro trabajo que me pareció muy útil es el de Ricardo Chinchilla-Arley y Mynor Fernández-Morales, bajo tema "Software libre para la automatización de unidades de información." Allí se explican algunos criterios para escoger software y cuyo resumen comparto con ustedes, para que puedan tener una idea del mismo:

Presentación: Se describe el apogeo que ha tenido el software libre, existiendo ahora equivalentes para casi todos los sistemas privativos, indicando que en la automatización de unidades de información es donde han surgido muchas aplicaciones. Se menciona que la ponencia se enmarca dentro de un proyecto de investigación llevado a cabo en la Universidad de Costa Rica. Metodología: se han definido tres criterios para escoger el software: que se encuentre en español, especializado en el manejo documental y que sea de acceso abierto y disponible en Internet. Para la clasificación se han definido tres niveles de automatización: automatización de catálogos, repositorios digitales y sistemas integrados de automatización. Una vez agrupados, se definió una matriz de evaluación, la cual consiste en 54 parámetros divididos en cuatro grupos: generalidades, gestión de estándares, aspectos técnicos y funcionalidad. Resultados: Se construyó un catálogo de software agrupado en los diferentes niveles mencionados. Además, se detectó que el tercer subnivel debía ser subdividido a su vez en otros tres subniveles: unidades de información de baja complejidad, de media complejidad y de alta complejidad. Para ello se definieron seis criterios de agrupación para determinar el tipo de unidad de información y siete para determinar el grado de complejidad del software. Con base en esta subdivisión se construyó un subcatálogo especializado en el tercer nivel de automatización. Discusión: con la definición de niveles y subniveles es posible realizar análisis y comparaciones entre software similar, aplicando la matriz de evaluación indicada. Además, los catálogos presentados son una fuente de información importante para la toma de decisiones en los proyectos de automatización. Conclusión: el catálogo presentado no es definitivo, debido a la dinámica de las tecnologías y cada día pueden surgir nuevas aplicaciones. La propuesta se basa en las bondades del software libre, ya que es posible acceder al código para realizar adaptaciones y modificaciones, sin embargo se hace énfasis en que no es gratuito, ya que siempre existirán costos asociados a la implementación.

La clasificación que allí se hace es todavía y en mi opinión más acabada, más profunda y desglosada, que en el artículo anterior. He tendido el honor de leer a estos autores y realmente han realizado una investigación de peso y de gran importancia a la hora de seleccionar una aplicación informática para bibliotecas.

Por otro lado, me place también presentar otro trabajo de los autores mencionados arriba, bajo tema "Bibliotecas automatizadas con software libre: establecimiento de niveles de automatización y clasificación de las aplicaciones". Excelente trabajo de investigación. En el mismo se establecen niveles de automatización, se describen y se agrupan según criterios, que según los autores, se explica así:

La revisión de los niveles de automatización permitió construir un inventario del software. Es importante hacer notar que al revisar las generalidades de cada programa y tomando en cuenta la unidad de información donde podría ser implementado, se han identificado tres

subniveles para el nivel 3: software para unidades de información (UI) pequeñas, software para UI medianas y software para UI grandes.

A continuación el resumen del contenido:

Objetivo: definir una clasificación de software libre para automatizar unidades de información basada en diferentes niveles. Para ello, se utilizan tres niveles previamente validados: automatización de catálogos, repositorios digitales y bibliotecas virtuales y automatización integral. Metodología: se definen los siguientes criterios para la clasificación de software: en español, especializado en el manejo documental y de acceso libre y disponible en Internet. Con base en estos criterios, se realizó una búsqueda bibliográfica, se consultó a expertos y en redes sociales. Gracias a esto, se construyó un catálogo de software. Resultados: con base en el catálogo obtenido, se creó un inventario clasificado de acuerdo con los niveles de automatización propuestos. Por otra parte, se logró determinar una subclasificación en el tercer nivel de automatización: unidades de información pequeñas, medianas y grandes. Esta subclasificación deriva de las capacidades técnicas y de seis variables puntuales relativas a las particularidades de las unidades de información donde se instalaría. Conclusiones: el inventario resultante constituye una valiosa herramienta para los proyectos de automatización al facilitar el estudio y evaluación de software por niveles, a la vez, ayuda a clarificar al profesional sobre qué es realmente lo que desea automatizar en su unidad de información.

Por último, quiero citar el trabajo bajo tema "Clasificación del software libre orientado a la

automatización integral de bibliotecas según el nivel de complejidad de la biblioteca: bibliotecas simples, bibliotecas de mediana complejidad y bibliotecas de alta complejidad" también del autor Mynor Fernández Morales. Solo que esta vez, lo realizó el solo. En lo particular, estos trabajos a mi me parecieron fascinantes ya que nos permiten establecer criterios claros a la hora de escoger un software para la biblioteca y atendiendo al tipo de biblioteca. El resumen de este intrigante y último artículo reza así:

En este artículo se presenta una propuesta para clasificar el software orientado a la automatización integral de bibliotecas de acuerdo a los siguientes subniveles: una biblioteca simple, biblioteca de mediana complejidad o una bibliotecas de alta complejidad. Para clasificar a las bibliotecas en cada uno de estos subniveles, y con el fin de realizar el dimensionamiento correspondiente, se utilizan seis variables: tipo de biblioteca, el tamaño de la colección, tipo de materiales que maneja, cantidad y tipo de usuarios que atiende la biblioteca, el nivel de especialización del recurso humano que tiene la biblioteca y, finalmente, la capacidad técnica y económica que tenga la biblioteca. Además de clasificar las bibliotecas, también se clasifica el software libre orientado a la automatización, según los siguientes subniveles: software simple, software de mediana complejidad y software de alta complejidad. Para esta segunda clasificación, se utilizarán siete criterios: el nivel de robustez del motor de base de datos que soporta la aplicación, el nivel de parametrización, la plataforma donde se encuentra desarrollado el software, la clase del soporte técnico brindado a la aplicación informática, el nivel de facilidad para el desarrollo de nuevos requerimientos, la interoperabilidad del software y el manejo de estándares internacionales para importar y exportar información. Al final se presenta una lista clasificada de software

orientado a la automatización integral de bibliotecas.

En este buenísimo trabajo se realiza la evaluación atendiendo a la siguiente tabla:

En fin, estos trabajos no brindan una amplia idea de lo engorroso que es evaluar un software, pero no dejar de ser una hermosa tarea, que nos enseña, nos ilustra y nos capacita para escoger bien. A continuación coloco los enlaces en la web de cada artículo, para que puedan descargarlos y leerlos completos.

Referencias.

Clasificación del software libre orientado a la automatización integral de bibliotecas según el nivel de complejidad de la biblioteca: bibliotecas simples, bibliotecas de mediana complejidad y bibliotecas de alta complejidad.

Link: https://www.redalyc.org/html/4768/476848737002/

Bibliotecas automatizadas con software libre: establecimiento de niveles de automatización y clasificación de las aplicaciones.

Link: http://www.revistas.una.ac.cr/index.php/bibliotecas/article/view/4912

Software libre para la automatización de unidades de información.

Link: https://www.academia.edu/7865778/Automatizaci%C3%B3n_de_unidades_de_informaci%C3%B3n_Matriz_t%C3%A9cnica_para_la_evaluaci%C3%B3n_de_software_libre

lunes, 25 de marzo de 2019

Hablemos del proceso de digitalización II

Luis M. Peña F.
Marzo, 2019

Apuntes de cátedras, maestra Izaskum Herrojo Salas.

En el proceso de digitalización se siguen algunos pasos previos, los cuales son importantes que se tomen en cuenta:

Marco normativo
Conceptos básicos
El plan de digitalización
Los aspectos técnicos
Los aspectos legales, como el derecho de autor.
Las políticas a seguir

Cito también aquí las "Directrices para proyecto de digitalización de colecciones de dominio público, en particular para aquellos custodiados en bibliotecas y archivos" de la IFLA (2002), en el cual se explican en detalles, los requerimientos técnicos e implementación, los aspectos legales, el presupuesto, la planificación de los recursos humanos, el desarrollo y mantenimiento de las interfaces web, la preservación de contenido digital y la gestión del proyecto. En este libro de 183 páginas, se contemplan todos los aspectos necesarios para abordar el tema de la digitalización de documentos. Allí se contempla, al inicio de su lectura, un inciso que dice:

Antes de empezar, preguntarse:

¿Está el proyecto?

Dirigido por el usuario: alta demanda de acceso (mejorado).
Dirigido por la oportunidad: dinero disponible y por tanto puede llevarse a cabo.
Dirigido por la preservación: alta demanda de materiales frágiles.
Dirigido por los beneficios: podemos obtener dinero de el.

¿Tenemos?

El dinero

Las herramientas

La capacidad

La infraestructura técnica

Lleve a cabo

Un estudio de rendimiento
Un estudio de los derechos de propiedad intelectual
Un estudio de viabilidad
Un estudio técnico piloto.

¿Interesante analogía no?

En cuanto al plan de digitalización, se debe pensar en la configuración del hardware y responder a las siguientes preguntas:

• Qué clase de imágenes u objetos digitales se están creando? ¿Textuales, fotográficos, otros?

• ¿Qué cantidad?

• ¿Con qué fines? ¿Servicio al usuario, difusión, conservación?

El tipo de escaner : si de sobre mesa o en formato V, plano o del tipo AO, etc.

Los dispositivos para conversión de formatos, por ejemplo: de VHS a formato digital en DVD, desde un cassette o carrusel hacia formato de audio MP3 y etc.

Los software para el tratamiento de las imágenes y formatos como el PDF.

Otro factor a tomar en cuenta es el relacionado con la gestión de las imágenes.

Algunas recomendaciones son:

La preservación a largo plazo de los documentos digitales debe garantizar sus valores informativos y testimoniales. No se trata solo de poder consultar una información, sino que ésta sea íntegra, fiable y auténtica. Por tanto se recomienda:

Algunos aspectos técnicos a tomar en cuenta:

Condiciones de visualización y calibración monitor.

La calibración es el proceso de ajustar la configuración del color, brillo y contraste del monitor a un nivel estándar, de manera que la imagen se presente de la misma forma en diferentes monitores. Se recomienda que el control de calidad de visionado de imágenes lo realice una sola persona con la misma máquina.

Obtención de imágenes

Seleccionar el dispositivo de captura más adecuado para cada tipo de objeto (selección de la mejor opción de escáner). Comprobar que el número de páginas digitalizadas sea igual al número de imágenes digitales resultantes del proceso de digitalización.

Tratamiento de imágenes.

Obtenidas las imágenes deberá verificarse lo siguiente:

1.Que las imágenes estén correctamente alineadas

2.Que las imágenes no tengan márgenes añadidos

3.Sean una representación fiel e íntegra del original

4.Sean legible.

Nombramiento de objetos digitales (dilema y dificultad, deberá establecerse desde el inicio

para poder recuperar la información de forma rápida, evitando así la pérdida de información

y duplicidad de la misma.

Creación de ficheros de consulta para evitar tener que abrir de manera constante el fichero
maestro (preservación de la calidad de la imagen con el tiempo).

Otro factor importante es lo relacionado con la autenticidad. La cual es definida por la
ICA(2005) como:

“Persistencia a lo largo del tiempo de las características originales del documento respecto al contexto, la estructura y el contenido.”

De acuerdo con la entidad citada, las características de un documento auténtico son las

siguientes:

Fiabilidad: el contenido del documento debe ser fidedigno y genuino.

Integridad: completo y no corrupto en todos sus aspectos (estructura y contenido). Si el

mensaje que se comunica permanece inalterable a lo largo del tiempo, será un documento

que conserva su integridad.

Disponibilidad: “Capacidad de localizar, recuperar, presentar e interpretar un documento”.

Conclusión.

En materia de digitalización de documentos, como hemos visto, no es algo que se realiza a

la ligera. Se toman en cuanta muchos factores relacionados con las tecnologías, el

personal, los formatos, tratamientos de las imágenes, etc. Como vimos, se requiere

planificación y sobre todo, dos elementos importantes: qué voy a digitalizar y saber

respetar la propiedad intelectual. Este es un factor muy importante ya, no podemos pasar

por este proceso documentos sin el debido derecho de autor. Debemos contar con las

tecnologías necesarias y el personal calificado para el mismo. Así de simple.

Referencias

IFLA (2002). Directrices para proyectos de digitalización de colecciones y fondos de dominio público, en particular para aquellos custodiados en bibliotecas y archivos. Recuperado de https://www.ifla.org/files/assets/preservation-and- conservation/publications/digitization-projects-guidelines-es.pdf

Comparativa de software para repositorios II

Luis M. Peña F.

25/03/2019

En el presente post hacemos una comparativa entre las aplicaciones para repositorios Fedora, Omeka y Greenstone. El mismo obedece a las prácticas realizadas durante la maestría en Bibliotecología y Ciencias de la Información, impartida por la doctora Dulce María Núñez y la maestra Izaskun Herrojo Salas. Los procesos de digitalización de documentos traen consigo una serie de procedimientos, que implican procesos tales como:

La colección a digitalizar.
Los factores humanos y tecnológicos.
Los recursos con que se cuenta.
El ambiente interno
Planificación a fondo de lo que se va a realizar
Las normativas
Derecho de autor
Políticas a seguir
El software a elegir: si libre o de paga.
Entre otros.

Fedora, Omeka y Greenstone son herramientas muy útiles y las tres presentan sus prestaciones y posibles limitaciones. Depende mucho de la misión y visión que se persiga. Si nos pusieran a establecer un orden de prioridad, en base a sus funcionalidades, los nombraría así:

Fedora
Greenstone
Omeka.

A continuación las funcionalidades básicas de cada uno de ellos.

Fedora.

De la Wikipedia extraemos una definición:

Flexible Extensible Digital Object Repository Architecture. También llamado Fedora Commons, es una arquitectura modular basada en el principio de que la interoperabilidad y extensibilidad se consiguen mejor mediante la integración de datos, interfaces, y mecanismos (p.e., ejecutables) como módulos definidos claramente. Fedora posee arquitectura de gestión de activos digitales (Digital Asset Management, DAM), sobre la cual se pueden construir muchos tipos de biblioteca digital, repositorios (archivos) institucionales, archivos digitales, y sistemas de bibliotecas digitales. Fedora es la arquitectura subyacente de un repositorio digital, y no es una aplicación completa para manejo, indexación, descubrimiento y distribución.

Imagen tomada de:https://parkito.wordpress.com/2009/10/10/fedora-cambia-su-licencia-de-documentacion/

Características.

Fedora proporciona una capa de gestión de propósito general para objetos digitales.

La gestión de objetos se basa en modelos de contenido que representan objetos de datos (unidades de contenido) o colecciones de objetos de datos.

Los objetos contienen enlaces entre fuentes de información (datastreams, internamente gestionadas o archivos de contenido externo), metadatos (internos o externos), metadatos de sistema (incluyendo un PID (persistent identifier) que es único para el repositorio de software), y comportamientos que ellos mismos son objetos de código que proporcionan enlaces a diseminadores (procesos de software que pueden ser usados con las datastreams).

Fedora soporta dos tipos de servicios de acceso: un cliente de gestión para ingestión, mantenimiento, y exportación de objectos; o una vía API para servicios de acceso basados en web construidos mediante HTTP o bien SOAP.

Un repositorio Fedora proporciona una capa de gestión general para objetos digitales, y contenedores que agregan fuentes de datos MIME-typed (p.e., imágenes digitales, archivos XML, metadatos).

Fuera de caja, Fedora incluye las herramientas de software necesarias para introducir, gestionar y proveer distribución básica de objetos con pocos o ningún diseminador, o puede ser usado como backend de una GUI monolítica.

Fedora soporta importación y expotación de objetos digitales en variedad de formatos XML. Esto permite intercambios entre Fedora y otras aplicaciones basadas en XML y facilita las tareas de archivado.

Datos extraídos de: https://es.wikipedia.org/wiki/Fedora_Commons

Greenstone.

En un documento publicado por la UNESCO, bajo tema: "Greestone un software libre de código abierto para construcción de biblioteca digitales. Experiencias en América Latina y el Caribe", se explica lo siguiente:

Greenstone es un conjunto de programas de software diseñado para la construcción de bibliotecas digitales con repositorios documentales proporcionando una contribución importante al acceso universal a la información, un apoyo a la libertad de información y a la democratización del conocimiento (UNESCO, 2010, p. 9).

Características.

En el artículo “Bibliotecas digitales gestionadas sobre Greenstone. Alternativas de integración Latinoamericana”, escrito por Caridad Fresno Chávez y Dailyn Rodríguez Martínez y que se publicó en la revisita Ciencias de la Información del Instituto de Información Científica y Tecnológica de Cuba, encontramos las siguientes características:

Greestone es un paquete de software que permite la creación y utilización de una biblioteca digital, con sus correspondientes colecciones de documentos.
Se distribuye bajo licencia GNU.
Su desarrollo lo lleva a cabo un equipo de investigadores de la Universidad de Waikato, Nueva Zelanda.
Da soporte a un creciente número de bibliotecas.
Por su fiabilidad y nivel de desarrollo y de mantenimiento, la UNESCO lo ha incluido en su programa de aplicaciones informáticas, para servicios de información y documentación.
La documentación de referencia es bastante completa.
Posee un motor de indización y recuperación de la información textual, llamado MG, que utiliza el modelo vertical para el tratamiento de la información, el cual es empleado por herramientas comerciales de alto costes.
Dicho motor utiliza plugins (pequeños programas que transforman los documentos originales en documentos XML), que asegura la capacidad de la aplicación para tratar cualquier idioma.
La información es tratada y almacenada mediante el sistema de gestión de bases de datos GDBM (GNU DataBase Manager).
De la versión 2.61 en adelante se le añadió, además, el motor Lucene, desarrollado por Apache Foundation.
El proceso de recuperación de la información, utiliza el motor correspondiente, para localizar y acceder a los documentos relevantes.
Desde su versión 2.41, se ha incorporado una interfaz gráfica en Java (GLI, Greenstone Library Interface), que facilita el proceso de creación y administración de las colecciones.

Omeka.

De uno de mis artículos "Omeka: un gestor de contenido para bibliotecas digitales muy fácil de instalar y utilizar", extraigo lo relacionado a esta interesante aplicación:

Antes de continuar con este sub tema, pasemos a definir qué es Omeka. En palabras de Rubén Alcaraz, en su sitio web http://www.rubenalcaraz.es/manual-omeka/index.html:

Omeka es una plataforma de publicación web libre, flexible y de código abierto, pensada paramostrar colecciones digitales y exposiciones virtuales de bibliotecas, archivos y museos. Se tratade un proyecto del Roy Rosenzweig Center forHistory and New Media (http://chnm.gmu.edu/),responsables también del gestor bibliográfico Zotero (http://www.zotero.org/). Omekaseencuentra liberado bajo una Licencia de software libre (GPLv3), con lo cual su distribución, uso ymodificación son libres.

Características.

El citado autor nos muestras las principales características de Omeka:

Software libre y de código abierto.
Gratuito.
Pensado para la publicación de colecciones y exposiciones digitales de bibliotecas, archivos, museos, escuelas (recursos didácticos), portales culturales, etc.
Instalación en 5 minutos (entorno PHP-MySQL).
Curva de aprendizaje baja.
Pensado para usuarios no necesariamente expertos en el manejo de las TIC. Prioriza el contenido del sitio a largas horas de programación y configuración.
Basado en estándares internacionalmente aceptados (Dublin Core, W3C, accesibilidad web...)
Extensible, escalable y flexible (Zend Framework, APIs documentadas y módulos desarrollados por la comunidad).
Personalizable. Sistema de plantillas como los de WordPress, Joomla! o Drupal.
Permite gestionar repositorios con grandes cantidades de objetos digitales (más de 100.000). Las limitaciones las pone nuestro propio servidor.
Interoperable (OAI-PMH).
Importación y migración de datos: OAI-PMH, CSV, EAD y Zotero.
Sistemas de difusión del contenido: Atom, DCMES-XML, JSON y RSS2.
Aplicación web accesible desde cualquier ordenador o dispositivo móvil con conexión a Internet.
Comunidad que va en aumento. Soporte técnico y documentación (videotutoriales, foros, listas de discusión para desarrolladores...).
Capacidad para gestionar y almacenar todo tipo de archivos: PDF, .ppt, .doc, .xml, .html, .mp3, .mp4, .divx, .gif, .tif, .jpeg...
Capacidad para asociar más de un archivo a cada objeto digital.
Organización de objetos digitales en colecciones (categorización).
Etiquetaje de objetos digitales y exposiciones (sin límite de etiquetas).
Creación y uso de lenguajes controlados o uso de los Library of Congress Subject Headings.
Creación y gestión de exposiciones virtuales combinando objetos digitales del repositorio con páginas estáticas que incluyen los textos de la exposición. Cada elemento puede ser utilizado en tantas exposiciones como sea necesario.
Geolocalización.
Timelines.
Interacción con el público.

Conclusión.

De estas tres aplicaciones, vistas sus funcionalidades a más profundidad, puesto que aquí solo tratamos la periferia de cada uno, Fedora es el que tiene mayor prestaciones. Conozco a Greenstone y conozco a Omeka, los he probado y tratado con ellos en modo local - que es donde siempre pruebo las aplicaciones - pero me he dado cuenta que el orden en que he colocado estos tres software, no es al azar. Estoy consciente de que el presente tema amerita de mayor profundidad y análisis, más para los fines de esta colaboración, es suficiente. invito la lector profundidad en los manuales que aparecen abundantemente en la web y en las referencias al final de este artículo.

Referencia:

Alcaraz Martínez, R. (2012). Omeka. Recuperado de :http://eprints.rclis.org/18145/1/Omeka.pdf

Fresno Chavez, G. y Rodríguez Martínez, D. (2012). Bibliotecas digitales gestionadas sobre Greenstone. Alternativa de integración Latinoamericana. Ciencias de la Información, 43(2), pp. 47-53. Recuperado de http://eprints.rclis.org/30363/

omeka

http://www.rubenalcaraz.es/manual-omeka/empezar-con-omeka.html

martes, 19 de marzo de 2019

Comparativa de software para repositorios I

Luis Peña. Marzo, 2019

Comenzaré este breve artículo citando a Tramullas y Garrido (2006) en su tema "Software libre para repositorios institucionales: propuesta para un modelo de evaluación de prestaciones", cuando dicen "Los repositorios de documentos digitales se están convirtiendo progresivamente es los lugares en los que numerosas organizaciones almacenan y organizan el resultado de sus actividades". En la actualidad es la modalidad en la que vivimos; las bibliotecas modernas han ido migrando sus documentos hacia el formato digital y construir los llamados repositorios institucionales. Existen para ello, una serie de aplicaciones, unas libres y de código abierto y otras que son de paga. En esta primera parte del tema, abordaremos una comparativa sencilla entre Eprints, Dspace y DGBID, presentado en las cátedras de la maestra Izakun Herrojo Salas, de la maestría en Bibliotecología y Ciencia de la Información, impartida en la Pontificia Universidad Católica Madre y Maestra, Santo Domingo.

En el artículo citado, se presentan varios modelos de evaluación de estas aplicaciones, pero se hace mención a que son escasos los modelos de evaluación existentes, pero que las más elaboradas se remiten a la presencia o ausencia de funcionalidades. Según Powell (205) y citado por los autores citados al inicio "se deben contemplar las prestaciones para objetos digitales complejos, sistemas de metadatos, identificadores, e interfaces para servicios de interoperabilidad y acceso a la información". Pero más completa es la lista de Barton y Waters (2004-2005), citados por los mismos autores, al enunciar que debe contemplarse los siguientes apartados:

Tipo de distribución.
Programación y adecuación propia.
Formatos de ficheros.
Características técnicas.
Estándares de metadatos.
Interoperabilidad.
Administración del sistema.
Configuración del sistema.
Soporte técnico.
Documentación técnica.
Otros factores adicionales.
Revisión de de instalaciones ya operativas.

Esta lista nos parece lo suficientemente exhaustiva, aunque podrían añadirse otros elementos, pero que el autor se cura en salud al expresar "Otros factores adicionales" en su lista de prestaciones.

A decir de los autores, existe otra segunda recopilación de criterios más exhaustiva y que la misma se debe a Crow (2004), para el cual la categorías a considerar serían:

Especificaciones técnicas.
Administración del sistema y del repositorio.
Gestión de contenido.
Difusión (Interfaz de usuario y funcionalidad de recuperación de información).
Archivo.
Mantenimiento del sistema.

Estos son criterios que deben tomarse en cuenta a la hora de seleccionar un software para su biblioteca digital o repositorio institucional y, que de una o otra manera le ayudarán a comprender sus funcionalidades.

De Dspace, los autores opinan lo siguiente: "es la solución más adecuada cuando se necesita disponer de un repositorio que va a dar soporte a diferentes tipos de documentos y, a atender a variadas comunidades de usuarios gracias a su versatilidad." Respecto a Eprint, nos indica "sería la aplicación correcta cuando se necesita implementar una colección de preprints o revistas digitales."

Algunas características de Dspace.

Del artículo "Situacion Actual de los Repositorios Abiertos en Mexico", escrito por Ana María González Mendoza y Irene Aguilar Juarez, extraigo la siguientes características:

DSpace está escrito en Java.
Emplea Base de Datos Oracle o PostgreSQL.
Es multiplataforma compatible con Linux, Mac OSX y Windows.
Soporta los protocolos: OAI-PMH, OAIORE, SWORD, WebDAV, OpenSearch, OpenURL, RSS, ATOM.
La interface es totalmente personalizable.
Reconoce los tipos de archivo más habituales como son textos, imágenes,
videos y audio; además de poder agregar nuevos formatos.
Utiliza metadatos por default Dublin Core, pero es posible usar MARC Y MODS.
Sus campos para realizar búsqueda son personalizables y se encuentra disponible en más de 20 idiomas.

Acerca de IPrint.

Los citados autores más arriba, explican:

El software EPrints se convirtió en el primero y uno de los más utilizados softwares de acceso libre y gratuito para la implementación de repositorios institucionales y ha inspirado desde su desarrollo a otros software que cumplen propósitos similares. EPrints es utilizado para la creación de repositorios y es compatible con el protocolo OAI (Open Archives Initiative) para la recolección de metadatos. Comparte muchas de las características comúnmente observadas en los sistemas de gestión de documentos, pero ha sido utilizado, principalmente, para la implementación de repositorios institucionales y revistas científicas.

Las principales características del mismo son:

Compatible con el protocolo OAI.
Es una aplicación de arquitectura LAMP (Linux, Apache, MySql y PHP).
Es multiplataforma, ya que corre bajo Linux, Solaris, Mac OS X y Windows.
Entre otros no menos importantes.

DGBID

El otro software que entra en la comparativa es DGBID, pero no encontramos datos en la web que nos permita realizar la descripción del mismo. En lo posterior esta parte estará actualizada.

Características:

Es un Sistema Integrado de Gestión, adaptado al nuevo código catalográfico RDA y descripciones ISBD (International Standard Bibliographic Description).
Permite la gestión de metadatos normalizados de registros bibliográficos, ejemplares, autoridades y objetos digitales.
Incorpora un módulo de gestión de objetos multimedia integrado en el proceso de descripción.
Permite la Integración masiva de registros y objetos digitales a través de ISO2709, MARCXML y METS.
Repositorio OAI-PMH, con vinculación directa entre el módulo de descripción y el repositorio OAI-PMH permitiendo la actualización dinámica del repositorio y evitando la doble introducción de datos.
Facilita la recolección de los objetos digitales por parte de los principales directorios y servicios de recolección como Hispana, Europeana, ROAR, OPENDOAR, OAIster,REMERI, etc.
Permite la consulta, ordenación y exploración detallada de todos los recursos bibliográficos y digitales.

Conclusión.

Hoy en día están ganando mucho terreno el uso de estos sofwares para la creación de repositorios institucionales, siendo Dspace el que siendo más utilizados. Los 3 comparados aquí tienen amplia prestaciones, pero no se han descrito con toda la amplitud que amerita cada de ellos. Solo nos sirve este artículo como marco introductorio al mundo de las aplicaciones para bibliotecas digitales o repositorios institucionales. Cabe mencionar aquí, que existen mucho más y que en la próxima entrega abordaremos lo concerniente a Fedora, Omeka y Greenstone. Prometo que lo haremos con mayores detalles que el presente artículo.

Referencias.

González Mendoza, A. M. y Aguilar Juarez, I. (2016?). Situación actual de los repositorios abiertos en México. Recuperado de http://ri.uaemex.mx/bitstream/handle/20.500.11799/41176/MICCS2015.pdf?sequence=1&isAllowed=y

Tramullas, J. y Garrido Picazo, P. (2006). Software libre para repositorios institucionales: propuetas para un modelo de evaluación de prestaciones. Recuperado de https://www.researchgate.net/publication/28806491_Software_libre_para_repositorios_institucionales_propuestas_para_un_modelo_de_evaluacion_de_prestaciones