Documentación data2check – EpubCheck

1. EpubCheck

EpubCheck es una herramienta de código abierto para validar documentos EPUB. Comprueba si el archivo cumple con las normas EPUB generales y, por lo tanto, es un EPUB válido que funciona sin errores en todos los dispositivos. Entre otras cosas comprueba la estructura de contenedor OCF, los marcados OPF y OPS, así como la coherencia de las referencias internas. EpubCheck fue desarrollado por idpf (International Digital Publishing Forum) y su acceso es libre en https://github.com/IDPF/epubcheck.

El resultado del chequeo es un informe XML. Puede encontrase más información sobre el resultado del chequeo en 2.2 La salida.

1.1 Cómo EpubCheck procesa un documento EPUB

(La fuente de la siguiente información es EpubCheck wiki, está traducido al español.)

La herramienta EpubCheck valida un documento utilizando un conjunto de "controladores", cada uno de los cuales examina una parte determinada del archivo EPUB. Así, la herramienta utilizará un OCFChecker para validar la estructura OCF, un OPFChecker para validar el archivo OPF, etc.

A continuación examinaremos como actúa cada uno de los controladores. El propósito de este documento es esbozar lo que hace la herramienta, no necesariamente cómo lo hace, por lo que no se entrará en los detalles de cómo funcionan los "controladores".

1.1.1 Examen del archivo

Lo primero que se valida es el archivo ZIP. La herramienta EpubCheck asegura que el archivo ZIP tiene la "cabecera ZIP" o sección correcta al principio del archivo. También chequea que el mimetype del archivo está en la ubicación correcta y tiene el contenido adecuado. Técnicamente esto se hace leyendo en el fichero a partir del byte 30 la cadena "mimetype" y a partir del byte 38 la cadena application/epub+ZIP.

Después de estas comprobaciones, el fichero ZIP se carga como un paquete ZIP, lo cual fallaría si el archivo ZIP estuviera corrupto, o si tuviera una información errónea en la cabecera o si estuviera incompleto.

1.1.2 Análisis y validación de los archivos del paquete

La mayoría de los ficheros en un documento EPUB son ficheros XML. Cada fichero XML se chequea para asegurar que es "well-formed" y que es válido.

Para cada uno de los ficheros XML (OPF, NCX, XHTML, DTBook, SVG) la herramienta dispone de uno o varios schema que definen la estructura del fichero, y la herramienta los utiliza para validar los ficheros contra esos schema. Además de validar los ficheros contra los schema, la herramienta ejecuta un conjunto de chequeos en detalles que no están relacionados con la validez de los archivos XML individuales, pero que son necesarias para que un documento EPUB sea válido.

1.1.3 Chequeo del contenido relativo a OCF

Los ficheros encryption.xml, container.xml y signatures.xml, si existen, se chequean contra sus respectivos schema. Además, el OCFChecker obtiene el fichero OPF.

1.1.4 El archivo OPF

  • Valida el OPF contra el schema.
  • Chequea el unique-identifier, para asegurar que referencia un identificador real en el fichero OPF.
  • Chequea que existe el fichero NCX.
  • Chequea para cada item en el manifiesto
    • que existe en el paquete.
    • que no tiene contenido inválido en el atributo media-type.
    • que no contiene text/html, lo cual no es válido para epubs.
    • que no contiene media-types obsoletos en los documentos OPS.
    • que contiene los media-types actualizados en los documentos OEBPS 1.2.
    • que no contiene media-types desconocidos.
  • Abre cada item y ejecuta el chequeo apropiado (OPSChecker para XHTML, DTBookChecker para DTBook, BitmapChecker para imágenes, etc.).
  • Chequea cada item en el elemento spine.
    • debe ser un elemento válido para el spine.
    • el valor del atributo "media-type" debe ser uno de los llamados "core media-type", o tener un atributo "fallback".

1.1.5 Otros formatos de archivo

Ficheros XHTML
Valida los ficheros XHTML contra los schema.
Chequea que cada imagen referenciada existe realmente en el paquete.
Ficheros DTBook
Valida los ficheros DTBook contra los schema.
Chequeo de bitmaps
Valida la cabecera de la imagen y el tipo de imagen.
Fichero NCX
Valida los ficheros NCX contra los schema.

2. Chequear un documento

En la opción "Documentos" del menú, se pueden chequear documentos Word e InDesign con la ayuda de una configuración creada previamente. Además, se pueden chequear los documentos EPUB mediante la herramienta EpubCheck.

2.1 Proceso de chequeo

Haciendo click en el botón "Elegir archivo" (ver figura 1), permite seleccionar un documento EPUB para que sea validado (ver figura 2).

NOTA: Los formatos de los archivos a subir deben ser compatibles con XML. Esto significa que sólo se deben subir ficheros con la extensión .epub!

Subir un documento EPUB - Click en "Elegir archivo" para abrir el gestor de archivos

Figura 1: Subir un documento EPUB - Click en "Elegir archivo" para abrir el gestor de archivos.

Subir un documento EPUB - Elegir un fichero .epub

Figura 2: Subir un documento EPUB - Elegir un fichero .epub.

Después de seleccionar un documento EPUB haciendo doble click sobre él, el tipo de configuración EPUB - EpubCheck queda seleccionado en la lista desplegable "Configuración". Por favor, seleccione este tipo (ver figura 3).

Tipo de configuración disponible después de seleccionar un documento EPUB

Figura 3: Tipo de configuración disponible después de seleccionar un documento EPUB.

Después de seleccionar un documento para validar y el tipo de configuración EPUB - EpubCheck, haga click en el botón verde "Subir un archivo y comenzar el chequeo" para comenzar el proceso de chequeo. Aparecerá el símbolo del reloj que mostrará el progreso del chequeo. Este proceso puede tardar algunos segundos (ver figura 4).

Validación de EPUB procesándose

Figura 4: Validación de EPUB procesándose.

El documento seleccionado se ha chequeado correctamente. Después de terminar el chequeo, se puede ver el fichero XML resultado en la parte derecha (ver figura 5).

Proceso EpubCheck terminado

Figura 5: Proceso EpubCheck terminado.

Más información sobre el documento de salida se muestra en detalle a continuación.

2.2 La salida

Independientemente de si el resultado del chequeo ha sido "correcto" (sin errores) o "incorrecto" (con errores), siempre se muestra un enlace al documento de salida:

epubcheck-report.xml: Siguiendo este enlace, se descarga un informe XML (ver figura 6).

Informe de errores en formato XML de EpubCheck

Figura 6: Informe de errores en formato XML de EpubCheck.

Este fichero XML contiene, entre otras cosas, los metadatos de la publicación, como por ejemplo la información de copyright, de los tipos de letra utilizados y referencias. Al principio del fichero se incluye un elemento messages donde se listan todos los errores encontrados por EpubCheck, cada uno de ellos dentro de su propio elemento message (ver figura 7).

Extracto del informe epubcheck-report.xml

Figura 7: Extracto del informe epubcheck-report.xml.

En el ejemplo mostrado hay un error: El fichero con la portada no se ha encontrado.

Los errores más frecuentes generados por EpubCheck y su explicación pueden obtenerse en el wiki de EpubCheck.

3. Historial de documentos chequeados

En el Historial de documentos chequeados bajo la opción de menú "Documentos" (parte izquierda) se listan todos los chequeos realizados en orden cronológico y se permite el acceso a los resultados de cada chequeo. Por tanto, el Historial de documentos chequeados constituye su base de datos personal de chequeos.

En esta tabla se listan todos los chequeos realizados, incluyendo cuándo se realizó el chequeo ("Fecha del chequeo"), el nombre del archivo chequeado ("Documento a chequear"), el resultado del chequeo (icono de chequeo verde (icono chequeo) para "chequeo correcto sin errores", icono pin naranja (icono pin) para "chequeo correcto pero con errores" e icono flash rojo (icono flash) para "chequeo fallido, debido por ejemplo a un error del sistema") así como la configuración utilizada para el chequeo (ver figura 8).

El historial de documentos chequeados

Figura 8: El historial de documentos chequeados.

Haciendo click sobre alguno de los documentos enlazados como "Documento a chequear", se abren en la parte derecha y se pueden ver según se describe en 2.2 La salida (ver figura 6).

El Historial de documentos chequeados también puede encontrarse en la página de inicio bajo la opción de menú "Inicio" (ver 4.1 Inicio en la parte "General" de esta ayuda).

Copyright © 2022 data2check, todos los derechos reservados

TCG | Aviso legal | Política de privacidad