FĂ©licitations ! Ton soutien Ă  bien Ă©tĂ© envoyĂ© Ă  l’auteur
đŸ‡«đŸ‡· Le format EPUB pour les nuls

đŸ‡«đŸ‡· Le format EPUB pour les nuls

Publié le 7 juil. 2021 Mis à jour le 27 oct. 2022 Technologie
time 9 min
2
J'adore
0
Solidaire
1
Waouh
thumb 0 commentaire
lecture 3367 lectures
4
réactions

Sur Panodyssey, tu peux lire 10 publications par mois sans ĂȘtre connectĂ©. Profite encore de 9 articles Ă  dĂ©couvrir ce mois-ci.

Pour ne pas ĂȘtre limitĂ©, connecte-toi ou crĂ©Ă© un compte en cliquant ci-dessous, c’est gratuit ! Se connecter

đŸ‡«đŸ‡· Le format EPUB pour les nuls

Bonjour mes belettes en herbe,

 

Dehors, il fait un brin de soleil, l'air n'est ni trop chaud ni trop froid. C'est le temps parfait pour une petite virée jusqu'au lac. Là-bas, vous déplierez votre serviette sur le sable et vous allongerez avec une bonne lecture, en écoutant les petits oiseaux et en rendant de temps à autre à un couple de cygnes leurs regards hautains. Un très bon plan... Sauf que vous n'avez pas envie d'abîmer votre livre pendant cette excursion. Heureusement, on est en 2021, vous possédez donc une liseuse. Ah, le livre numérique... on se connecte à son compte Kobo ou Amazon, on choisit sa prochaine lecture, et bim... c'est dans la boîte, tout se synchronise automatiquement.

 

Mais que sont exactement ces fichiers appelés "e-book" que vous téléchargez sur votre appareil ? Qu'est-ce qu'un "epub", qu'est-ce qu'un "mobi" ? Si vous êtes auteur, et en particulier auteur auto-édité, vous vous êtes sans doute déjà posé la question. Si vous connaissez déjà la réponse, cet article n'est probablement pas fait pour vous. Cet article est fait pour vous, en revanche, si ces fichiers sont pour vous de mystérieuses boîtes noires que vous générez à l'aide d'outils sans comprendre concrètement de quoi il en retourne.

 

Dans cet article, nous allons parler du format EPUB.

 
 

Un EPUB est une archive

Qu'est-ce qu'une archive ?

 

Le EPUB est ce qu'on appelle une archive. En informatique, une archive, c'est, grosso modo, un fichier qui contient d'autres fichiers, un peu comme le sac à main de Mary Poppins : le sac à main est un objet en soi. À l'intérieur, vous mettez un tas d'autres objets dont vous avez besoin, et l'ensemble pèse moins lourd que ce à quoi on pourrait s'attendre. Finalement, c'est comme un dossier, mais empaqueté, compacté, sous forme de fichier. Le format d'archive le plus connu par chez nous est probablement le "zip". Il y a aussi le "7z", le "rar", le "tar"... le EPUB.

 

Décompresser une archive

 

Ainsi, pour ouvrir le fichier EPUB et découvrir ses rouages internes, vous avez besoin d'un gestionnaire d'archive : un petit logiciel de compression/décompression comme ceux qui vous permettent d'ouvrir les "zip". L'explorateur de Windows en contient un par défaut, mais vous avez l'embarras du choix. Moi, j'utilise 7-Zip sous Windows et Keka sous MacOS.

 

https://www.7-zip.org/

https://www.keka.io/en/

 

Contenu d'un EPUB

 

Le EPUB est donc une archive contenant une arborescence de fichiers. En le décompressant, vous pouvez naviguer à travers cette arborescence. Quelque part s'y cache le texte de votre livre. Tous les EPUB ne se ressemblent pas, mais ils partagent certaines règles de construction.

 

Capture d'écran de l'arborescence de fichier du EPUB "L'Enfant des Esprits"

 

Les visionneuses

 

Les visionneuses et autres applications de lecture (comme Calibre viewer) ainsi que les systèmes des liseuses sont capables de lire l'archive EPUB en s'appuyant sur les règles de construction communes à tous les EPUB. Elles en comprennent la structure et savent où trouver le texte du livre, sa couverture, ou encore sa police d'écriture. Ainsi, elles génèrent un joli rendu, agréable à lire.

 

Télécharger l'application Calibre, incluant Calibre viewer :

https://calibre-ebook.com/fr/download

 

Est-ce que tout va bien jusque-là, les belettes ?

 

 

Les règles de construction du EPUB

 

1 - Le EPUB est une norme du Web

 

Le EPUB (electronic publication) est une norme définie par le W3C (World Wide Web Consortium). Le rôle du W3C est de recommander la meilleure manière de créer les pages Web, afin qu'elles soient accessibles au plus grand nombre, sur le plus de supports différents.

 

Tout savoir sur le W3C :

https://www.w3.org/

 

Quel rapport entre le EPUB et le Web ? Les technologies sur lesquelles ils reposent. En naviguant dans un EPUB décompressé, vous allez trouver des fichiers XHTML, CSS, PNG... comme en Web. Le EPUB, c'est un peu comme une page Web simpliste, dont le contenu s'adapte à la liseuse.

 

Capture d'écran du fichier OPF de "L'Enfant des Esprits". Les extensions de fichiers sont soulignées.

 

 

 

 

 

 

 

2 - Vulgarisons la norme

Les spécifications du W3C sont très détaillées et complètes, mais elles peuvent paraître difficiles à lire pour qui part de zéro sans savoir quoi chercher. Nous allons tenter de les simplifier un maximum dans les prochaines sections.

Spécifications complètes du format EPUB 3.2 :

https://www.w3.org/publishing/epub32/epub-spec.html

 

2.1 - Le fichier OPF : le cœur du EPUB

Le EPUB contient un fichier maître qui liste tous les autres fichiers, médias et metadata nécessaires pour afficher correctement le contenu de votre livre. Ce "cœur" du EPUB porte généralement l'extension OPF.

 

Capture d'écran de l'arborescence de fichiers de "L'Enfant des Esprits". content.opf est souilgné

 

C'est en fait le fichier OPF que recherche votre liseuse quand vous ouvrez un EPUB. D'ailleurs, sur votre ordinateur, si vos EPUB s'ouvrent automatiquement avec Calibre viewer et que vous décompressez l'archive, vous remarquerez peut-être que le fichier OPF possède aussi l'icône de Calibre.

 

Capture d'écran de l'arborescence de fichiers de "L'Enfant des Esprits". L'icône de content.opf est entourée.

 

â„čïžđŸŠŠ  OPF, NCX et XHTML sont des fichiers textes !

Petit conseil de belette à belette : ne soyez pas effrayés par les extensions de fichier exotiques comme "OPF", "NCX" ou "XHTML". Très souvent, ces fichiers ne contiennent que du texte, et l'extension ne sert qu'à les identifier ou à déterminer de quelle manière ils sont structurés.

 

Le fichier OPF est parfaitement lisible à l'aide du Bloc-notes de Windows, bien que ce ne soit pas très digeste. Pour voir de jolies couleurs qui mettent en avant sa structure, glissez-le dans un onglet de votre navigateur (par exemple Firefox). Les développeurs, eux, possèdent des éditeurs de texte plus poussés avec une coloration syntaxique.

 

Le contenu du fichier OPF de "L'Enfant des Esprits". A gauche dans Firefox. A droite dans le Bloc-Notes de Windows.

Une fois que vous avez sous les yeux le contenu du OPF, intéressons-nous aux différentes balises.

 

2.1.1 - Les metadata

Les "metadata" (ou métadonnées en bon français) sont des informations techniques qui concernent votre livre. Elles permettent aux liseuses d'afficher ces informations à des endroits bien précis.

 

Zoom sur la balise metadata

 

Par exemple, quand votre liseuse affiche "Auteur : Bella Belette" dans la bibliothèque, c'est parce que la metadata "dc:creator" contient "Bella Belette". La liseuse sait que le nom de l'auteur se trouve dans la metadata "dc:creator", c'est donc là qu'elle le cherche et le trouve. Si cette metadata était absente, la liseuse ne pourrait pas deviner qui est l'auteur, elle n'est pas capable d'extraire cette information dans les premières pages du livre.

 

Quand vous utilisez un logiciel comme Calibre pour "éditer les métadonnées", Calibre va en fait remplir chaque metadata du fichier OPF avec les informations que vous aurez entrées dans l'interface.

 

Capture d'écran de l'édition des metadata dans Calibre

 

2.1.2 Le manifest

Le rôle du manifest est très simple à comprendre. C'est tout bonnement une liste de tous les fichiers qui composent le livre. Le manifest indique où se trouve le sommaire, la page de titre, les chapitres, la feuille de style qui indique la police de caractère à utiliser, etc... chaque fichier qui compose le livre est listé dans une balise <item>.

Zoom sur le manifest

 

Ce type de liste est très pratique, car chaque fichier peut se trouver dans n'importe quel dossier de l'arborescence. Vous pourriez très bien ranger tous vos chapitres dans un dossier appelé "pouet" et indiquer dans le manifest qu'ils se trouvent dans "pouet". La structure du EPUB est donc très souple.

 

Zoom sur la manière dont on définit les chemins dans le manifest

Le manifest n'est pas ordonné, c'est comme une liste de courses. L'ordre dans lequel vous achetez vos produits n'est pas forcément celui dans lequel vous les avez marqués. Le manifest peut donc indiquer chapitre 10, chapitre 2, chapitre 5... cela n'a aucun impact sur le rendu du livre. Ce qui compte, c'est que tout y soit.

 

2.1.3 - Le spine

Le spine représente l'ordre dans lequel les fichiers qui composent le livre doivent être lus. Par exemple : d'abord la couverture, puis la page de titre, puis le chapitre 1, etc...

Zoom sur le spine

 

En résumé : le spine dit à la liseuse l'ordre dans lequel lire les fichiers du livre. Pour chaque fichier, elle trouve dans le manifest l'identifiant correspondant et en déduit, à l'aide du "href", où se trouve le fichier.

 

Zoom sur le lien entre spine et manifest

Nous avons fait le tour des principales balises du fichier OPF : des metadata pour les informations techniques, le manifest pour lister les fichiers et leur emplacement, le spine pour indiquer à la liseuse l'ordre de lecture.

 

 

2.2 - La navigation

Quand on parle de navigation, on parle de la manière dont votre liseuse affiche la table des matières, et de quelle façon vous interragissez avec ce menu.

2.2.1 - Le spine ne suffit pas

 

Mais comment la liseuse affiche-t-elle la table des matières ? Le spine du OPF, seul, permet à la liseuse d'afficher quelque chose qui y ressemble plus ou moins. Calibre viewer, par exemple, est capable de détecter les titres de chapitres s'ils existent, mais affiche une entrée "unlabeled" pour les pages sans texte (couverture, carte du monde...)

 

Rendu de "L'Enfant des Esprits" dans Calibre viewer avec seulement le spine pour définir le menu.

 

Et c'est là que le "Navigation Document" du format EPUB entre en scène. La navigation doit être explicitement décrite. Or, si vous vous promenez dans votre EPUB et lisez les différents fichiers, vous risquez bien de trouver votre sommaire à deux endroits différents, comme dans la capture ci-dessous.

 

L'arborescence de fichiers de "L'Enfant des Esprits". Les fichiers nav.xhtml et toc.ncx sont soulignés.

 

2.2.2 - NCX et <nav>, deux façons de naviguer

 

Il existe deux fichiers qui peuvent contenir la table des matières. Le premier possède l'extension NCX. Le second peut s'appeler "nav.xhtml", et à l'intérieur, votre table des matières est contenue dans une balise <nav epub:type="toc">. Mais pourquoi deux fichiers pour faire la même chose ?

 

 

En fait, le format EPUB n'est pas gravé dans le marbre. Il évolue ! Le W3C travaille sans cesse à améliorer ses recommandations. Voilà pourquoi il arrive de voir coexister deux approches qui font la même chose dans le même EPUB : l'une des deux est "nouvelle" (donc sans doute meilleure en termes d'accessibilité et de modernité), et la seconde "ancienne".

 

L'avantage de faire coexister les deux, c'est que le EPUB va s'adapter à davantage de liseuses. En effet, si votre appareil est trop ancien, il risque de ne pas comprendre comment interpréter la structure la plus moderne.

 

Concernant la navigation, la vieille méthode est le NCX, et la méthode moderne l'utilisation d'une balise <nav epub:type="toc">. Il est préférable que le NCX soit présent, de manière à ce que les liseuses les plus anciennes puissent interpréter correctement la table des matières.

 

 

2.3 - Le mimetype

 

Le mimetype (ou type MIME, pour type Multipurpose Internet Mail Extensions) est un minuscule fichier devant impérativement se trouver à la racine de votre EPUB.

 

L'arborescence de fichier de "l'Enfant des Esprits". Le mimetype est souligné

 

Il contient le texte "application/epub+zip", et indique simplement que votre EPUB est un EPUB. Il existe d'autres types MIME pour d'autres types de document.

 

Les types MIME les plus courants :

https://developer.mozilla.org/fr/docs/Web/HTTP/Basics_of_HTTP/MIME_types/Common_types

 

 

2.4 - Le dossier META-INF

Le dossier META-INF est un dossier devant impérativement se trouver à la racine de votre EPUB. Il contient certains fichiers bien précis.

L'arborescence de fichiers de "L'Enfant des Esprits". Le dossier META-INF est souligné.

 

2.4.1 - Container

 

Le seul fichier obligatoire s'appelle "container.xml" et permet à la liseuse de situer l'emplacement du fameux OPF. C'est pour cette raison que vous êtes libre d'organiser vos fichiers comme bon vous semble et que vous pouvez placer votre OPF n'importe où dans votre arborescence. Comme "META-INF/container.xml" est obligatoire, votre liseuse sait que c'est à cet emplacement qu'elle trouvera le chemin vers le OPF, le OPF donnant lui même le chemin vers tous les autres fichiers.

 

Zoom sur le container

 

2.4.2 - DRM

 

META-INF peut contenir d'autres fichiers, notamment relatifs aux DRM.

 

Spécifications du dossier META-INF :

https://www.w3.org/publishing/epub32/epub-ocf.html#sec-container-abstract

 

Nous ne détaillerons pas l'utilisation de DRM dans cet article, car je n'ai pas fait les recherches... non, je veux dire...  car ce sujet s'éloigne d'une première vulgarisation du format.

 

3 - Les versions de spécifications

 

Nous avons vu ensemble les grandes lignes du format EPUB. Pour aller plus loin, vous pouvez à nouveau jeter un œil aux spécifications du W3C. Les clés que vous avez à présent en main vous permettront de les lire un peu plus facilement.

 

Overview du format EPUB :

https://www.w3.org/TR/epub-overview-33/

 

Le format EPUB n'est pas gravé dans le marbre, vous avez pu le voir avec l'exemple de la navigation. Voilà pourquoi des liens vers différentes versions sont indiqués dans la page "EPUB 3 Overview". Avant de lire une spécification, faites attention à la version qui vous intéresse.

 

Capture d'écran du site de W3C, affichant différentes versions de la spécification EPUB.

 

Au moment où j'écris ceci, la version considérée comme "la norme actuelle" est la version 3.2, dont voici l'URL :

https://www.w3.org/publishing/epub32/epub-spec.html

 

La version 3.3 est en passe de devenir le nouveau standard, mais elle est encore en phase de brouillon :

https://www.w3.org/TR/epub-33/

 

Nous en avons fini avec les règles de construction du EPUB. J'espère que cet article vous a permis de mieux comprendre de quelle manière il est construit. Fort de cette connaissance, avec un peu de maîtrise des langages de mise en forme HTML et CSS, vous allez pouvoir contrôler le rendu de votre livre avec une grande précision ;-)

lecture 3367 lectures
thumb 0 commentaire
4
réactions

Commentaire (0)

Tu aimes les publications Panodyssey ?
Soutiens leurs auteurs indépendants !

Prolonger le voyage dans l'univers Technologie

donate Tu peux soutenir les auteurs qui te tiennent Ă  coeur

promo

Télécharge l'application mobile Panodyssey