Formats d'export¶
Documentation technique des trois formats produits par
archives-tool exporter. Cette page
décrit la structure des fichiers de sortie ; pour l'usage de
la CLI, voir le guide.
L'unité d'export est toujours la collection (miroir, libre rattachée ou transversale) — cf. Concepts.
Dublin Core XML¶
Format pivot pour archivage bibliothéconomique et OAI-PMH.
Structure¶
Racine <collection cote="…"> avec :
- une notice de tête
<notice role="collection">portant les métadonnées de la collection elle-même (cote, titre, description(s), DOI Nakala, fonds représentés) ; - une
<notice>par item, avec ses champs Dublin Core mappés.
<?xml version='1.0' encoding='utf-8'?>
<collection cote="HK">
<notice role="collection">
<dc:identifier>HK</dc:identifier>
<dc:title>Hara-Kiri (revue)</dc:title>
<dc:description>Revue satirique...</dc:description>
<dc:source>Hara-Kiri (HK)</dc:source>
</notice>
<notice>
<dc:identifier>HK-001</dc:identifier>
<dc:title>Hara-Kiri n°1</dc:title>
<dc:date>1960-09</dc:date>
<dc:type>http://purl.org/coar/resource_type/c_2659</dc:type>
<dc:language>fra</dc:language>
</notice>
<!-- … -->
</collection>
Préfixe XML : dc: ↔ http://purl.org/dc/terms/. Encodage UTF-8.
Indentation propre. Échappement automatique via
xml.etree.ElementTree.
Mapping des champs¶
Source de vérité : mapping_dc.py.
Colonnes dédiées de Item :
| Champ ColleC | Élément DC | Notes |
|---|---|---|
cote |
dc:identifier |
Cote interne, unique par fonds. |
titre |
dc:title |
|
date |
dc:date |
EDTF préservé tel quel. |
description |
dc:description |
|
type_coar |
dc:type |
URI COAR (pas de label). |
langue |
dc:language |
Code ISO 639-3 (fra, eng, …). |
Métadonnées étendues (clés JSON Item.metadonnees) :
| Clé interne | Élément DC |
|---|---|
metadonnees.auteurs |
dc:creator |
metadonnees.createurs |
dc:creator |
metadonnees.editeur |
dc:publisher |
metadonnees.publisher |
dc:publisher |
metadonnees.sujets |
dc:subject |
metadonnees.rubrique |
dc:subject |
metadonnees.collaborateurs |
dc:contributor |
metadonnees.droits |
dc:rights |
metadonnees.source |
dc:source |
metadonnees.relation |
dc:relation |
metadonnees.format |
dc:format |
Les listes (par exemple plusieurs auteurs) sont triées alphabétiquement avant sérialisation pour garantir la reproductibilité des exports.
Cas particuliers¶
- Collections transversales : la notice de tête liste tous
les fonds représentés en
<dc:source>(un par fonds). - Métadonnées custom non mappées (
metadonnees.hierarchie.*, clés ad-hoc) : non exportées en DC plat. Elles servent à la consultation interne, pas à la diffusion. - Champs vides : non sérialisés du tout (pas de
<dc:title/>vide).
Nakala CSV¶
Format de dépôt bulk pour Nakala.
Structure¶
CSV à séparateur ;, encodage UTF-8 BOM (compatible Excel),
une ligne d'entête + une ligne par item.
Colonnes¶
Ordre exact (source : nakala.py) :
| # | Colonne | Source ColleC |
|---|---|---|
| 1 | Linked in collection |
DOI Nakala de l'item (Item.doi_collection_nakala), repli sur celui de la collection (Collection.doi_nakala). |
| 2 | Status collection |
Vide (constant). |
| 3 | collectionsIds |
Vide par défaut. |
| 4 | Linked in item |
DOI Nakala de l'item (Item.doi_nakala). |
| 5 | Status donnee |
metadonnees.statut_nakala ou défaut CLI (pending). |
| 6 | http://nakala.fr/terms#title |
Item.titre. |
| 7 | langTitle |
Item.langue (code ISO). |
| 8 | http://nakala.fr/terms#creator |
metadonnees.createurs / auteurs. |
| 9 | http://nakala.fr/terms#created |
Item.date (EDTF préservé). |
| 10 | http://nakala.fr/terms#type |
Item.type_coar (URI COAR). |
| 11 | http://nakala.fr/terms#license |
metadonnees.licence ou défaut CLI. |
| 12 | Embargoed |
Vide par défaut. |
| 13 | http://purl.org/dc/terms/identifier |
Item.cote. |
| 14 | http://purl.org/dc/terms/title |
Item.titre. |
| 15 | http://purl.org/dc/terms/creator |
metadonnees.createurs / auteurs. |
| 16 | http://purl.org/dc/terms/date |
Item.date. |
| 17 | http://purl.org/dc/terms/description |
Item.description. |
| 18 | http://purl.org/dc/terms/subject |
metadonnees.sujets. |
| 19 | http://purl.org/dc/terms/language |
Item.langue. |
| 20 | http://purl.org/dc/terms/publisher |
metadonnees.editeur. |
| 21 | http://purl.org/dc/terms/type |
Item.type_coar. |
| 22 | http://purl.org/dc/terms/rights |
metadonnees.droits. |
| 23 | fonds_cote |
Cote du fonds d'origine (informatif). |
| 24 | IsDescribedBy |
Vide par défaut. |
| 25 | IsIdenticalTo |
Vide par défaut. |
| 26 | IsDerivedFrom |
Vide par défaut. |
| 27 | IsPublishedIn |
Vide par défaut. |
Cas particuliers¶
- Listes (créateurs multiples, sujets…) : concaténées avec
|et triées alphabétiquement. - Linked in collection : pris sur
Item.doi_collection_nakalas'il est renseigné, sinon surCollection.doi_nakala— utile quand on dépose une collection d'un coup, l'item-level prenant toujours la priorité s'il est explicitement renseigné. - Licence et statut : pris dans
metadonnees.licence/metadonnees.statut_nakalasi renseignés ; sinon les défauts fournis par la CLI (CC-BY-NC-ND-4.0/pending). - Colonne
fonds_cote: ne fait pas partie du schéma Nakala officiel, ajoutée comme colonne informative — précieuse pour les transversales où chaque ligne peut venir d'un fonds différent. À retirer manuellement avant upload si nécessaire.
Upload sur Nakala¶
Hors périmètre de l'outil. Le CSV produit est compatible avec l'import bulk de Nakala via leur interface ou leur API.
xlsx (Excel)¶
Format pratique pour le catalogage manuel et la relecture.
Structure¶
Une seule feuille par fichier :
| Lignes | Contenu |
|---|---|
| 1-4 | Bandeau métadonnées de la collection (titre, cote, type, fonds parent ou représentés). |
| 5 | Vide. |
| 6 | Entêtes des colonnes item. |
| 7+ | Un item par ligne. |
Colonnes item (ligne 6)¶
Cote · Titre · Fonds · État · Date · Année · Type ·
Langue · Description · Notes internes · DOI Nakala ·
Nb fichiers.
Fonds reflète le fonds d'origine de chaque item — particulièrement
utile pour les collections transversales.
Limites Excel¶
- Cellules : 32 767 caractères max (descriptions longues tronquées par Excel à l'ouverture, pas par ColleC).
- Titre de feuille : 31 caractères max ; le titre de collection
est tronqué et les caractères interdits (
[]:*?/\) sont retirés. - Encodage : pas de question, xlsx est XML compressé.
Limitations communes¶
- Pas de conversion EDTF vers ISO 8601 :
Item.dateest exporté littéralement. Si l'item a1969?, c'est cette chaîne qui sort. À évaluer en V2 selon les retours utilisateur. - Pas de JSON-LD (contextes COAR / Nakala) : reporté à une session ultérieure.
- Type COAR non validé contre la liste officielle. Le rapport
d'export signale les valeurs hors
http://purl.org/coar/resource_type/. - Fichiers non inclus dans les exports : seules les métadonnées des items sont exportées, pas les binaires des scans. Pour une publication Nakala complète, l'upload des fichiers se fait séparément via l'interface Nakala.
Reproductibilité¶
Tous les exports sont déterministes : deux appels successifs sur les mêmes données produisent des fichiers identiques au bit près.
Garanties :
- items triés par
(fonds.cote, item.cote); - fichiers d'un item triés par
ordre; - listes de valeurs (auteurs, sujets, …) triées alphabétiquement avant sérialisation.
Permet d'utiliser un export comme empreinte d'état (diff entre deux exports = ce qui a changé).
Voir aussi¶
- Guide CLI exporter — comment invoquer la commande, avec exemples.
- Concepts du modèle — distinction miroir / libre rattachée / transversale, fondamentale pour comprendre l'unité d'export.