Guide d'annotation : Différence entre versions

De TimeUsage
Aller à : navigation, rechercher
(Questions)
 
(86 révisions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
Cette page rassemble des éléments pour guider l'annotation des sources dans Transkribus et rassembler un certain nombre de questions méthodologiques.
+
== [[Guide d'annotation : remarques générales]] ==
 
+
== [[Guide d'annotation : tags du projet Time Us]] ==
== Tags Transkribus par défaut ==
 
Transkribus fournit des tags prédéfinis prévus pour les besoins de la transcription et pour rendre possible la création d'un index. Transkribus a fourni en 2015 un [https://transkribus.eu/Transkribus/docs/How%20to%20use%20TRANSKRIBUS-0.1.7.pdf manuel d'utilisation] qui donne des indications sur la majorité des tags prédéfinis et leurs usages. La section qui suit reprend des éléments de ce manuel, mais pas de manière exhaustive.
 
 
 
Trois tags ne sont pas documentés :
 
* '''Div'''
 
* '''Work''' : mais compte tenu des intentions de l'équipe Transkribus et des usages du terme, il s'agit très certainement de signaler une référence bibliographique.
 
* '''textStyle''' : qui sert cependant à l'annotation de l'apparence du texte transcrit.
 
 
 
 
 
=== Transcription du texte ===
 
{| class="wikitable alternance"
 
! scope="col" | tag
 
! scope="col" | attribut(s)
 
! scope="col" | TEI tag
 
! scope="col" | utilisation
 
|-
 
| Abbrev
 
| @expansion
 
| <abbrev>
 
| signale un mot abrégé
 
|-
 
| Add
 
| @place (localisation de l'ajout)
 
| <add>
 
| indique que du contenu a été ajouté sur le document par l'auteur ou par une autre personne
 
|-
 
| Gap
 
| supplied
 
| <gap>
 
| signale du texte omis ou illisible
 
|-
 
| Sic
 
| @correction
 
| <sic>
 
| signale une erreur évidente dans le texte
 
|-
 
| Speech
 
| @speaker
 
| <speaker>
 
| signale du discours direct
 
|-
 
| Supplied
 
| @reason
 
| <supplied> (non-TEI)
 
| signale une portion de texte fournie par le ou la transcripteur.se
 
|-
 
| Unclear
 
| @alternative, @reason
 
| <unclear>
 
| signale une portion illisible ou une lecture incertaine
 
|}
 
 
 
=== Identification des entités ===
 
{| class="wikitable alternance"
 
! scope="col" | tag
 
! scope="col" | attribut(s)
 
! scope="col" | TEI tag
 
! scope="col" | utilisation
 
|-
 
| Blackening
 
| @comment
 
| <blackening> (non-TEI)
 
| signale des données sensibles qui ne peuvent être rendues publiques
 
|-
 
| Date
 
| @year, @month, @day
 
| <date>
 
| signale une entité de type date
 
|-
 
| Organization
 
| aucun
 
| <orgName>
 
| signale une organisation
 
|-
 
| Person
 
| @dateofDeath, @dateofBirth, @lastname, @firstname, @occupation @notize
 
| <persName>
 
| signale une personne
 
|-
 
| Place
 
| @country
 
| <placeName>
 
| signale une entité de type lieu
 
|}
 
 
 
== Tags pour le projet TimeUs ==
 
 
 
Tous ces tags ne sont pas utiles pour le projet TimeUs et leur utilisation peut être plus précise que celle prévue par l'équipe Transkribus. Voici une liste des principaux tags utilisés pour l'annotation des sources dans le projet TimeUs :
 
 
 
=== Tags prédéfinis ===
 
==== Person ====
 
Le tag "Person" doit servir à identifier la mention d'une personne. Il ne se limite pas au signalement des patronymes. Précisions à venir.
 
 
 
==== Organization ====
 
Le tag "Organization" doit servir à identifier la mention d'un établissement, d'une institution, etc, en lien avec l'industrie du textile. La sélection sur laquelle s'étend le tag doit contenir l'ensemble du nom de l'établissement. Précisions à venir.
 
 
 
==== Place ====
 
Le tag "Place" doit servir à identifier un lieu. La sélection sur laquelle s'étend le tag doit contenir le nom du lieu. On peut utiliser le tag "Address" en complément pour signaler la portion du tag contenu une adresse. Précisions à venir.
 
 
 
=== Tags ajoutés ===
 
 
 
==== typeRemuneration ====
 
Le tag "typeRemuneration" doit servir à signaler les informations concernant la rémunération des travailleurs du textile. Précision à venir.
 
 
 
==== Address ====
 
Précisions à venir.
 
 
 
==== Occupation (à venir) ====
 
Le tag "Occupation" doit servir à signaler les mentions de métier, de fonction ou d'occupation. Attention toutefois car toutes les occurrences de métier ne sont pas à annoter. Précisions à venir.
 
 
 
== Exemple de la série AD69 9M5 ==
 
La [http://archives.rhone.fr/accounts/mnesys_cg69/datas/medias/IR_pour_internet/9%20M.pdf sous-série AD65 9M] rassemble des documents concernant l'industrie de la soie et du textile (an VIII-1930). La côte 9M5 renvoie à un ensemble documentaire couvrant la période allant de 1894 à 1911. Elle commence par un dossier sur la crise de l'industrie du tissage lyonnais entre novembre 1894 et juillet 1895, composé d'enquêtes administratives sur la situation et les grèves. 
 
Partiellement transcrit et annoté, cet ensemble documentaire peut servir de base à partir de laquelle formuler une ébauche de guide pour l'annotation dans Transkribus dans le cadre du projet.
 
La première analyse des choix d'annotation a donné lieu à un tableau récapitulatif qui se trouve [https://lite.framacalc.org/dRnJfc7Kui ici]. Cette section de l'article synthétise l'ensemble des remarques établies à cette occasion. 
 
 
 
=== Corrections à apporter ===
 
==== Identification des noms de fabriques ou d'ateliers ====
 
 
 
{| class="wikitable"
 
|+ Exemple 1
 
|-
 
| 1
 
| La Maison <Person>Beraud</Person> est prête à accepter le tarif de 1885.
 
|-
 
| 2
 
| La <Organization>Maison Beraud</Organization> est prête à accepter le tarif de 1885.
 
|-
 
| 3
 
| La <Organization>Maison <Person>Beraud</Person></Organization> est prête à accepter le tarif de 1885.
 
|}
 
 
 
{| class="wikitable left"
 
|+ Exemple 2
 
|-
 
| 1
 
| La continuation de la mise à l'index des Maison <Person>Algoud,</Person> frères et <Person>Coté, Ducoté</Person> et Cie. 
 
|-
 
| 2
 
| La continuation de la mise à l'index des <Organization>Maison Algoud, frères</Organization> et <Organization>Coté, Ducoté et Cie</Organization>.
 
|-
 
| 3
 
| La continuation de la mise à l'index des <Organization>Maison <Person>Algoud<Person>, frères</Organization> et <Organization><Person>Coté<Person>, <Person>Ducoté<Person> et Cie</Organization>.
 
|}
 
 
 
Le cas 1 correspond à ce qui a été réalisé lors de la première phase d'annotation du texte, à de nombreuses reprises. C'est un mauvais usage du tag, ou du moins un usage insuffisant puisqu'il ne s'agit pas de désigner une personne mais un atelier. Il faudrait donc non seulement étendre la portion du texte sur lequel porte le tag, mais aussi et surtout utiliser "Organization" à la place de "Person" (2). Dans la mesure où Transkribus permet de combiner plusieurs tags et sachant que l'atelier porte le nom d'une personne, il est aussi possible de combiner l'utilisation des deux tags (3).
 
 
 
 
 
==== Utilisation de "Work" ====
 
# Le tag "Work" ne devrait pas être utilisé pour annoter des métiers.
 
# Les rapports font souvent mentions des individus qui ont participé à la rédaction des documents, ou bien à l'organisation de la réunion dont le rapport rend compte. Par exemple "Président", "Secrétaire", etc. Il ne semble pas nécessaire d'annoter ce genre d'informations : il ne s'agit pas de métiers mais de fonctions exercées temporairement à l'occasion d'une réunion syndicale ou de la rédaction du rapport.
 
 
 
==== Omissions volontaires ou involontaire ? ====
 
Plusieurs éléments n'ont pas été annotés dans les documents alors que des passages du même type l'étaient sur d'autres pages. Ces oublis sont-il accidentels, et donc à corriger, ou bien volontaires ? On pourrait en effet avoir souhaité ignorer des informations redondantes, par exemple.
 
 
 
=== Questions ===
 
==== Questions générales ====
 
* Une informations redondante doit-elle systématiquement être annotée ?
 
* Les date doivent-elles être annotée ? Toutes, y compris celle datant les rapports ? Sinon, suivant quel(s) critère(s) ?
 
 
 
==== Application de "Place" ====
 
* Le tag "Place" a servi à annoter des adresses, mais parfois en omettant le nom du lieu associé à cette adresse. Comment préciser la manière d'utiliser le tag "Place", comment l'articuler avec le tag "Address" ?
 
* Lors de l'annotation des adresses, les numéros ont presque toujours été ignorés. Ne faudrait-il pas les inclure ?
 
* Un établissement n'est-il pas aussi un lieu ? Ne faudrait-il pas aussi utiliser le tag "Place" pour ces lieux, en plus du tag "Organization" ? Sinon, comment préciser l'utilisation qui doit être faite du tag "Place" par rapport au tag "Organization" ?
 
 
 
==== Application de "Occupation" (actuellement "Work") ====
 
* Il faudrait corriger les mauvaises applications du tag "work" après la création du tag "occupation".
 
* La manière d'annoter les occupations n'est pas constante. Souvent, dans des expressions comme "ouvrier du tissage mécanique", seul le mot "ouvrier" a été annoté. Ne faudrait-il pas prendre toute l'expression ?
 
* La formulation du texte peut rendre l'annotation des métiers compliquée. Dans une expression comme "les ouvriers du tissage à bras, ceux du tissage mécanique", il serait logique d'annoter d'une part "ouvriers du tissage à bras" et d'autre part "ceux du tissage mécanique", mais cela ne rend-il pas la donnée inutilisable si on essaie, par exemple, d'extraire toutes les valeurs des tags signalant les métiers ?
 
* L'un des objectifs d'exploitation des sources est d'identifier le statut matrimonial des travailleurs et travailleuses. On pourrait créer un tag dédié à cela. Cependant, dans le cas où le terme "mère de famille" est employé dans un document, comme c'est le cas dans le dossier documentaire, s'agit-il d'une occupation ou d'un statut matrimonial ?
 
* Certains métiers ne sont pas directement liés à l'industrie du textile, par exemple celui de rédacteur pour un journal. Doivent-ils tout de même être annoté ? Faut-il créer un référentiel des métiers à annoter/ignorer pour aider les annotateurs ?
 
 
 
==== Application de "Person" ====
 
* Le tag "Person" a généralement été utilisé pour annoter des patronymes, souvent, les titres ont été ignorés (par exemple : Pour "M. Gindre fils", seul "Gindre" a été annoté avec "Person"). Ne faudrait-il pas inclure les titres dans l'annotation ?
 
* Une entité annotée avec "Person" est-elle nécessairement nommée ? Par exemple, lorsqu'il est question d'une gréviste anonyme qui prend la parole en réunion syndicale pour témoigner d'une situation, ne doit-elle pas aussi être identifiée avec le tag "Person" ?
 
* Si la réponse à la question précédente est non, quel est l'usage prévu de l'identification des "personnes" ? S'agit-il uniquement de répérer des patronymes ?
 
 
 
==== Annotation des informations sur le genre ====
 
* On peut créer un tag pour encoder le genre d'une personne ou d'un métier ; ou bien ajouter un attribut "genre" aux tags qui existent déjà. Cependant, comment traiter le cas de groupes ou de métiers pour lesquels le genre n'est pas visible ou audible ? Ou bien lorsqu'une forme masculine est utilisée pour un groupe qui inclut aussi des femmes ?
 
* Dans une expression comme "ouvriers et ouvrières du tissage mécanique", dans la mesure où il semble plus logique d'annoter toute l'expression avec un seul tag "occupation", il serait problématique d'utiliser un attribut pour le genre. C'est pourquoi il me semble plus judicieux d'utiliser un tag (par exemple "Genre") qu'il faudrait assortir d'un attribut précisant le genre en question.
 
 
 
==== Application de "TypeRemuneration" ====
 
* Les éléments concernant les formes de rémunération sont exprimés de manières très diverses. Quand une somme est mentionnée, celle-ci peut être relative à un autre élément mentionné dans la phrase, ou bien absolu. L'élément "typeRemuneration" doit-il être utilise pour annoter uniquement les sommes, ou bien parfois aussi des phrases complètes pour ne pas perdre l'information ? (exemple : l'expression "une augmentation de 15 % sur les pièces en cours et ne donne le tarif de 1885 qu’après l’achèvement de ces pièces" doit-elle être annotée avec ce tag ?)
 
* Les documents mentionnent des indemnités au moment des grèves. Ces sommes doivent-elles aussi être annotées avec le tag "typeRemuneration", dans la mesure où elles font partie des ressources économiques disponibles pour les ouvriers dans un moment de crise comme une grève ?
 
* Lorsque sont évoqués des niveaux de rémunération, cela passe parfois par l'évocation d'un document de référence (par exemple : "le tarif de 1885"). Ces informations font-elles aussi partie de ce qui doit être annoté avec le tag "typeRemuneration" ?
 

Version actuelle datée du 3 mai 2018 à 15:46

Guide d'annotation : remarques générales

Guide d'annotation : tags du projet Time Us