# Utilisation du modèle de langage ChatGPT pour classer les informations d'un fichier PDF dans un tableau
Ce projet de traitement de données vise à alimenter un atelier sur les communs, les données ouvertes et l'égalité femmes-hommes dans le cadre d'une journée sur le numérique éthique et responsable. Nous avons jugé utile de rendre compte de la démarche entreprise et des résultats obtenus grâce à l'utilisation de ChatGPT. L'objectif était de transformer un document PDF en un format de données exploitables. Nous avons également souhaité enrichir les informations contenues dans le PDF par des renseignements complémentaires afin d'établir un constat sur les politiques publiques autour de la place faite aux femmes dans l'espace public.

```Image composée par une IA générative autour des mots clés text to data in the city```
Les informations utilisées pour générer ces tableaux sont issues d'un document intitulé "[HOMMAGES PUBLICS DE LA VILLE DE PARIS & NOMENCLATURE OFFICIELLE 2001 – 2020](https://cdn.paris.fr/paris/2020/12/07/6b83c26163e3e8f9523187a9df9e4a4f.pdf)". Ce fichier accessible à tous est publié par la mairie de Paris. Il a pour responsable de publication Laurence Patrice, Adjointe à la Maire de Paris, Chargée de la Mémoire et du Monde Combattant, Présidente de la Commission des voies, places, espaces verts et équipements publics municipaux.
L'objectif était de transformer ce fichier PDF difficilement exploitable en un format de données tabulaires pour faciliter le traitement statistique et permettre la visualisation sous forme de cartes ou de graphiques. En outre, les informations contenues dans le PDF ont été enrichies par des renseignements sur le genre des noms propres afin d'établir un constat sur les politiques publiques autour de la place faite aux femmes dans l'espace public.
ChatGPT est utilisé pour trier les informations relatives aux dates, aux catégories de décisions, aux localisations... Le modèle de langage permet de distinguer les dénomitions des autres information et de déterminer catégories de genre en distinguant les noms féminins, masculins ou encore de déterminer des critères de neutralité losque le féminin et le masculin sont associés. Le modèle de langae est également efficace pour traiter et classifier des informations issues d'un PDF pour une mise en forme tabulaire déterminée en catégories précisées dans le prompt. Cependant, il ne parvient pas à traiter le document dans son ensemble en une seule passe. Il nécessite de procéder par lots ou par découpage. Cette limite est certainement due au type de compte souscrit (gratuité) et au versionning du logiciel.
La version de ChatGPT utilisée pour ce travail est la GPT-3.5, formée sur des millions de pages Web et entraînée pour comprendre et générer du texte naturel.
L'utilisation de ChatGPT dans cette démarche est intéressante pour les personnes qui ne possèdent pas de connaissances en programmation. En effet, le modèle de langage permet de réaliser des opérations complexes sans avoir besoin de compétences en programmation, à la condition de composer un prompt suffisamment précis et interprétable par la machine. Voici la commande lancée, commande elle même travaillée avec l'outil :
>
> Classe les informations suivantes dans un tableau selon le format suivant
>
> Colonnes :
>
> A - Clé (numérotation automatique, commençant par 1)
> B - Année
> C - Référence administrative
> D - Type de commémoration (Nomenclature & équipements ou Plaques commémoratives & stèles)
> E - Arrondissement
> F - Type de voie (si indiqué dans le document)
> G - Nom propre ou fait historique référencé
> H - Genre (masculin ou féminin) de la personne ou du fait historique référencé
>
> Informations à classer dans le tableau :
>
> Inventaire des hommages publics adoptés de juin 2001 à novembre 2020 dans la ville de Paris
> Année
> Références administratives
> Arrondissements
> Types de voies
> Noms propres ou faits historiques
> Genre (masculin ou féminin) des personnes ou des faits historiques référencés
> Type de commémoration (Nomenclature & équipements ou Plaques commémoratives & stèles)
[Le résultat obtenu est de qualité, le tableau final est précis et les catégories respectées, les erreurs sur le genre très ponctuelles](https://nuage02.apps.education.fr/index.php/s/5AQKmfdsif25QGo). Cependant, des difficultés ont été rencontrées pour traiter le document dans son ensemble en raison de sa taille et de la complexité des données. Il existe des perspectives d'enrichissement en ajoutant des informations sur l'origine des personnalités recensées dans le tableau pour questionner les représentations des minorités.
En conclusion, ChatGPT s'avère un outil efficace pour la classification de données textuelles complexes, même pour les personnes qui n'ont pas de connaissances en programmation.
Auteur : [Franck Bodin](https://www.linkedin.com/in/franck-bodin-17001081/)
Licence : CC By