Spaces:

EveSa
/

SummaryProject

Runtime error

App Files Files Community

EveSa commited on Mar 17, 2023

Commit

3257a33

unverified ·

2 Parent(s): bf2e03a 7f1c2ca

Merge pull request #23 from EveSa/Ling

Browse files

Files changed (3) hide show

Documentation.md +19 -4
README.md +72 -1
src/fine_tune_T5.py +4 -0

Documentation.md CHANGED Viewed

@@ -14,13 +14,13 @@ Le corpus est nettoyé avant d'être utilisé pour l'entraînement du LSTM. Seul
 2 systèmes :
 - LSTM réalisé à partir du <a href="https://loicgrobol.github.io//neural-networks/slides/03-transformers/transformers-slides.py.ipynb">cours</a> et de cet <a href="https://www.kaggle.com/code/columbine/seq2seq-pytorch">exemple</a> et de beaucoup d'autres référence en ligne.
-- Fine-tuned transformers
 # La méthodologie
 ## Répartition du travail 👥
 Nous avons travaillé avec le logiciel de gestion de version Github en mettant en place une intégration continue envoyant directement les `pull request` sur l'espace Huggingface.
 Idéalement, les `pull request` doivent être validées par deux membres du projet avant d'être accéptées afin d'éviter les erreurs en production. Nous n'avons pas mis en place ces restrictions à cause de la difficulté à gérer Docker dans Huggingface qui nous a nécessité beaucoup de modification.
 ## Problèmes rencontrés et résolution
@@ -53,7 +53,18 @@ Idéalement, les `pull request` doivent être validées par deux membres du proj
     - [ ] Passage vers du Sampling
 ### Problème sur le fine-tuning
 ### Problème sur l'interface
 ### Problème de l'Intégration continue
@@ -132,6 +143,10 @@ Pour ce faire nous nous sommes beaucoup inspirée du kaggle https://www.kaggle.c
 ## Résultats du LSTM
 Les résultats du LSTM sont inutilisables mais ont permis au moins de se confronter à la difficulté de mettre en place des réseaux de neurones depuis pas grand chose.
-On aurait aimé avoir plus detemps pour aller plus loin et comprendre mieux encore : l'entraîement par batch, pourquoi les résultats sont si mauvais, mettre d'autres stratégies de génération en place, ...
 ## Résultat du fine-tuning

 2 systèmes :
 - LSTM réalisé à partir du <a href="https://loicgrobol.github.io//neural-networks/slides/03-transformers/transformers-slides.py.ipynb">cours</a> et de cet <a href="https://www.kaggle.com/code/columbine/seq2seq-pytorch">exemple</a> et de beaucoup d'autres référence en ligne.
+- Fine-tuned transformers modèle lancé et pré-entrainé par Google :<a href="https://huggingface.co/google/mt5-small">google/mt5-small</a>, il s'agit d'une variance du <a href="https://huggingface.co/docs/transformers/v4.16.2/en/model_doc/mt5">mT5</a>. Le model est entrainé pour notre tâche en se basant sur la documentation sur <a href="https://huggingface.co/docs/transformers/tasks/summarization">Summarisation</a> proposé par Huggingface.
 # La méthodologie
 ## Répartition du travail 👥
 Nous avons travaillé avec le logiciel de gestion de version Github en mettant en place une intégration continue envoyant directement les `pull request` sur l'espace Huggingface.
 Idéalement, les `pull request` doivent être validées par deux membres du projet avant d'être accéptées afin d'éviter les erreurs en production. Nous n'avons pas mis en place ces restrictions à cause de la difficulté à gérer Docker dans Huggingface qui nous a nécessité beaucoup de modification.
 ## Problèmes rencontrés et résolution
     - [ ] Passage vers du Sampling
 ### Problème sur le fine-tuning
+- [x] La fonction map ne peut pas s'appliquer :
+    - Dans le prétrainement des données, utilise Dataset.from_dict(dataframe) pour obtenir les donneés en Dataset au lieu de Dataframe
+- [x] Problème de la permission d'appel du model privé enregistré sur HuggingFace :
+    - Se connecter à l'aide de `huggingface-cli login` et mettre `use_auth_token=True` en appelant le model.
+- [x] Processus arrêté sans erruers détectées :
+    - Diminuer le nombre de données
+    - Modifier les paramètres d'entrainement en diminuant le nombre d'epoch d'entrainement
+- [ ] Warning message pour les tokens non identifiables causé par
+    la conversion de sentencepiece tokenizer en fast tokenizer:
+    - [ ] pas de résolution à ce jour
+- [ ] Les résultats d'évaluation selon ROUGE sont très mauvais, rouge2 à 0:
+    - [ ] pas de résolution à ce jour
 ### Problème sur l'interface
 ### Problème de l'Intégration continue
 ## Résultats du LSTM
 Les résultats du LSTM sont inutilisables mais ont permis au moins de se confronter à la difficulté de mettre en place des réseaux de neurones depuis pas grand chose.
+On aurait aimé avoir plus de temps pour aller plus loin et comprendre mieux encore : l'entraîement par batch, pourquoi les résultats sont si mauvais, mettre d'autres stratégies de génération en place, ...
 ## Résultat du fine-tuning
+Les résumés générés ne sont pas grammaticalement corrects à 100% mais les informations importantes du texte sont bien présentes dans le résumé, et la longeur du résumé correspond bien à notre attente. Cependant les résultats d'évaluation selon ROUGE est très mauvais, malgré une amélioration de 0.007 à 0.06 pour rouge1, il n'ést plus possible d'obtenir de meilleurs scores.

README.md CHANGED Viewed

@@ -4,4 +4,75 @@ sdk: docker
 app_file: src/api.py
 pinned: false
 ---
-# Initialisation

 app_file: src/api.py
 pinned: false
 ---
+# Project Deep Learning - Text Summarisation tool and it's application programming interface
+As part of the master course "Neural Network",for this university project, our task is about creating a application, a interface or a python library in the use of NLP(Natural Language Processing) with the help of an artificial neural network system.
+## Description
+**Objectives of our project :**
+Create a interface which allows users to sammrize a long text like press article into a brief version.
+To achieve this general objective, for the algorithm part, we would like to test two different deep learning methods: setting up a LSTM model and fine tuning Transformer model.
+For the interface, having a interface building with fastAPI framework and putting the application on Huggingface.
+## Getting Started
+### Préparation
+* Open the link below directing towards our interface on huggingface.
+```
+https://huggingface.co/spaces/EveSa/SummaryProject
+```
+### The interface
+* 1- Choosing a model for your summarization task (LSTM/Fine-tuned T5) by clicking on the scroll-down list. And click the Select model botton.
+* 2- Enter your text to summarize in the left section.
+* 3- Click on 'Go!' botton and you will get your sammary!
+* 4- Dont forget to reset the App for your next try. The botton is at the right next to 'Go!'.
+## In case you want to try to execute our scripts :
+### Préparation
+* In order to run the script, you need:
+* 1- Create a virtual environment named .venv
+```
+python3 -m virtualenv .venv
+source .venv/bin/activate
+```
+* 2- Also install the dependencies
+```
+pip install -U -r requirements.txt
+```
+* You are now ready to execute the scripts ^^
+### The programme api.py
+* Run the script with the command below:
+```
+python3 api.py
+```
+* This code generate the same page as on Huggingface in your browser. To do the task your may follow the steps in the previous section.
+## Authors
+Eve Sauvage
+Estelle SALMON
+Lingyun GAO
+## License
+This project is licensed under the [M2 TAL] License

src/fine_tune_T5.py CHANGED Viewed

@@ -146,7 +146,11 @@ if __name__ == '__main__':
     train_dataset = datasetmaker('data/train_extract.jsonl')
     test_dataset = datasetmaker("data/test_extract.jsonl")
     test_dataset = datasetmaker('data/test_extract.jsonl')

     train_dataset = datasetmaker('data/train_extract.jsonl')
+<<<<<<< HEAD
+    dev_dataset = datasetmaker("data/dev_extract.jsonl")
+=======
     test_dataset = datasetmaker("data/test_extract.jsonl")
+>>>>>>> 4e410f4bdcd6de645d9e73bb207d8a9170dfc3e1
     test_dataset = datasetmaker('data/test_extract.jsonl')