| | --- |
| | datasets: |
| | - Error410/sharegpt |
| | language: |
| | - fr |
| | base_model: |
| | - meta-llama/Llama-3.1-8B-Instruct |
| | tags: |
| | - jvc |
| | - issou |
| | - aya |
| | --- |
| | # Error410/JVCGPT-Medium |
| |
|
| |  |
| |
|
| | ## Description |
| | Ce modèle est une version fine-tunée de **Llama 3.1 8B** ayant pour objectif de reproduire les styles d’écriture et les posts des utilisateurs du forum **jeuxvideo.com**. Entraîné sur une fraction des données publiques de **JVArchive**, ce modèle est conçu pour capturer le ton, l’humour et les références propres à cette communauté en ligne. |
| |
|
| |
|
| | ## Détails du modèle |
| | - **Base** : Llama 3.1 (8B paramètres) |
| | - **Contexte (train)** : 8192 tokens |
| | - **Dataset utilisé** : **20%** de JVArchive (public et accessible librement, année 2024) |
| | - **Entraînement** : ***EN COURS...*** [WanDB](https://wandb.ai/undis95/JVCGPT%20Medium%208b%20v2/runs/69onem5v?nw=nwuserundis95) |
| | - **Objectif** : Générer des messages imitant le style des utilisateurs de jeuxvideo.com |
| | - **Accès** : Dataset et modèles disponibles gratuitement sur notre repo [Error410](https://huggingface.co/Error410/). |
| |
|
| |
|
| | ## Format du prompt |
| |
|
| | ``` |
| | <|begin_of_text|><|start_header_id|><|sujet|><|end_header_id|> |
| | |
| | Sujet : "<SUJET>"<|eot_id|><|start_header_id|><|autheur|><|end_header_id|> |
| | |
| | <|im_pseudo|>PSEUDO<|end_pseudo|> |
| | <|im_date|>DATE<|end_date|> |
| | |
| | <|begin_of_post|>MESSAGE<|end_of_post|><|eot_id|><|start_header_id|><|khey|><|end_header_id|> |
| | |
| | <|im_pseudo|>PSEUDO<|end_pseudo|> |
| | <|im_date|>DATE<|end_date|> |
| | |
| | <|begin_of_post|>POST<|end_of_post|><|eot_id|> |
| | ``` |
| |
|
| | Template SillyTavern: / (à voir plus tard si il sait chatter) |
| |
|
| | ## Performances |
| | - **Style** : Captures efficacement les références, expressions, et styles d’écriture caractéristiques des forums jeuxvideo.com. |
| | - **Légèreté** : Très peu demandeur en calculation grâce à sa petit taille de 8B de paramètres. |
| | - **Temps de réponse** : Optimisé pour des générations plûtot rapide. |
| |
|
| |
|
| | ## Dataset |
| | Le modèle a été entraîné sur une sélection de **20% des archives de JVArchive** (~750 000 topics de 2024 entier). Ces données ont été traitées et filtrées pour garantir une qualité et une diversité optimales. |
| |
|
| |
|
| | ## Licence |
| | Le modèle, le dataset, et tous les fichiers associés sont mis à disposition gratuitement sous la même license (PUBLIC) que JVArchive, dans notre repo. |
| |
|
| |
|
| | ## Remerciements |
| | Un grand merci à **JVArchive** pour l’accès aux données publiques et à la communauté jeuxvideo.com pour son inspiration. Ce projet est dédié aux passionnés de l’histoire du forums et à la culture internet. |
| |
|
| | ## Auteurs |
| |
|
| | - [Greums](https://huggingface.co/Greums/) : Pro des datasets bordelent cimer chef |
| | - [Undi](https://huggingface.co/Undi95/) |