--- license: mit datasets: - RaThorat/doc_chunks language: - nl base_model: - GroNLP/bert-base-dutch-cased --- # Model Card for Model ID This modelcard aims to be a base template for new models. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md?plain=1). ## Model Details ### Model Description Het doel is een schaalbare, privacyschone oplossing die gebruik maakt van openbare gegevens van DUS-I (zoals beleidsdocumenten en nieuwsberichten) om medewerkers snel en accuraat te informeren. ### Model Sources [optional] - **Repository:** https://github.com/RaThorat/my-chatbot-project ## Uses Identificatie van vragen: Veelvoorkomende onderwerpen zijn subsidie-informatie, beleidsontwikkelingen en handleidingen. ### Direct Use Tijd besparen door snel informatie te leveren aan medewerkers via AI. [More Information Needed] ## Training Details ### Training Data 46 txt, pdf en odt documenten van de DUS-I website zijn gebruikt om Chunks (200 woorden per chunk) te maken in JSON-formaat. [More Information Needed] ### Training Procedure #### Preprocessing [optional] Documenten gegroepeerd (groeperen_segment_text_to_jsonl.py) in labels zoals: PROJECT, HANDLEIDING, OVEREENKOMST, PLAN, BELEID, SUBSIDIE. #### Training Hyperparameters - **Training regime:** Uitgevoerd met GroNLP/bert-base-dutch-cased model (110 miljoen parameters). ### Results [More Information Needed] #### Summary Script voor textcat model: https://github.com/RaThorat/my-chatbot-project/blob/main/scripts/train_textcat_model.py ## Technical Specifications [optional] ### Model Architecture and Objective 46 txt, pdf en odt documenten van de DUS-I website zijn gebruikt om Chunks (200 woorden per chunk) te maken in JSON-formaat. Voor text categorization model: dezelfde documenten omgezet naar JSONL-formaat. ### Compute Infrastructure [More Information Needed] #### Hardware 8 vCPU's en 64 GB RAM was vereist.