Add BERTopic model

Browse files

Files changed (6) hide show

README.md +81 -0
config.json +17 -0
ctfidf.bin +3 -0
ctfidf_config.json +0 -0
topic_embeddings.bin +3 -0
topics.json +2626 -0

README.md ADDED Viewed

	@@ -0,0 +1,81 @@

+---
+tags:
+- bertopic
+library_name: bertopic
+pipeline_tag: text-classification
+---
+# industry-mar11
+This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
+BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
+## Usage
+To use this model, please install BERTopic:
+```
+pip install -U bertopic
+```
+You can use the model as follows:
+```python
+from bertopic import BERTopic
+topic_model = BERTopic.load("Thang203/industry-mar11")
+topic_model.get_topic_info()
+```
+## Topic overview
+* Number of topics: 12
+* Number of training documents: 516
+<details>
+  <summary>Click here for an overview of all topics.</summary>
+  | Topic ID | Topic Keywords | Topic Frequency | Label |
+|----------|----------------|-----------------|-------|
+| -1 | models - language - data - large - language models | 51 | -1_models_language_data_large |
+| 0 | multimodal - visual - image - models - generation | 169 | 0_multimodal_visual_image_models |
+| 1 | speech - asr - text - speaker - recognition | 24 | 1_speech_asr_text_speaker |
+| 2 | detection - models - text - language - model | 21 | 2_detection_models_text_language |
+| 3 | code - language - llms - models - programming | 32 | 3_code_language_llms_models |
+| 4 | agents - policy - language - learning - tasks | 49 | 4_agents_policy_language_learning |
+| 5 | reasoning - cot - problems - models - commonsense | 22 | 5_reasoning_cot_problems_models |
+| 6 | retrieval - information - query - llms - queries | 19 | 6_retrieval_information_query_llms |
+| 7 | ai - models - language - dialogue - human | 15 | 7_ai_models_language_dialogue |
+| 8 | language - models - translation - model - language models | 47 | 8_language_models_translation_model |
+| 9 | distillation - model - knowledge - pretrained - student | 51 | 9_distillation_model_knowledge_pretrained |
+| 10 | training - model - models - transformer - language | 16 | 10_training_model_models_transformer |
+</details>
+## Training hyperparameters
+* calculate_probabilities: False
+* language: english
+* low_memory: False
+* min_topic_size: 10
+* n_gram_range: (1, 1)
+* nr_topics: 20
+* seed_topic_list: None
+* top_n_words: 10
+* verbose: True
+* zeroshot_min_similarity: 0.7
+* zeroshot_topic_list: None
+## Framework versions
+* Numpy: 1.25.2
+* HDBSCAN: 0.8.33
+* UMAP: 0.5.5
+* Pandas: 1.5.3
+* Scikit-Learn: 1.2.2
+* Sentence-transformers: 2.6.1
+* Transformers: 4.38.2
+* Numba: 0.58.1
+* Plotly: 5.15.0
+* Python: 3.10.12

config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "calculate_probabilities": false,
+  "language": "english",
+  "low_memory": false,
+  "min_topic_size": 10,
+  "n_gram_range": [
+    1,
+    1
+  ],
+  "nr_topics": 20,
+  "seed_topic_list": null,
+  "top_n_words": 10,
+  "verbose": true,
+  "zeroshot_min_similarity": 0.7,
+  "zeroshot_topic_list": null,
+  "embedding_model": "sentence-transformers/all-MiniLM-L6-v2"
+}

ctfidf.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22ea0d7033415f0d68f6e5b3563bed34d3c00987d2b635e6211ee2d6cd012bc3
+size 343171

ctfidf_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

topic_embeddings.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29deb3b6f42441c41506dbeced18ce744b1a821a350aadaa3e1af29304b1edc6
+size 19721

topics.json ADDED Viewed

	@@ -0,0 +1,2626 @@

+{
+  "topic_representations": {
+    "-1": [
+      [
+        "models",
+        0.03389659414835857
+      ],
+      [
+        "language",
+        0.02862851018591238
+      ],
+      [
+        "data",
+        0.025761470494060225
+      ],
+      [
+        "large",
+        0.022745338330438167
+      ],
+      [
+        "language models",
+        0.02139331315319328
+      ],
+      [
+        "tasks",
+        0.019900039131413454
+      ],
+      [
+        "model",
+        0.019776504965187965
+      ],
+      [
+        "llms",
+        0.01898021896221333
+      ],
+      [
+        "large language",
+        0.018796014150363968
+      ],
+      [
+        "large language models",
+        0.01803230842296634
+      ]
+    ],
+    "0": [
+      [
+        "multimodal",
+        0.06136737485351937
+      ],
+      [
+        "visual",
+        0.05853719763492334
+      ],
+      [
+        "image",
+        0.0485116842448941
+      ],
+      [
+        "models",
+        0.04071455273538424
+      ],
+      [
+        "generation",
+        0.03666106634697344
+      ],
+      [
+        "video",
+        0.03347983737726034
+      ],
+      [
+        "understanding",
+        0.030394954956701734
+      ],
+      [
+        "large",
+        0.02799241301244745
+      ],
+      [
+        "instruction",
+        0.026460918679033146
+      ],
+      [
+        "model",
+        0.025928671364185387
+      ]
+    ],
+    "1": [
+      [
+        "speech",
+        0.11570004480898892
+      ],
+      [
+        "asr",
+        0.07577068396313229
+      ],
+      [
+        "text",
+        0.045675035457062994
+      ],
+      [
+        "speaker",
+        0.04413188327842426
+      ],
+      [
+        "recognition",
+        0.0425835487386093
+      ],
+      [
+        "speech recognition",
+        0.03380651953632135
+      ],
+      [
+        "model",
+        0.030672757538167814
+      ],
+      [
+        "voice",
+        0.030005193176805063
+      ],
+      [
+        "language",
+        0.028788932413434717
+      ],
+      [
+        "proposed",
+        0.028393525385724573
+      ]
+    ],
+    "2": [
+      [
+        "detection",
+        0.04428034234306033
+      ],
+      [
+        "models",
+        0.034572645259843875
+      ],
+      [
+        "text",
+        0.034327288774788946
+      ],
+      [
+        "language",
+        0.032811332249369544
+      ],
+      [
+        "model",
+        0.027098162035851945
+      ],
+      [
+        "large",
+        0.02498863472584851
+      ],
+      [
+        "language models",
+        0.02455132759078857
+      ],
+      [
+        "misinformation",
+        0.021777813891068417
+      ],
+      [
+        "dataset",
+        0.020171781105023295
+      ],
+      [
+        "large language",
+        0.019042601273926114
+      ]
+    ],
+    "3": [
+      [
+        "code",
+        0.0770374212782715
+      ],
+      [
+        "language",
+        0.03246858995960753
+      ],
+      [
+        "llms",
+        0.0314836868548782
+      ],
+      [
+        "models",
+        0.03135048850848837
+      ],
+      [
+        "programming",
+        0.031032804646709017
+      ],
+      [
+        "software",
+        0.02338912467302265
+      ],
+      [
+        "language models",
+        0.021984864229269385
+      ],
+      [
+        "tasks",
+        0.020079101943328282
+      ],
+      [
+        "model",
+        0.019589308762890383
+      ],
+      [
+        "large language",
+        0.01903123933999179
+      ]
+    ],
+    "4": [
+      [
+        "agents",
+        0.03144148115888399
+      ],
+      [
+        "policy",
+        0.030578201460243676
+      ],
+      [
+        "language",
+        0.02958531504638217
+      ],
+      [
+        "learning",
+        0.028956274103493298
+      ],
+      [
+        "tasks",
+        0.02750394011875191
+      ],
+      [
+        "llms",
+        0.02635994576153496
+      ],
+      [
+        "agent",
+        0.025182048261377144
+      ],
+      [
+        "games",
+        0.024542318750706546
+      ],
+      [
+        "knowledge",
+        0.02370911390325935
+      ],
+      [
+        "model",
+        0.022937914034634292
+      ]
+    ],
+    "5": [
+      [
+        "reasoning",
+        0.0929222616473664
+      ],
+      [
+        "cot",
+        0.040278262754808086
+      ],
+      [
+        "problems",
+        0.03708374749407663
+      ],
+      [
+        "models",
+        0.037066520645951874
+      ],
+      [
+        "commonsense",
+        0.03179862849063796
+      ],
+      [
+        "prompting",
+        0.029329865166081277
+      ],
+      [
+        "language",
+        0.028264168425802164
+      ],
+      [
+        "language models",
+        0.0264493153712725
+      ],
+      [
+        "math",
+        0.025706499789005296
+      ],
+      [
+        "chainofthought",
+        0.025706499789005296
+      ]
+    ],
+    "6": [
+      [
+        "retrieval",
+        0.05202021714558848
+      ],
+      [
+        "information",
+        0.03944643968452574
+      ],
+      [
+        "query",
+        0.03862936737060072
+      ],
+      [
+        "llms",
+        0.03381477714650923
+      ],
+      [
+        "queries",
+        0.030743284058903933
+      ],
+      [
+        "models",
+        0.029746047746957945
+      ],
+      [
+        "language",
+        0.029551563260931873
+      ],
+      [
+        "language models",
+        0.026223664397697355
+      ],
+      [
+        "large",
+        0.02485613931372842
+      ],
+      [
+        "information retrieval",
+        0.023226595334291323
+      ]
+    ],
+    "7": [
+      [
+        "ai",
+        0.035714494707298816
+      ],
+      [
+        "models",
+        0.02952586052201538
+      ],
+      [
+        "language",
+        0.02834496901204038
+      ],
+      [
+        "dialogue",
+        0.027651780633986222
+      ],
+      [
+        "human",
+        0.026401782297458473
+      ],
+      [
+        "llms",
+        0.025442822490930102
+      ],
+      [
+        "chatgpt",
+        0.02318990727379372
+      ],
+      [
+        "large language",
+        0.02271947226012763
+      ],
+      [
+        "large",
+        0.021957413569739143
+      ],
+      [
+        "model",
+        0.02070839524294738
+      ]
+    ],
+    "8": [
+      [
+        "language",
+        0.04093864302301298
+      ],
+      [
+        "models",
+        0.03595221175799092
+      ],
+      [
+        "translation",
+        0.031712613088874894
+      ],
+      [
+        "model",
+        0.030177929651754233
+      ],
+      [
+        "language models",
+        0.026247976024177194
+      ],
+      [
+        "text",
+        0.024834259305576166
+      ],
+      [
+        "data",
+        0.02462670002569503
+      ],
+      [
+        "generation",
+        0.020743602919543393
+      ],
+      [
+        "tasks",
+        0.020568403779006268
+      ],
+      [
+        "machine translation",
+        0.019130933056569405
+      ]
+    ],
+    "9": [
+      [
+        "distillation",
+        0.04337789490301995
+      ],
+      [
+        "model",
+        0.040261980975691315
+      ],
+      [
+        "knowledge",
+        0.03986242788324582
+      ],
+      [
+        "pretrained",
+        0.039810767531247584
+      ],
+      [
+        "student",
+        0.03578735650250997
+      ],
+      [
+        "models",
+        0.03577800012735637
+      ],
+      [
+        "teacher",
+        0.034995506692116485
+      ],
+      [
+        "30",
+        0.03383519763051433
+      ],
+      [
+        "pretraining",
+        0.030341356455441396
+      ],
+      [
+        "language",
+        0.029777618334555132
+      ]
+    ],
+    "10": [
+      [
+        "training",
+        0.039846773292934345
+      ],
+      [
+        "model",
+        0.03354112714562384
+      ],
+      [
+        "models",
+        0.03309176444172136
+      ],
+      [
+        "transformer",
+        0.02791942196230748
+      ],
+      [
+        "language",
+        0.024257026345120718
+      ],
+      [
+        "finetuning",
+        0.022555042408780118
+      ],
+      [
+        "large",
+        0.02231168487342353
+      ],
+      [
+        "quantization",
+        0.021953720153927197
+      ],
+      [
+        "transformers",
+        0.02143379388468265
+      ],
+      [
+        "tasks",
+        0.020718276629461102
+      ]
+    ]
+  },
+  "topics": [
+    8,
+    2,
+    1,
+    -1,
+    10,
+    -1,
+    8,
+    10,
+    -1,
+    10,
+    9,
+    -1,
+    8,
+    8,
+    3,
+    -1,
+    8,
+    -1,
+    -1,
+    5,
+    -1,
+    8,
+    10,
+    -1,
+    9,
+    6,
+    9,
+    -1,
+    -1,
+    7,
+    7,
+    6,
+    8,
+    7,
+    10,
+    10,
+    4,
+    6,
+    8,
+    8,
+    10,
+    8,
+    8,
+    10,
+    7,
+    -1,
+    2,
+    7,
+    2,
+    8,
+    1,
+    -1,
+    2,
+    -1,
+    7,
+    10,
+    10,
+    -1,
+    3,
+    10,
+    2,
+    3,
+    9,
+    3,
+    9,
+    10,
+    8,
+    7,
+    9,
+    8,
+    8,
+    -1,
+    -1,
+    1,
+    -1,
+    -1,
+    7,
+    2,
+    8,
+    10,
+    10,
+    7,
+    9,
+    5,
+    8,
+    -1,
+    1,
+    2,
+    7,
+    -1,
+    -1,
+    8,
+    10,
+    -1,
+    2,
+    9,
+    0,
+    8,
+    3,
+    2,
+    9,
+    10,
+    10,
+    3,
+    10,
+    5,
+    7,
+    -1,
+    1,
+    4,
+    -1,
+    -1,
+    8,
+    9,
+    -1,
+    8,
+    7,
+    -1,
+    8,
+    8,
+    5,
+    10,
+    -1,
+    2,
+    3,
+    -1,
+    -1,
+    2,
+    4,
+    5,
+    1,
+    6,
+    8,
+    4,
+    3,
+    3,
+    3,
+    3,
+    4,
+    8,
+    -1,
+    -1,
+    4,
+    2,
+    2,
+    -1,
+    -1,
+    4,
+    3,
+    2,
+    8,
+    -1,
+    -1,
+    9,
+    10,
+    8,
+    5,
+    -1,
+    2,
+    5,
+    8,
+    -1,
+    1,
+    6,
+    -1,
+    10,
+    -1,
+    10,
+    10,
+    -1,
+    5,
+    8,
+    3,
+    0,
+    10,
+    5,
+    8,
+    -1,
+    3,
+    -1,
+    7,
+    -1,
+    10,
+    -1,
+    -1,
+    7,
+    9,
+    -1,
+    8,
+    -1,
+    10,
+    -1,
+    7,
+    -1,
+    -1,
+    2,
+    6,
+    2,
+    1,
+    -1,
+    -1,
+    7,
+    0,
+    8,
+    1,
+    -1,
+    0,
+    -1,
+    5,
+    7,
+    0,
+    -1,
+    6,
+    -1,
+    10,
+    10,
+    0,
+    10,
+    7,
+    7,
+    -1,
+    2,
+    -1,
+    -1,
+    -1,
+    -1,
+    6,
+    -1,
+    10,
+    0,
+    -1,
+    -1,
+    3,
+    3,
+    3,
+    6,
+    10,
+    3,
+    7,
+    -1,
+    3,
+    -1,
+    7,
+    7,
+    -1,
+    0,
+    7,
+    -1,
+    10,
+    1,
+    -1,
+    0,
+    -1,
+    -1,
+    -1,
+    5,
+    -1,
+    -1,
+    8,
+    -1,
+    3,
+    -1,
+    8,
+    -1,
+    10,
+    -1,
+    7,
+    3,
+    7,
+    8,
+    -1,
+    -1,
+    -1,
+    7,
+    8,
+    7,
+    -1,
+    6,
+    5,
+    8,
+    3,
+    4,
+    -1,
+    -1,
+    -1,
+    8,
+    7,
+    8,
+    -1,
+    9,
+    -1,
+    -1,
+    -1,
+    2,
+    7,
+    -1,
+    5,
+    -1,
+    8,
+    8,
+    -1,
+    -1,
+    3,
+    -1,
+    -1,
+    8,
+    3,
+    2,
+    5,
+    3,
+    -1,
+    9,
+    -1,
+    8,
+    -1,
+    -1,
+    10,
+    -1,
+    -1,
+    9,
+    4,
+    -1,
+    3,
+    10,
+    3,
+    6,
+    10,
+    7,
+    3,
+    -1,
+    3,
+    4,
+    10,
+    -1,
+    0,
+    3,
+    3,
+    10,
+    -1,
+    -1,
+    7,
+    0,
+    -1,
+    10,
+    10,
+    -1,
+    7,
+    8,
+    -1,
+    7,
+    3,
+    4,
+    2,
+    1,
+    4,
+    7,
+    3,
+    0,
+    4,
+    -1,
+    -1,
+    7,
+    -1,
+    1,
+    10,
+    7,
+    -1,
+    -1,
+    -1,
+    2,
+    0,
+    0,
+    -1,
+    3,
+    -1,
+    1,
+    -1,
+    -1,
+    3,
+    -1,
+    4,
+    -1,
+    0,
+    3,
+    0,
+    -1,
+    8,
+    10,
+    -1,
+    -1,
+    1,
+    4,
+    7,
+    -1,
+    -1,
+    -1,
+    -1,
+    -1,
+    -1,
+    0,
+    -1,
+    -1,
+    -1,
+    -1,
+    4,
+    -1,
+    -1,
+    8,
+    -1,
+    7,
+    2,
+    3,
+    7,
+    -1,
+    3,
+    5,
+    -1,
+    0,
+    -1,
+    3,
+    2,
+    -1,
+    6,
+    8,
+    3,
+    -1,
+    10,
+    3,
+    10,
+    0,
+    6,
+    -1,
+    2,
+    -1,
+    0,
+    0,
+    7,
+    4,
+    6,
+    2,
+    5,
+    2,
+    10,
+    3,
+    6,
+    -1,
+    1,
+    0,
+    8,
+    5,
+    -1,
+    1,
+    0,
+    -1,
+    1,
+    -1,
+    10,
+    -1,
+    -1,
+    5,
+    3,
+    2,
+    -1,
+    10,
+    1,
+    -1,
+    3,
+    7,
+    2,
+    7,
+    3,
+    4,
+    8,
+    -1,
+    1,
+    -1,
+    10,
+    9,
+    3,
+    1,
+    4,
+    -1,
+    8,
+    7,
+    -1,
+    -1,
+    8,
+    2,
+    10,
+    7,
+    2,
+    7,
+    7,
+    5,
+    3,
+    -1,
+    3,
+    3,
+    -1,
+    2,
+    -1,
+    1,
+    10,
+    0,
+    10,
+    4,
+    -1,
+    -1,
+    -1,
+    -1,
+    4,
+    4,
+    -1,
+    7,
+    -1,
+    -1
+  ],
+  "topic_sizes": {
+    "8": 51,
+    "2": 32,
+    "1": 21,
+    "-1": 169,
+    "10": 51,
+    "9": 16,
+    "3": 49,
+    "5": 19,
+    "6": 15,
+    "7": 47,
+    "4": 22,
+    "0": 24
+  },
+  "topic_mapper": [
+    [
+      -1,
+      -1
+    ],
+    [
+      0,
+      0
+    ],
+    [
+      1,
+      1
+    ],
+    [
+      2,
+      2
+    ],
+    [
+      3,
+      3
+    ],
+    [
+      4,
+      4
+    ],
+    [
+      5,
+      5
+    ],
+    [
+      6,
+      6
+    ],
+    [
+      7,
+      7
+    ],
+    [
+      8,
+      8
+    ],
+    [
+      9,
+      9
+    ],
+    [
+      10,
+      10
+    ]
+  ],
+  "topic_labels": {
+    "-1": "-1_models_language_data_large",
+    "0": "0_multimodal_visual_image_models",
+    "1": "1_speech_asr_text_speaker",
+    "2": "2_detection_models_text_language",
+    "3": "3_code_language_llms_models",
+    "4": "4_agents_policy_language_learning",
+    "5": "5_reasoning_cot_problems_models",
+    "6": "6_retrieval_information_query_llms",
+    "7": "7_ai_models_language_dialogue",
+    "8": "8_language_models_translation_model",
+    "9": "9_distillation_model_knowledge_pretrained",
+    "10": "10_training_model_models_transformer"
+  },
+  "custom_labels": null,
+  "_outliers": 1,
+  "topic_aspects": {
+    "KeyBERT": {
+      "-1": [
+        [
+          "large language models",
+          0.6703740358352661
+        ],
+        [
+          "large language models llms",
+          0.6190639734268188
+        ],
+        [
+          "language models",
+          0.6147422790527344
+        ],
+        [
+          "language models llms",
+          0.567597508430481
+        ],
+        [
+          "language model",
+          0.5490379333496094
+        ],
+        [
+          "large language",
+          0.47846221923828125
+        ],
+        [
+          "natural language",
+          0.47019103169441223
+        ],
+        [
+          "semantic",
+          0.3743295669555664
+        ],
+        [
+          "language",
+          0.36398619413375854
+        ],
+        [
+          "training data",
+          0.36353152990341187
+        ]
+      ],
+      "0": [
+        [
+          "multimodal large language",
+          0.6466671228408813
+        ],
+        [
+          "multimodal models",
+          0.63934326171875
+        ],
+        [
+          "multimodal",
+          0.6179039478302002
+        ],
+        [
+          "multimodal large",
+          0.5376994609832764
+        ],
+        [
+          "visual",
+          0.47933536767959595
+        ],
+        [
+          "large language models",
+          0.4537416994571686
+        ],
+        [
+          "visionlanguage",
+          0.4349161982536316
+        ],
+        [
+          "language models",
+          0.42795825004577637
+        ],
+        [
+          "large language model",
+          0.4277690649032593
+        ],
+        [
+          "visual foundation models",
+          0.40677303075790405
+        ]
+      ],
+      "1": [
+        [
+          "automatic speech",
+          0.6949269771575928
+        ],
+        [
+          "automatic speech recognition asr",
+          0.6262308359146118
+        ],
+        [
+          "speech recognition asr",
+          0.5822510123252869
+        ],
+        [
+          "automatic speech recognition",
+          0.573049783706665
+        ],
+        [
+          "speech recognition",
+          0.5546950697898865
+        ],
+        [
+          "utterances",
+          0.5278962850570679
+        ],
+        [
+          "large language models",
+          0.5129837989807129
+        ],
+        [
+          "large language model",
+          0.4912102520465851
+        ],
+        [
+          "language models",
+          0.47036200761795044
+        ],
+        [
+          "speech",
+          0.44434642791748047
+        ]
+      ],
+      "2": [
+        [
+          "large language models",
+          0.5753244161605835
+        ],
+        [
+          "large language models llms",
+          0.5593785047531128
+        ],
+        [
+          "language models",
+          0.5217305421829224
+        ],
+        [
+          "language models llms",
+          0.5088766813278198
+        ],
+        [
+          "machinegenerated text",
+          0.49884361028671265
+        ],
+        [
+          "language model",
+          0.45426321029663086
+        ],
+        [
+          "large language",
+          0.4042874574661255
+        ],
+        [
+          "texts",
+          0.3673853874206543
+        ],
+        [
+          "classifier",
+          0.354655921459198
+        ],
+        [
+          "text",
+          0.3459568917751312
+        ]
+      ],
+      "3": [
+        [
+          "code generation",
+          0.5884342193603516
+        ],
+        [
+          "code completion",
+          0.5430148243904114
+        ],
+        [
+          "source code",
+          0.5036313533782959
+        ],
+        [
+          "large language models",
+          0.4955923557281494
+        ],
+        [
+          "large language models llms",
+          0.48612886667251587
+        ],
+        [
+          "language models",
+          0.44613736867904663
+        ],
+        [
+          "software engineering",
+          0.44518738985061646
+        ],
+        [
+          "language models llms",
+          0.44061604142189026
+        ],
+        [
+          "programming",
+          0.41835474967956543
+        ],
+        [
+          "coding",
+          0.4044495224952698
+        ]
+      ],
+      "4": [
+        [
+          "large language models llms",
+          0.4626759886741638
+        ],
+        [
+          "ai",
+          0.4613281488418579
+        ],
+        [
+          "language models llms",
+          0.45701661705970764
+        ],
+        [
+          "agent",
+          0.4489193260669708
+        ],
+        [
+          "large language models",
+          0.4476342499256134
+        ],
+        [
+          "agents",
+          0.44667837023735046
+        ],
+        [
+          "interactive",
+          0.439677357673645
+        ],
+        [
+          "language models",
+          0.4368625581264496
+        ],
+        [
+          "reinforcement",
+          0.4350704252719879
+        ],
+        [
+          "language model",
+          0.42887791991233826
+        ]
+      ],
+      "5": [
+        [
+          "reasoning large language models",
+          0.6903330087661743
+        ],
+        [
+          "reasoning tasks",
+          0.6320526599884033
+        ],
+        [
+          "reasoning large language",
+          0.630852460861206
+        ],
+        [
+          "reasoning capabilities",
+          0.6158041954040527
+        ],
+        [
+          "reasoning benchmarks",
+          0.5364078283309937
+        ],
+        [
+          "large language models",
+          0.48382118344306946
+        ],
+        [
+          "large language models llms",
+          0.4739668369293213
+        ],
+        [
+          "complex reasoning",
+          0.46622762084007263
+        ],
+        [
+          "language models",
+          0.4620729982852936
+        ],
+        [
+          "language models llms",
+          0.45314210653305054
+        ]
+      ],
+      "6": [
+        [
+          "large language models llm",
+          0.6180689334869385
+        ],
+        [
+          "large language models llms",
+          0.6018953323364258
+        ],
+        [
+          "large language models",
+          0.5865136384963989
+        ],
+        [
+          "language models llm",
+          0.5565091371536255
+        ],
+        [
+          "language models llms",
+          0.5427589416503906
+        ],
+        [
+          "language models",
+          0.505111813545227
+        ],
+        [
+          "information retrieval",
+          0.5001325011253357
+        ],
+        [
+          "retrieval",
+          0.46649330854415894
+        ],
+        [
+          "knowledge bases",
+          0.4627561867237091
+        ],
+        [
+          "large language",
+          0.3926961421966553
+        ]
+      ],
+      "7": [
+        [
+          "conversational ai",
+          0.6492804884910583
+        ],
+        [
+          "chatbots",
+          0.5619252324104309
+        ],
+        [
+          "large language models",
+          0.5536242723464966
+        ],
+        [
+          "large language models llms",
+          0.5412259101867676
+        ],
+        [
+          "language models llms",
+          0.5045098066329956
+        ],
+        [
+          "language models",
+          0.4986751079559326
+        ],
+        [
+          "generative ai",
+          0.4693562090396881
+        ],
+        [
+          "dialogues",
+          0.4594458043575287
+        ],
+        [
+          "chatbot",
+          0.4492765963077545
+        ],
+        [
+          "language model",
+          0.4488487243652344
+        ]
+      ],
+      "8": [
+        [
+          "neural machine translation",
+          0.647374153137207
+        ],
+        [
+          "machine translation",
+          0.622808575630188
+        ],
+        [
+          "large language models",
+          0.5983676314353943
+        ],
+        [
+          "language models",
+          0.48987895250320435
+        ],
+        [
+          "translations",
+          0.4664888381958008
+        ],
+        [
+          "large language",
+          0.44685059785842896
+        ],
+        [
+          "language model",
+          0.4379696249961853
+        ],
+        [
+          "largescale language",
+          0.43625307083129883
+        ],
+        [
+          "text generation",
+          0.4185757339000702
+        ],
+        [
+          "multilingual",
+          0.40777745842933655
+        ]
+      ],
+      "9": [
+        [
+          "pretrained language models",
+          0.6431570053100586
+        ],
+        [
+          "pretrained language",
+          0.5234094858169556
+        ],
+        [
+          "knowledge distillation",
+          0.4824550151824951
+        ],
+        [
+          "model pretraining",
+          0.47364121675491333
+        ],
+        [
+          "nlp tasks",
+          0.4624066948890686
+        ],
+        [
+          "language models",
+          0.45500046014785767
+        ],
+        [
+          "language model",
+          0.42565417289733887
+        ],
+        [
+          "language understanding generation",
+          0.4114922285079956
+        ],
+        [
+          "transfer learning",
+          0.39377400279045105
+        ],
+        [
+          "pretraining",
+          0.3853399157524109
+        ]
+      ],
+      "10": [
+        [
+          "large language models",
+          0.6176133155822754
+        ],
+        [
+          "large language",
+          0.47964465618133545
+        ],
+        [
+          "language models",
+          0.45619314908981323
+        ],
+        [
+          "memory",
+          0.4200182557106018
+        ],
+        [
+          "sparse",
+          0.41314226388931274
+        ],
+        [
+          "attention",
+          0.3642992377281189
+        ],
+        [
+          "learning",
+          0.34689220786094666
+        ],
+        [
+          "compression",
+          0.33176761865615845
+        ],
+        [
+          "efficiently",
+          0.3242114186286926
+        ],
+        [
+          "neural",
+          0.3096249997615814
+        ]
+      ]
+    },
+    "MMR": {
+      "-1": [
+        [
+          "models",
+          0.03389659414835857
+        ],
+        [
+          "language",
+          0.02862851018591238
+        ],
+        [
+          "data",
+          0.025761470494060225
+        ],
+        [
+          "large",
+          0.022745338330438167
+        ],
+        [
+          "language models",
+          0.02139331315319328
+        ],
+        [
+          "tasks",
+          0.019900039131413454
+        ],
+        [
+          "model",
+          0.019776504965187965
+        ],
+        [
+          "llms",
+          0.01898021896221333
+        ],
+        [
+          "large language",
+          0.018796014150363968
+        ],
+        [
+          "large language models",
+          0.01803230842296634
+        ]
+      ],
+      "0": [
+        [
+          "multimodal",
+          0.06136737485351937
+        ],
+        [
+          "visual",
+          0.05853719763492334
+        ],
+        [
+          "image",
+          0.0485116842448941
+        ],
+        [
+          "models",
+          0.04071455273538424
+        ],
+        [
+          "generation",
+          0.03666106634697344
+        ],
+        [
+          "video",
+          0.03347983737726034
+        ],
+        [
+          "understanding",
+          0.030394954956701734
+        ],
+        [
+          "large",
+          0.02799241301244745
+        ],
+        [
+          "instruction",
+          0.026460918679033146
+        ],
+        [
+          "model",
+          0.025928671364185387
+        ]
+      ],
+      "1": [
+        [
+          "speech",
+          0.11570004480898892
+        ],
+        [
+          "asr",
+          0.07577068396313229
+        ],
+        [
+          "text",
+          0.045675035457062994
+        ],
+        [
+          "speaker",
+          0.04413188327842426
+        ],
+        [
+          "recognition",
+          0.0425835487386093
+        ],
+        [
+          "speech recognition",
+          0.03380651953632135
+        ],
+        [
+          "model",
+          0.030672757538167814
+        ],
+        [
+          "voice",
+          0.030005193176805063
+        ],
+        [
+          "language",
+          0.028788932413434717
+        ],
+        [
+          "proposed",
+          0.028393525385724573
+        ]
+      ],
+      "2": [
+        [
+          "detection",
+          0.04428034234306033
+        ],
+        [
+          "models",
+          0.034572645259843875
+        ],
+        [
+          "text",
+          0.034327288774788946
+        ],
+        [
+          "language",
+          0.032811332249369544
+        ],
+        [
+          "model",
+          0.027098162035851945
+        ],
+        [
+          "large",
+          0.02498863472584851
+        ],
+        [
+          "language models",
+          0.02455132759078857
+        ],
+        [
+          "misinformation",
+          0.021777813891068417
+        ],
+        [
+          "dataset",
+          0.020171781105023295
+        ],
+        [
+          "large language",
+          0.019042601273926114
+        ]
+      ],
+      "3": [
+        [
+          "code",
+          0.0770374212782715
+        ],
+        [
+          "language",
+          0.03246858995960753
+        ],
+        [
+          "llms",
+          0.0314836868548782
+        ],
+        [
+          "models",
+          0.03135048850848837
+        ],
+        [
+          "programming",
+          0.031032804646709017
+        ],
+        [
+          "software",
+          0.02338912467302265
+        ],
+        [
+          "language models",
+          0.021984864229269385
+        ],
+        [
+          "tasks",
+          0.020079101943328282
+        ],
+        [
+          "model",
+          0.019589308762890383
+        ],
+        [
+          "large language",
+          0.01903123933999179
+        ]
+      ],
+      "4": [
+        [
+          "agents",
+          0.03144148115888399
+        ],
+        [
+          "policy",
+          0.030578201460243676
+        ],
+        [
+          "language",
+          0.02958531504638217
+        ],
+        [
+          "learning",
+          0.028956274103493298
+        ],
+        [
+          "tasks",
+          0.02750394011875191
+        ],
+        [
+          "llms",
+          0.02635994576153496
+        ],
+        [
+          "agent",
+          0.025182048261377144
+        ],
+        [
+          "games",
+          0.024542318750706546
+        ],
+        [
+          "knowledge",
+          0.02370911390325935
+        ],
+        [
+          "model",
+          0.022937914034634292
+        ]
+      ],
+      "5": [
+        [
+          "reasoning",
+          0.0929222616473664
+        ],
+        [
+          "cot",
+          0.040278262754808086
+        ],
+        [
+          "problems",
+          0.03708374749407663
+        ],
+        [
+          "models",
+          0.037066520645951874
+        ],
+        [
+          "commonsense",
+          0.03179862849063796
+        ],
+        [
+          "prompting",
+          0.029329865166081277
+        ],
+        [
+          "language",
+          0.028264168425802164
+        ],
+        [
+          "language models",
+          0.0264493153712725
+        ],
+        [
+          "math",
+          0.025706499789005296
+        ],
+        [
+          "chainofthought",
+          0.025706499789005296
+        ]
+      ],
+      "6": [
+        [
+          "retrieval",
+          0.05202021714558848
+        ],
+        [
+          "information",
+          0.03944643968452574
+        ],
+        [
+          "query",
+          0.03862936737060072
+        ],
+        [
+          "llms",
+          0.03381477714650923
+        ],
+        [
+          "queries",
+          0.030743284058903933
+        ],
+        [
+          "models",
+          0.029746047746957945
+        ],
+        [
+          "language",
+          0.029551563260931873
+        ],
+        [
+          "language models",
+          0.026223664397697355
+        ],
+        [
+          "large",
+          0.02485613931372842
+        ],
+        [
+          "information retrieval",
+          0.023226595334291323
+        ]
+      ],
+      "7": [
+        [
+          "ai",
+          0.035714494707298816
+        ],
+        [
+          "models",
+          0.02952586052201538
+        ],
+        [
+          "language",
+          0.02834496901204038
+        ],
+        [
+          "dialogue",
+          0.027651780633986222
+        ],
+        [
+          "human",
+          0.026401782297458473
+        ],
+        [
+          "llms",
+          0.025442822490930102
+        ],
+        [
+          "chatgpt",
+          0.02318990727379372
+        ],
+        [
+          "large language",
+          0.02271947226012763
+        ],
+        [
+          "large",
+          0.021957413569739143
+        ],
+        [
+          "model",
+          0.02070839524294738
+        ]
+      ],
+      "8": [
+        [
+          "language",
+          0.04093864302301298
+        ],
+        [
+          "models",
+          0.03595221175799092
+        ],
+        [
+          "translation",
+          0.031712613088874894
+        ],
+        [
+          "model",
+          0.030177929651754233
+        ],
+        [
+          "language models",
+          0.026247976024177194
+        ],
+        [
+          "text",
+          0.024834259305576166
+        ],
+        [
+          "data",
+          0.02462670002569503
+        ],
+        [
+          "generation",
+          0.020743602919543393
+        ],
+        [
+          "tasks",
+          0.020568403779006268
+        ],
+        [
+          "machine translation",
+          0.019130933056569405
+        ]
+      ],
+      "9": [
+        [
+          "distillation",
+          0.04337789490301995
+        ],
+        [
+          "model",
+          0.040261980975691315
+        ],
+        [
+          "knowledge",
+          0.03986242788324582
+        ],
+        [
+          "pretrained",
+          0.039810767531247584
+        ],
+        [
+          "student",
+          0.03578735650250997
+        ],
+        [
+          "models",
+          0.03577800012735637
+        ],
+        [
+          "teacher",
+          0.034995506692116485
+        ],
+        [
+          "30",
+          0.03383519763051433
+        ],
+        [
+          "pretraining",
+          0.030341356455441396
+        ],
+        [
+          "language",
+          0.029777618334555132
+        ]
+      ],
+      "10": [
+        [
+          "training",
+          0.039846773292934345
+        ],
+        [
+          "model",
+          0.03354112714562384
+        ],
+        [
+          "models",
+          0.03309176444172136
+        ],
+        [
+          "transformer",
+          0.02791942196230748
+        ],
+        [
+          "language",
+          0.024257026345120718
+        ],
+        [
+          "finetuning",
+          0.022555042408780118
+        ],
+        [
+          "large",
+          0.02231168487342353
+        ],
+        [
+          "quantization",
+          0.021953720153927197
+        ],
+        [
+          "transformers",
+          0.02143379388468265
+        ],
+        [
+          "tasks",
+          0.020718276629461102
+        ]
+      ]
+    },
+    "POS": {
+      "-1": [
+        [
+          "models",
+          0.03389659414835857
+        ],
+        [
+          "language",
+          0.02862851018591238
+        ],
+        [
+          "data",
+          0.025761470494060225
+        ],
+        [
+          "large",
+          0.022745338330438167
+        ],
+        [
+          "tasks",
+          0.019900039131413454
+        ],
+        [
+          "model",
+          0.019776504965187965
+        ],
+        [
+          "large language",
+          0.018796014150363968
+        ],
+        [
+          "learning",
+          0.016344890778099884
+        ],
+        [
+          "knowledge",
+          0.014791777335488
+        ],
+        [
+          "performance",
+          0.014448725147256262
+        ]
+      ],
+      "0": [
+        [
+          "multimodal",
+          0.06136737485351937
+        ],
+        [
+          "visual",
+          0.05853719763492334
+        ],
+        [
+          "image",
+          0.0485116842448941
+        ],
+        [
+          "models",
+          0.04071455273538424
+        ],
+        [
+          "generation",
+          0.03666106634697344
+        ],
+        [
+          "video",
+          0.03347983737726034
+        ],
+        [
+          "understanding",
+          0.030394954956701734
+        ],
+        [
+          "large",
+          0.02799241301244745
+        ],
+        [
+          "instruction",
+          0.026460918679033146
+        ],
+        [
+          "model",
+          0.025928671364185387
+        ]
+      ],
+      "1": [
+        [
+          "speech",
+          0.11570004480898892
+        ],
+        [
+          "text",
+          0.045675035457062994
+        ],
+        [
+          "speaker",
+          0.04413188327842426
+        ],
+        [
+          "recognition",
+          0.0425835487386093
+        ],
+        [
+          "model",
+          0.030672757538167814
+        ],
+        [
+          "voice",
+          0.030005193176805063
+        ],
+        [
+          "language",
+          0.028788932413434717
+        ],
+        [
+          "systems",
+          0.02748631604741655
+        ],
+        [
+          "error",
+          0.02657560180020219
+        ],
+        [
+          "prompt",
+          0.026226831648547774
+        ]
+      ],
+      "2": [
+        [
+          "detection",
+          0.04428034234306033
+        ],
+        [
+          "models",
+          0.034572645259843875
+        ],
+        [
+          "text",
+          0.034327288774788946
+        ],
+        [
+          "language",
+          0.032811332249369544
+        ],
+        [
+          "model",
+          0.027098162035851945
+        ],
+        [
+          "large",
+          0.02498863472584851
+        ],
+        [
+          "misinformation",
+          0.021777813891068417
+        ],
+        [
+          "dataset",
+          0.020171781105023295
+        ],
+        [
+          "large language",
+          0.019042601273926114
+        ],
+        [
+          "bias",
+          0.018565158646766316
+        ]
+      ],
+      "3": [
+        [
+          "code",
+          0.0770374212782715
+        ],
+        [
+          "language",
+          0.03246858995960753
+        ],
+        [
+          "models",
+          0.03135048850848837
+        ],
+        [
+          "programming",
+          0.031032804646709017
+        ],
+        [
+          "software",
+          0.02338912467302265
+        ],
+        [
+          "tasks",
+          0.020079101943328282
+        ],
+        [
+          "model",
+          0.019589308762890383
+        ],
+        [
+          "large language",
+          0.01903123933999179
+        ],
+        [
+          "large",
+          0.018419645004564857
+        ],
+        [
+          "program",
+          0.01732377045192171
+        ]
+      ],
+      "4": [
+        [
+          "agents",
+          0.03144148115888399
+        ],
+        [
+          "policy",
+          0.030578201460243676
+        ],
+        [
+          "language",
+          0.02958531504638217
+        ],
+        [
+          "learning",
+          0.028956274103493298
+        ],
+        [
+          "tasks",
+          0.02750394011875191
+        ],
+        [
+          "agent",
+          0.025182048261377144
+        ],
+        [
+          "games",
+          0.024542318750706546
+        ],
+        [
+          "knowledge",
+          0.02370911390325935
+        ],
+        [
+          "model",
+          0.022937914034634292
+        ],
+        [
+          "models",
+          0.021670826257073117
+        ]
+      ],
+      "5": [
+        [
+          "reasoning",
+          0.0929222616473664
+        ],
+        [
+          "problems",
+          0.03708374749407663
+        ],
+        [
+          "models",
+          0.037066520645951874
+        ],
+        [
+          "commonsense",
+          0.03179862849063796
+        ],
+        [
+          "prompting",
+          0.029329865166081277
+        ],
+        [
+          "language",
+          0.028264168425802164
+        ],
+        [
+          "math",
+          0.025706499789005296
+        ],
+        [
+          "performance",
+          0.023715301369860727
+        ],
+        [
+          "model",
+          0.02348865107952526
+        ],
+        [
+          "large",
+          0.0226412358105249
+        ]
+      ],
+      "6": [
+        [
+          "retrieval",
+          0.05202021714558848
+        ],
+        [
+          "information",
+          0.03944643968452574
+        ],
+        [
+          "query",
+          0.03862936737060072
+        ],
+        [
+          "queries",
+          0.030743284058903933
+        ],
+        [
+          "models",
+          0.029746047746957945
+        ],
+        [
+          "language",
+          0.029551563260931873
+        ],
+        [
+          "large",
+          0.02485613931372842
+        ],
+        [
+          "augmentation",
+          0.02171476619738611
+        ],
+        [
+          "results",
+          0.020391690505114853
+        ],
+        [
+          "generative",
+          0.019244542166013356
+        ]
+      ],
+      "7": [
+        [
+          "models",
+          0.02952586052201538
+        ],
+        [
+          "language",
+          0.02834496901204038
+        ],
+        [
+          "dialogue",
+          0.027651780633986222
+        ],
+        [
+          "human",
+          0.026401782297458473
+        ],
+        [
+          "large language",
+          0.02271947226012763
+        ],
+        [
+          "large",
+          0.021957413569739143
+        ],
+        [
+          "model",
+          0.02070839524294738
+        ],
+        [
+          "chatbots",
+          0.0204145670075834
+        ],
+        [
+          "responses",
+          0.019623949467271785
+        ],
+        [
+          "agents",
+          0.018653284453243282
+        ]
+      ],
+      "8": [
+        [
+          "language",
+          0.04093864302301298
+        ],
+        [
+          "models",
+          0.03595221175799092
+        ],
+        [
+          "translation",
+          0.031712613088874894
+        ],
+        [
+          "model",
+          0.030177929651754233
+        ],
+        [
+          "text",
+          0.024834259305576166
+        ],
+        [
+          "data",
+          0.02462670002569503
+        ],
+        [
+          "generation",
+          0.020743602919543393
+        ],
+        [
+          "tasks",
+          0.020568403779006268
+        ],
+        [
+          "machine",
+          0.01848825539347313
+        ],
+        [
+          "large",
+          0.018176145065047958
+        ]
+      ],
+      "9": [
+        [
+          "distillation",
+          0.04337789490301995
+        ],
+        [
+          "model",
+          0.040261980975691315
+        ],
+        [
+          "knowledge",
+          0.03986242788324582
+        ],
+        [
+          "student",
+          0.03578735650250997
+        ],
+        [
+          "models",
+          0.03577800012735637
+        ],
+        [
+          "teacher",
+          0.034995506692116485
+        ],
+        [
+          "language",
+          0.029777618334555132
+        ],
+        [
+          "tasks",
+          0.027081961204377804
+        ],
+        [
+          "performance",
+          0.026439338569396797
+        ],
+        [
+          "answer",
+          0.023503384095700217
+        ]
+      ],
+      "10": [
+        [
+          "training",
+          0.039846773292934345
+        ],
+        [
+          "model",
+          0.03354112714562384
+        ],
+        [
+          "models",
+          0.03309176444172136
+        ],
+        [
+          "transformer",
+          0.02791942196230748
+        ],
+        [
+          "language",
+          0.024257026345120718
+        ],
+        [
+          "finetuning",
+          0.022555042408780118
+        ],
+        [
+          "large",
+          0.02231168487342353
+        ],
+        [
+          "quantization",
+          0.021953720153927197
+        ],
+        [
+          "transformers",
+          0.02143379388468265
+        ],
+        [
+          "tasks",
+          0.020718276629461102
+        ]
+      ]
+    }
+  }
+}