msj19 commited on Jan 22

Commit

cc6e26c

verified ·

1 Parent(s): ee8216c

Add files using upload-large-folder tool

Browse files

Files changed (50) hide show

delta_net-1.3B-100B/.gitattributes +35 -0
delta_net-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__delta_net-1.3B-100B_based_drop.jsonl +0 -0
delta_net-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__delta_net-1.3B-100B_based_drop.jsonl +0 -0
delta_net-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__delta_net-1.3B-100B_based_swde.jsonl +0 -0
delta_net-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__delta_net-1.3B-100B_based_swde.jsonl +0 -0
delta_net-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__delta_net-1.3B-100B_based_triviaqa.jsonl +0 -0
delta_net-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__delta_net-1.3B-100B_based_triviaqa.jsonl +0 -0
gla-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__gla-1.3B-100B_based_drop.jsonl +0 -0
gla-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__gla-1.3B-100B_based_drop.jsonl +0 -0
gla-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__gla-1.3B-100B_based_swde.jsonl +0 -0
gla-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__gla-1.3B-100B_based_swde.jsonl +0 -0
gla-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__gla-1.3B-100B_based_triviaqa.jsonl +0 -0
hgrn2-1.3B-100B/.hfd/last_download_command +1 -0
hgrn2-1.3B-100B/.hfd/repo_metadata.json +1 -0
hgrn2-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__hgrn2-1.3B-100B_based_drop.jsonl +0 -0
hgrn2-1.3B-100B/based_squad/results.json +55 -0
hgrn2-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__hgrn2-1.3B-100B_based_swde.jsonl +0 -0
hgrn2-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__hgrn2-1.3B-100B_based_triviaqa.jsonl +0 -0
hgrn2-1.3B-100B/based_triviaqa/results.json +55 -0
mamba-1.3B-100B/.hfd/aria2c_urls.txt +0 -0
mamba-1.3B-100B/.hfd/last_download_command +1 -0
mamba-1.3B-100B/.hfd/repo_metadata.json +1 -0
retnet-1.3B-100B/.hfd/aria2c_urls.txt +0 -0
retnet-1.3B-100B/.hfd/last_download_command +1 -0
retnet-1.3B-100B/.hfd/repo_metadata.json +1 -0
retnet-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__retnet-1.3B-100B_based_drop.jsonl +0 -0
retnet-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__retnet-1.3B-100B_based_drop.jsonl +0 -0
retnet-1.3B-100B/based_drop/results.json +51 -0
retnet-1.3B-100B/based_fda/results.json +51 -0
retnet-1.3B-100B/based_nq_2048/results.json +51 -0
retnet-1.3B-100B/based_squad/results.json +55 -0
retnet-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__retnet-1.3B-100B_based_swde.jsonl +0 -0
retnet-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__retnet-1.3B-100B_based_swde.jsonl +0 -0
retnet-1.3B-100B/based_swde/results.json +51 -0
retnet-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__retnet-1.3B-100B_based_triviaqa.jsonl +0 -0
retnet-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__retnet-1.3B-100B_based_triviaqa.jsonl +0 -0
retnet-1.3B-100B/based_triviaqa/results.json +55 -0
transformer-1.3B-100B/.hfd/aria2c_urls.txt +0 -0
transformer-1.3B-100B/.hfd/last_download_command +1 -0
transformer-1.3B-100B/.hfd/repo_metadata.json +1 -0
transformer-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__transformer-1.3B-100B_based_drop.jsonl +0 -0
transformer-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__transformer-1.3B-100B_based_drop.jsonl +0 -0
transformer-1.3B-100B/based_drop/results.json +51 -0
transformer-1.3B-100B/based_fda/results.json +51 -0
transformer-1.3B-100B/based_nq_2048/results.json +51 -0
transformer-1.3B-100B/based_squad/results.json +55 -0
transformer-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__transformer-1.3B-100B_based_swde.jsonl +0 -0
transformer-1.3B-100B/based_swde/results.json +51 -0
transformer-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__transformer-1.3B-100B_based_triviaqa.jsonl +0 -0
transformer-1.3B-100B/tokenizer.json +0 -0

delta_net-1.3B-100B/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

delta_net-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__delta_net-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

delta_net-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__delta_net-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

delta_net-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__delta_net-1.3B-100B_based_swde.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

delta_net-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__delta_net-1.3B-100B_based_swde.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

delta_net-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__delta_net-1.3B-100B_based_triviaqa.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

delta_net-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__delta_net-1.3B-100B_based_triviaqa.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

gla-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__gla-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

gla-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__gla-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

gla-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__gla-1.3B-100B_based_swde.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

gla-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__gla-1.3B-100B_based_swde.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

gla-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__gla-1.3B-100B_based_triviaqa.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

hgrn2-1.3B-100B/.hfd/last_download_command ADDED Viewed

	@@ -0,0 +1 @@


1	+ REPO_ID=fla-hub/hgrn2-1.3B-100B TOOL=aria2c INCLUDE_PATTERNS= EXCLUDE_PATTERNS= DATASET=0 HF_USERNAME= HF_TOKEN= HF_TOKEN=https://huggingface.co REVISION=main

hgrn2-1.3B-100B/.hfd/repo_metadata.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"_id":"661e7a0396752f96298054a6","id":"fla-hub/hgrn2-1.3B-100B","private":false,"pipeline_tag":"text-generation","library_name":"fla","tags":["fla","safetensors","hgrn2","text-generation","en","dataset:cerebras/SlimPajama-627B","license:mit","region:us"],"downloads":17,"likes":0,"modelId":"fla-hub/hgrn2-1.3B-100B","author":"fla-hub","sha":"2f413dd9b63591b9b177bbf940942ea7eb70abfe","lastModified":"2025-02-09T15:21:37.000Z","gated":false,"disabled":false,"widgetData":[{"text":"My name is Julien and I like to"},{"text":"I like traveling by train because"},{"text":"Paris is an amazing place to visit,"},{"text":"Once upon a time,"}],"model-index":null,"config":{"architectures":["HGRN2ForCausalLM"],"model_type":"hgrn2","tokenizer_config":{"bos_token":"<s>","eos_token":"</s>","pad_token":null,"unk_token":"<unk>","use_default_system_prompt":false}},"cardData":{"language":["en"],"tags":["text-generation","hgrn2"],"license":"mit","datasets":["cerebras/SlimPajama-627B"],"library_name":"fla"},"siblings":[{"rfilename":".gitattributes"},{"rfilename":"README.md"},{"rfilename":"config.json"},{"rfilename":"generation_config.json"},{"rfilename":"model.safetensors"},{"rfilename":"special_tokens_map.json"},{"rfilename":"tokenizer.json"},{"rfilename":"tokenizer.model"},{"rfilename":"tokenizer_config.json"}],"spaces":[],"createdAt":"2024-04-16T13:15:47.000Z","safetensors":{"parameters":{"BF16":1364396032},"total":1364396032},"usedStorage":5886756059}

hgrn2-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__hgrn2-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

hgrn2-1.3B-100B/based_squad/results.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "results": {
+    "based_squad": {
+      "exact,none": 3.459858918374202,
+      "exact_stderr,none": "N/A",
+      "f1,none": 13.328299517219987,
+      "f1_stderr,none": "N/A",
+      "contains,none": 0.32885455156197513,
+      "contains_stderr,none": "N/A",
+      "alias": "based_squad"
+    }
+  },
+  "configs": {
+    "based_squad": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": 0
+      }
+    }
+  },
+  "versions": {
+    "based_squad": 0
+  },
+  "n-shot": {
+    "based_squad": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/hgrn2-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

hgrn2-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__hgrn2-1.3B-100B_based_swde.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

hgrn2-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__hgrn2-1.3B-100B_based_triviaqa.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

hgrn2-1.3B-100B/based_triviaqa/results.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "results": {
+    "based_triviaqa": {
+      "exact,none": 1.3033175355450237,
+      "exact_stderr,none": "N/A",
+      "f1,none": 7.426522831126713,
+      "f1_stderr,none": "N/A",
+      "contains,none": 0.5550947867298578,
+      "contains_stderr,none": "N/A",
+      "alias": "based_triviaqa"
+    }
+  },
+  "configs": {
+    "based_triviaqa": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": "default"
+      }
+    }
+  },
+  "versions": {
+    "based_triviaqa": "default"
+  },
+  "n-shot": {
+    "based_triviaqa": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/hgrn2-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

mamba-1.3B-100B/.hfd/aria2c_urls.txt ADDED Viewed

File without changes

mamba-1.3B-100B/.hfd/last_download_command ADDED Viewed

	@@ -0,0 +1 @@


1	+ REPO_ID=fla-hub/mamba-1.3B-100B TOOL=aria2c INCLUDE_PATTERNS= EXCLUDE_PATTERNS= DATASET=0 HF_USERNAME= HF_TOKEN= HF_TOKEN=https://huggingface.co REVISION=main

mamba-1.3B-100B/.hfd/repo_metadata.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"_id":"661a218fb76bfe174c7e8c10","id":"fla-hub/mamba-1.3B-100B","private":false,"pipeline_tag":"text-generation","library_name":"transformers","tags":["transformers","safetensors","mamba","text-generation","text-generation-inference","endpoints_compatible","region:us"],"downloads":17,"likes":0,"modelId":"fla-hub/mamba-1.3B-100B","author":"fla-hub","sha":"49d177eaa9fedd6ff74aab256a02140299df5e99","lastModified":"2024-08-31T11:18:56.000Z","gated":false,"disabled":false,"widgetData":[{"text":"My name is Julien and I like to"},{"text":"I like traveling by train because"},{"text":"Paris is an amazing place to visit,"},{"text":"Once upon a time,"}],"config":{"architectures":["MambaForCausalLM"],"model_type":"mamba","tokenizer_config":{"bos_token":"<s>","eos_token":"</s>","pad_token":null,"unk_token":"<unk>","use_default_system_prompt":false}},"transformersInfo":{"auto_model":"AutoModelForCausalLM","pipeline_tag":"text-generation","processor":"AutoTokenizer"},"siblings":[{"rfilename":".gitattributes"},{"rfilename":"config.json"},{"rfilename":"generation_config.json"},{"rfilename":"model.safetensors"},{"rfilename":"special_tokens_map.json"},{"rfilename":"tokenizer.json"},{"rfilename":"tokenizer.model"},{"rfilename":"tokenizer_config.json"}],"spaces":[],"createdAt":"2024-04-13T06:09:19.000Z","safetensors":{"parameters":{"F32":3145728,"BF16":1331595264},"total":1334740992},"usedStorage":2676320059}

retnet-1.3B-100B/.hfd/aria2c_urls.txt ADDED Viewed

File without changes

retnet-1.3B-100B/.hfd/last_download_command ADDED Viewed

	@@ -0,0 +1 @@


1	+ REPO_ID=fla-hub/retnet-1.3B-100B TOOL=aria2c INCLUDE_PATTERNS= EXCLUDE_PATTERNS= DATASET=0 HF_USERNAME= HF_TOKEN= HF_TOKEN=https://huggingface.co REVISION=main

retnet-1.3B-100B/.hfd/repo_metadata.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"_id":"660b10cc3ef451aa2b974d25","id":"fla-hub/retnet-1.3B-100B","private":false,"pipeline_tag":"text-generation","library_name":"fla","tags":["fla","safetensors","retnet","text-generation","en","dataset:cerebras/SlimPajama-627B","license:mit","region:us"],"downloads":91,"likes":1,"modelId":"fla-hub/retnet-1.3B-100B","author":"fla-hub","sha":"7fddefc4d5e196a8d1f076bb7612d54321b3effe","lastModified":"2025-02-09T14:48:04.000Z","gated":false,"disabled":false,"widgetData":[{"text":"My name is Julien and I like to"},{"text":"I like traveling by train because"},{"text":"Paris is an amazing place to visit,"},{"text":"Once upon a time,"}],"model-index":null,"config":{"architectures":["RetNetForCausalLM"],"model_type":"retnet","tokenizer_config":{"bos_token":"<s>","eos_token":"</s>","pad_token":null,"unk_token":"<unk>","use_default_system_prompt":false}},"cardData":{"language":["en"],"tags":["text-generation","retnet"],"license":"mit","datasets":["cerebras/SlimPajama-627B"],"library_name":"fla"},"siblings":[{"rfilename":".gitattributes"},{"rfilename":"README.md"},{"rfilename":"config.json"},{"rfilename":"generation_config.json"},{"rfilename":"model.safetensors"},{"rfilename":"special_tokens_map.json"},{"rfilename":"tokenizer.json"},{"rfilename":"tokenizer.model"},{"rfilename":"tokenizer_config.json"}],"spaces":[],"createdAt":"2024-04-01T19:53:48.000Z","safetensors":{"parameters":{"BF16":1351727104},"total":1351727104},"usedStorage":8110939899}

retnet-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__retnet-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

retnet-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__retnet-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

retnet-1.3B-100B/based_drop/results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "results": {
+    "based_drop": {
+      "contains,none": 0.19789171058936272,
+      "contains_stderr,none": "N/A",
+      "alias": "based_drop"
+    }
+  },
+  "configs": {
+    "based_drop": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": "default"
+      }
+    }
+  },
+  "versions": {
+    "based_drop": "default"
+  },
+  "n-shot": {
+    "based_drop": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/retnet-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

retnet-1.3B-100B/based_fda/results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "results": {
+    "based_fda": {
+      "contains,none": 0.20072661217075385,
+      "contains_stderr,none": "N/A",
+      "alias": "based_fda"
+    }
+  },
+  "configs": {
+    "based_fda": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": 0
+      }
+    }
+  },
+  "versions": {
+    "based_fda": 0
+  },
+  "n-shot": {
+    "based_fda": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/retnet-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

retnet-1.3B-100B/based_nq_2048/results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "results": {
+    "based_nq_2048": {
+      "contains,none": 0.164079822616408,
+      "contains_stderr,none": "N/A",
+      "alias": "based_nq_2048"
+    }
+  },
+  "configs": {
+    "based_nq_2048": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": "default"
+      }
+    }
+  },
+  "versions": {
+    "based_nq_2048": "default"
+  },
+  "n-shot": {
+    "based_nq_2048": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/retnet-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

retnet-1.3B-100B/based_squad/results.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "results": {
+    "based_squad": {
+      "exact,none": 5.206583809203897,
+      "exact_stderr,none": "N/A",
+      "f1,none": 15.394859838317938,
+      "f1_stderr,none": "N/A",
+      "contains,none": 0.33456499832045683,
+      "contains_stderr,none": "N/A",
+      "alias": "based_squad"
+    }
+  },
+  "configs": {
+    "based_squad": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": 0
+      }
+    }
+  },
+  "versions": {
+    "based_squad": 0
+  },
+  "n-shot": {
+    "based_squad": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/retnet-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

retnet-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__retnet-1.3B-100B_based_swde.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

retnet-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__retnet-1.3B-100B_based_swde.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

retnet-1.3B-100B/based_swde/results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "results": {
+    "based_swde": {
+      "contains,none": 0.26991565135895035,
+      "contains_stderr,none": "N/A",
+      "alias": "based_swde"
+    }
+  },
+  "configs": {
+    "based_swde": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": 0
+      }
+    }
+  },
+  "versions": {
+    "based_swde": 0
+  },
+  "n-shot": {
+    "based_swde": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/retnet-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

retnet-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__retnet-1.3B-100B_based_triviaqa.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

retnet-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__retnet-1.3B-100B_based_triviaqa.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

retnet-1.3B-100B/based_triviaqa/results.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "results": {
+    "based_triviaqa": {
+      "exact,none": 1.3033175355450237,
+      "exact_stderr,none": "N/A",
+      "f1,none": 7.466834785986363,
+      "f1_stderr,none": "N/A",
+      "contains,none": 0.5313981042654028,
+      "contains_stderr,none": "N/A",
+      "alias": "based_triviaqa"
+    }
+  },
+  "configs": {
+    "based_triviaqa": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": "default"
+      }
+    }
+  },
+  "versions": {
+    "based_triviaqa": "default"
+  },
+  "n-shot": {
+    "based_triviaqa": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/retnet-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

transformer-1.3B-100B/.hfd/aria2c_urls.txt ADDED Viewed

File without changes

transformer-1.3B-100B/.hfd/last_download_command ADDED Viewed

	@@ -0,0 +1 @@


1	+ REPO_ID=fla-hub/transformer-1.3B-100B TOOL=aria2c INCLUDE_PATTERNS= EXCLUDE_PATTERNS= DATASET=0 HF_USERNAME= HF_TOKEN= HF_TOKEN=https://huggingface.co REVISION=main

transformer-1.3B-100B/.hfd/repo_metadata.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"_id":"660ae767f4ab651901e9aec1","id":"fla-hub/transformer-1.3B-100B","private":false,"pipeline_tag":"text-generation","library_name":"fla","tags":["fla","safetensors","transformer","text-generation","transformer++","en","dataset:cerebras/SlimPajama-627B","license:mit","region:us"],"downloads":311,"likes":0,"modelId":"fla-hub/transformer-1.3B-100B","author":"fla-hub","sha":"d6f66f4181fa669e5863327815b44533e3a395e7","lastModified":"2025-02-09T14:45:40.000Z","gated":false,"disabled":false,"widgetData":[{"text":"My name is Julien and I like to"},{"text":"I like traveling by train because"},{"text":"Paris is an amazing place to visit,"},{"text":"Once upon a time,"}],"model-index":null,"config":{"architectures":["TransformerForCausalLM"],"model_type":"transformer","tokenizer_config":{"bos_token":"<s>","eos_token":"</s>","pad_token":null,"unk_token":"<unk>","use_default_system_prompt":false}},"cardData":{"language":["en"],"tags":["text-generation","transformer++"],"license":"mit","datasets":["cerebras/SlimPajama-627B"],"library_name":"fla"},"siblings":[{"rfilename":".gitattributes"},{"rfilename":"README.md"},{"rfilename":"config.json"},{"rfilename":"generation_config.json"},{"rfilename":"model.safetensors"},{"rfilename":"special_tokens_map.json"},{"rfilename":"tokenizer.json"},{"rfilename":"tokenizer.model"},{"rfilename":"tokenizer_config.json"}],"spaces":[],"createdAt":"2024-04-01T16:57:11.000Z","safetensors":{"parameters":{"BF16":1364297728},"total":1364297728},"usedStorage":5457730171}

transformer-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__download_model__transformer-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

transformer-1.3B-100B/based_drop/ checkpoint_name____mnt__jfzn__msj__transformer-1.3B-100B_based_drop.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

transformer-1.3B-100B/based_drop/results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "results": {
+    "based_drop": {
+      "contains,none": 0.2103497843794921,
+      "contains_stderr,none": "N/A",
+      "alias": "based_drop"
+    }
+  },
+  "configs": {
+    "based_drop": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": "default"
+      }
+    }
+  },
+  "versions": {
+    "based_drop": "default"
+  },
+  "n-shot": {
+    "based_drop": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/transformer-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

transformer-1.3B-100B/based_fda/results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "results": {
+    "based_fda": {
+      "contains,none": 0.5467756584922797,
+      "contains_stderr,none": "N/A",
+      "alias": "based_fda"
+    }
+  },
+  "configs": {
+    "based_fda": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": 0
+      }
+    }
+  },
+  "versions": {
+    "based_fda": 0
+  },
+  "n-shot": {
+    "based_fda": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/transformer-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

transformer-1.3B-100B/based_nq_2048/results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "results": {
+    "based_nq_2048": {
+      "contains,none": 0.25340513145391197,
+      "contains_stderr,none": "N/A",
+      "alias": "based_nq_2048"
+    }
+  },
+  "configs": {
+    "based_nq_2048": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": "default"
+      }
+    }
+  },
+  "versions": {
+    "based_nq_2048": "default"
+  },
+  "n-shot": {
+    "based_nq_2048": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/transformer-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

transformer-1.3B-100B/based_squad/results.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "results": {
+    "based_squad": {
+      "exact,none": 6.180718844474303,
+      "exact_stderr,none": "N/A",
+      "f1,none": 18.101832538083794,
+      "f1_stderr,none": "N/A",
+      "contains,none": 0.4316425932146456,
+      "contains_stderr,none": "N/A",
+      "alias": "based_squad"
+    }
+  },
+  "configs": {
+    "based_squad": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": 0
+      }
+    }
+  },
+  "versions": {
+    "based_squad": 0
+  },
+  "n-shot": {
+    "based_squad": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/transformer-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

transformer-1.3B-100B/based_swde/ checkpoint_name____mnt__jfzn__msj__download_model__transformer-1.3B-100B_based_swde.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

transformer-1.3B-100B/based_swde/results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "results": {
+    "based_swde": {
+      "contains,none": 0.4395501405810684,
+      "contains_stderr,none": "N/A",
+      "alias": "based_swde"
+    }
+  },
+  "configs": {
+    "based_swde": {
+      "description": "",
+      "target_delimiter": " ",
+      "fewshot_delimiter": "\n\n",
+      "num_fewshot": 0,
+      "output_type": "generate_until",
+      "generation_kwargs": {
+        "until": [
+          "\n\n"
+        ],
+        "do_sample": false
+      },
+      "repeats": 1,
+      "should_decontaminate": false,
+      "metadata": {
+        "version": 0
+      }
+    }
+  },
+  "versions": {
+    "based_swde": 0
+  },
+  "n-shot": {
+    "based_swde": 0
+  },
+  "config": {
+    "model": "lm_eval_model",
+    "model_args": " checkpoint_name=/mnt/jfzn/msj/download_model/transformer-1.3B-100B",
+    "batch_size": "8",
+    "batch_sizes": [],
+    "device": "cuda:0",
+    "use_cache": null,
+    "limit": null,
+    "bootstrap_iters": 100000,
+    "gen_kwargs": null
+  },
+  "git_hash": null,
+  "context_length": 2000,
+  "answer_length": 48,
+  "cutting_context": true,
+  "decode_mode": "default"
+}

transformer-1.3B-100B/based_triviaqa/ checkpoint_name____mnt__jfzn__msj__download_model__transformer-1.3B-100B_based_triviaqa.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

transformer-1.3B-100B/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff