NS1

#33

by nishan3000 - opened Jun 5, 2024

base: refs/heads/main

←

from: refs/pr/33

Discussion Files changed

+45

-13147

This PR is in draft mode

Files changed (4) hide show

README.md +2 -57
tokenizer.json +0 -0
tokenizer.model +2 -2
tokenizer_config.json +0 -0

README.md CHANGED Viewed

@@ -1,72 +1,17 @@
 ---
-library_name: vllm
 language:
 - code
 license: other
 tags:
 - code
-- mistral-common
 inference: false
 license_name: mnpl
 license_link: https://mistral.ai/licences/MNPL-0.1.md
-extra_gated_description: If you want to learn more about how we process your personal data, please read our <a href="https://mistral.ai/terms/">Privacy Policy</a>.
 ---
 # Model Card for Codestral-22B-v0.1
-## Encode and Decode with `mistral_common`
-```py
-from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
-from mistral_common.protocol.instruct.messages import UserMessage
-from mistral_common.protocol.instruct.request import ChatCompletionRequest
-mistral_models_path = "MISTRAL_MODELS_PATH"
-tokenizer = MistralTokenizer.v3()
-completion_request = ChatCompletionRequest(messages=[UserMessage(content="Explain Machine Learning to me in a nutshell.")])
-tokens = tokenizer.encode_chat_completion(completion_request).tokens
-```
-## Inference with `mistral_inference`
- ```py
-from mistral_inference.transformer import Transformer
-from mistral_inference.generate import generate
-model = Transformer.from_folder(mistral_models_path)
-out_tokens, _ = generate([tokens], model, max_tokens=64, temperature=0.0, eos_id=tokenizer.instruct_tokenizer.tokenizer.eos_id)
-result = tokenizer.decode(out_tokens[0])
-print(result)
-```
-## Inference with hugging face `transformers`
-```py
-from transformers import AutoModelForCausalLM
-model = AutoModelForCausalLM.from_pretrained("mistralai/Codestral-22B-v0.1")
-model.to("cuda")
-generated_ids = model.generate(tokens, max_new_tokens=1000, do_sample=True)
-# decode with mistral tokenizer
-result = tokenizer.decode(generated_ids[0].tolist())
-print(result)
-```
-> [!TIP]
-> PRs to correct the `transformers` tokenizer so that it gives 1-to-1 the same results as the `mistral_common` reference implementation are very welcome!
----
-Codestral-22B-v0.1 is trained on a diverse dataset of 80+ programming languages, including the most popular ones, such as Python, Java, C, C++, JavaScript, and Bash (more details in the [Blogpost](https://mistral.ai/news/codestral/)). The model can be queried:
 - As instruct, for instance to answer any questions about a code snippet (write documentation, explain, factorize) or to generate code following specific indications
 - As Fill in the Middle (FIM), to predict the middle tokens between a prefix and a suffix (very useful for software development add-ons like in VS Code)
@@ -126,7 +71,7 @@ This function uses recursion to calculate the Fibonacci number. However, it's no
 After installing `mistral_inference` and running `pip install --upgrade mistral_common` to make sure to have mistral_common>=1.2 installed:
 ```py
-from mistral_inference.transformer import Transformer
 from mistral_inference.generate import generate
 from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
 from mistral_common.tokens.instruct.request import FIMRequest

 ---
 language:
 - code
 license: other
 tags:
 - code
 inference: false
 license_name: mnpl
 license_link: https://mistral.ai/licences/MNPL-0.1.md
 ---
 # Model Card for Codestral-22B-v0.1
+Codestrall-22B-v0.1 is trained on a diverse dataset of 80+ programming languages, including the most popular ones, such as Python, Java, C, C++, JavaScript, and Bash (more details in the [Blogpost](https://mistral.ai/news/codestral/)). The model can be queried:
 - As instruct, for instance to answer any questions about a code snippet (write documentation, explain, factorize) or to generate code following specific indications
 - As Fill in the Middle (FIM), to predict the middle tokens between a prefix and a suffix (very useful for software development add-ons like in VS Code)
 After installing `mistral_inference` and running `pip install --upgrade mistral_common` to make sure to have mistral_common>=1.2 installed:
 ```py
+from mistral_inference.model import Transformer
 from mistral_inference.generate import generate
 from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
 from mistral_common.tokens.instruct.request import FIMRequest

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9addc8bdce5988448ae81b729336f43a81262160ae8da760674badab9d4c7d33
-size 587591

 version https://git-lfs.github.com/spec/v1
+oid sha256:37f00374dea48658ee8f5d0f21895b9bc55cb0103939607c8185bfd1c6ca1f89
+size 587404

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff