FriendliAI
/

Meta-Llama-3.1-8B-Instruct-int8

Text Generation

8-bit precision

Model card Files Files and versions

seungahdev commited on Sep 9, 2024

Commit

bed93de

·

verified ·

1 Parent(s): 91693e1

Update README.md

Files changed (1) hide show

README.md +3 -4

README.md CHANGED Viewed

@@ -194,15 +194,14 @@ extra_gated_button_content: Submit
 </p>
 <!-- header end -->
-# Llama 3.1 8B Instruct - FP8
 - Model creator: [Meta Llama 3.1](https://huggingface.co/meta-llama)
 - Original model: [Llama 3.1 8B Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct)
 ## Description
-This repo contains the Llama 3 8B Instruct model quantized to FP8 by FriendliAI, significantly enhancing its inference efficiency while maintaining high accuracy.
-Note that FP8 is only supported by NVIDIA Ada, Hopper, and Blackwell GPU architectures.
 Check out [FriendliAI documentation](https://docs.friendli.ai/) for more details.
 ## License
@@ -263,7 +262,7 @@ docker run \
   -e FRIENDLI_CONTAINER_SECRET="YOUR CONTAINER SECRET" \
   registry.friendli.ai/trial \
     --web-server-port 8000 \
-    --hf-model-name FriendliAI/Meta-Llama-3.1-8B-Instruct-fp8 \
     --num-devices 1
 ```

 </p>
 <!-- header end -->
+# Llama 3.1 8B Instruct - INT8
 - Model creator: [Meta Llama 3.1](https://huggingface.co/meta-llama)
 - Original model: [Llama 3.1 8B Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct)
 ## Description
+This repo contains the Llama 3 8B Instruct model quantized to INT8 by FriendliAI, significantly enhancing its inference efficiency while maintaining high accuracy.
 Check out [FriendliAI documentation](https://docs.friendli.ai/) for more details.
 ## License
   -e FRIENDLI_CONTAINER_SECRET="YOUR CONTAINER SECRET" \
   registry.friendli.ai/trial \
     --web-server-port 8000 \
+    --hf-model-name FriendliAI/Meta-Llama-3.1-8B-Instruct-int8 \
     --num-devices 1
 ```