michaelfeil
/

ct2fast-e5-large-v2

@@ -2630,12 +2630,11 @@ model = EncoderCT2fromHfHub(
         # load in int8 on CUDA
         model_name_or_path=model_name,
         device="cuda",
-        compute_type="int8_float16",
         # tokenizer=AutoTokenizer.from_pretrained("{ORG}/{NAME}")
 )
 outputs = model.generate(
-    text=["def fibonnaci(", "User: How are you doing? Bot:"],
-    max_length=64,
 )
 print(outputs.shape, outputs)
 ```

         # load in int8 on CUDA
         model_name_or_path=model_name,
         device="cuda",
+        compute_type="float16",
         # tokenizer=AutoTokenizer.from_pretrained("{ORG}/{NAME}")
 )
 outputs = model.generate(
+    text=["I like soccer", "I like tennis", "The eiffel tower is in Paris"],
 )
 print(outputs.shape, outputs)
 ```