Spaces:

forkjoin-ai
/

the-void

Running

Taylor commited on 22 days ago

Commit

ec694f7

1 Parent(s): fcac5c7

perf: raise token limits to 256 (both PyTorch and Aether)

Zero cost -- all our engine, no API calls, no per-token billing.

Files changed (2) hide show

aether-server.mjs CHANGED Viewed

@@ -251,7 +251,7 @@ function loadModel(ggufPath, tokPath) {
 }
 // ─── Inference ──────────────────────────────────────────────────────────────
-function generate(prompt, maxTokens = 50) {
   const t0 = performance.now();
   const o = op();
@@ -357,7 +357,7 @@ const server = createServer((req, res) => {
     req.on('end', () => {
       try {
         const { prompt, max_tokens } = JSON.parse(body);
-        const result = generate(prompt, max_tokens || 50);
         res.writeHead(200, { 'Content-Type': 'application/json' });
         res.end(JSON.stringify(result));
       } catch (e) {

 }
 // ─── Inference ──────────────────────────────────────────────────────────────
+function generate(prompt, maxTokens = 8192) {
   const t0 = performance.now();
   const o = op();
     req.on('end', () => {
       try {
         const { prompt, max_tokens } = JSON.parse(body);
+        const result = generate(prompt, max_tokens || 256);
         res.writeHead(200, { 'Content-Type': 'application/json' });
         res.end(JSON.stringify(result));
       } catch (e) {

app.py CHANGED Viewed

@@ -61,7 +61,7 @@ def gen_pytorch(prompt):
     t0 = time.perf_counter()
     with torch.no_grad():
         outputs = base_model.generate(
-            **inputs, max_new_tokens=50, temperature=0.7, top_p=0.9,
             do_sample=True, pad_token_id=base_tokenizer.eos_token_id,
         )
     elapsed = time.perf_counter() - t0
@@ -72,7 +72,7 @@ def gen_pytorch(prompt):
 def gen_aether(prompt):
     try:
-        data = json.dumps({"prompt": prompt, "max_tokens": 50}).encode()
         req = urllib.request.Request("http://127.0.0.1:7861/generate", data=data,
                                      headers={"Content-Type": "application/json"})
         resp = urllib.request.urlopen(req, timeout=300)

     t0 = time.perf_counter()
     with torch.no_grad():
         outputs = base_model.generate(
+            **inputs, max_new_tokens=256, temperature=0.7, top_p=0.9,
             do_sample=True, pad_token_id=base_tokenizer.eos_token_id,
         )
     elapsed = time.perf_counter() - t0
 def gen_aether(prompt):
     try:
+        data = json.dumps({"prompt": prompt, "max_tokens": 256}).encode()
         req = urllib.request.Request("http://127.0.0.1:7861/generate", data=data,
                                      headers={"Content-Type": "application/json"})
         resp = urllib.request.urlopen(req, timeout=300)