Spaces:

ResearchEngineering
/

AGI

Sleeping

App Files Files Community

Dmitry Beresnev commited on Mar 19

Commit

e8080f5

1 Parent(s): 3634ca6

add token generation speed to ui

Browse files

Files changed (1) hide show

cpp/server.cpp +58 -1

cpp/server.cpp CHANGED Viewed

@@ -107,9 +107,63 @@ static std::string build_completion_compat_response(const std::string &completio
     if (completion.contains("stopped_limit")) out["stopped_limit"] = completion["stopped_limit"];
     if (completion.contains("tokens_predicted")) out["tokens_predicted"] = completion["tokens_predicted"];
     if (completion.contains("tokens_evaluated")) out["tokens_evaluated"] = completion["tokens_evaluated"];
     return out.dump();
 }
 static std::string build_buffered_stream_response(const std::string &completion_body) {
     json completion = json::parse(completion_body, nullptr, false);
     if (completion.is_discarded() || !completion.is_object()) {
@@ -427,7 +481,10 @@ http::response<http::string_body> handle_request(
             http::response<http::string_body> res{
                 static_cast<http::status>(result.status), req.version()};
-            if (stream_requested && result.status >= 200 && result.status < 300) {
                 result.body = build_buffered_stream_response(result.body);
                 result.content_type = "text/event-stream; charset=utf-8";
             } else if (completion_compat_mode && result.status >= 200 && result.status < 300) {

     if (completion.contains("stopped_limit")) out["stopped_limit"] = completion["stopped_limit"];
     if (completion.contains("tokens_predicted")) out["tokens_predicted"] = completion["tokens_predicted"];
     if (completion.contains("tokens_evaluated")) out["tokens_evaluated"] = completion["tokens_evaluated"];
+    if (completion.contains("timings")) out["timings"] = completion["timings"];
+    // Map OpenAI usage fields to native llama.cpp field names if not already set
+    if (completion.contains("usage") && completion["usage"].is_object()) {
+        const auto &usage = completion["usage"];
+        if (!out.contains("tokens_predicted") && usage.contains("completion_tokens"))
+            out["tokens_predicted"] = usage["completion_tokens"];
+        if (!out.contains("tokens_evaluated") && usage.contains("prompt_tokens"))
+            out["tokens_evaluated"] = usage["prompt_tokens"];
+    }
     return out.dump();
 }
+// Emits native llama.cpp SSE format for the /completion + stream=true case.
+// The web UI expects {"content":"...","stop":false} chunks followed by a final
+// stop=true chunk that includes timings so it can display generation stats.
+static std::string build_completion_buffered_stream_response(const std::string &completion_body) {
+    json completion = json::parse(completion_body, nullptr, false);
+    if (completion.is_discarded() || !completion.is_object()) {
+        return "data: [DONE]\n\n";
+    }
+    const std::string assistant_content = extract_chat_text(completion);
+    std::ostringstream oss;
+    if (!assistant_content.empty()) {
+        oss << "data: " << json({{"content", assistant_content}, {"stop", false}}).dump() << "\n\n";
+    }
+    // Final event — includes timings and token counts so the UI can render stats
+    json final_event = {{"content", ""}, {"stop", true}};
+    if (completion.contains("timings"))
+        final_event["timings"] = completion["timings"];
+    if (completion.contains("usage") && completion["usage"].is_object()) {
+        const auto &usage = completion["usage"];
+        if (usage.contains("completion_tokens")) final_event["tokens_predicted"] = usage["completion_tokens"];
+        if (usage.contains("prompt_tokens"))     final_event["tokens_evaluated"] = usage["prompt_tokens"];
+    }
+    if (completion.contains("tokens_predicted")) final_event["tokens_predicted"] = completion["tokens_predicted"];
+    if (completion.contains("tokens_evaluated")) final_event["tokens_evaluated"] = completion["tokens_evaluated"];
+    if (completion.contains("choices") && completion["choices"].is_array() && !completion["choices"].empty()) {
+        const auto &choice = completion["choices"][0];
+        if (choice.contains("finish_reason") && choice["finish_reason"].is_string()) {
+            const std::string reason = choice["finish_reason"].get<std::string>();
+            if (reason == "stop")   final_event["stop_type"] = "eos";
+            else if (reason == "length") final_event["stop_type"] = "limit";
+        }
+    }
+    oss << "data: " << final_event.dump() << "\n\n";
+    return oss.str();
+}
 static std::string build_buffered_stream_response(const std::string &completion_body) {
     json completion = json::parse(completion_body, nullptr, false);
     if (completion.is_discarded() || !completion.is_object()) {
             http::response<http::string_body> res{
                 static_cast<http::status>(result.status), req.version()};
+            if (stream_requested && completion_compat_mode && result.status >= 200 && result.status < 300) {
+                result.body = build_completion_buffered_stream_response(result.body);
+                result.content_type = "text/event-stream; charset=utf-8";
+            } else if (stream_requested && result.status >= 200 && result.status < 300) {
                 result.body = build_buffered_stream_response(result.body);
                 result.content_type = "text/event-stream; charset=utf-8";
             } else if (completion_compat_mode && result.status >= 200 && result.status < 300) {