Spaces:

NiviruIns
/

ai-commit-server

Sleeping

App Files Files Community

NiviruIns commited on Feb 4

Commit

a052544

verified ·

1 Parent(s): eb3184c

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -4

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 import torch
@@ -22,20 +23,57 @@ except Exception as e:
     print(f"❌ Error loading model: {e}")
     exit(1)
 def generate_summary(diff_text):
-    if not diff_text or len(diff_text.strip()) < 5:
         return "Update file"
-    # The Expert model just needs the raw diff. No "Summarize:" prefix needed.
-    input_ids = tokenizer.encode(diff_text, return_tensors="pt", max_length=512, truncation=True).to(device)
     outputs = model.generate(
         input_ids,
         max_length=80,
         num_beams=5,
         early_stopping=True
     )
-    return tokenizer.decode(outputs[0], skip_special_tokens=True)
 @app.route('/generate', methods=['POST'])
 def generate_commit():

 import os
+import re
 from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 import torch
     print(f"❌ Error loading model: {e}")
     exit(1)
+def preprocess_diff(diff_text):
+    """
+    Cleans the diff to remove git metadata and save token space for the actual code.
+    """
+    if not diff_text:
+        return ""
+    lines = diff_text.split('\n')
+    cleaned_lines = []
+    for line in lines:
+        # Remove git metadata lines
+        if line.startswith('diff --git') or line.startswith('index ') or line.startswith('+++') or line.startswith('---'):
+            continue
+        # Remove chunk headers like @@ -1,4 +1,5 @@
+        if line.startswith('@@'):
+            continue
+        cleaned_lines.append(line)
+    # Join and ensure we don't send an empty string
+    return "\n".join(cleaned_lines)
 def generate_summary(diff_text):
+    # Preprocess to get pure code changes
+    cleaned_diff = preprocess_diff(diff_text)
+    if not cleaned_diff or len(cleaned_diff.strip()) < 5:
         return "Update file"
+    # Tokenize
+    input_ids = tokenizer.encode(cleaned_diff, return_tensors="pt", max_length=512, truncation=True).to(device)
+    # Generate with better parameters to reduce "dumb" hallucinations
     outputs = model.generate(
         input_ids,
         max_length=80,
+        min_length=5,
         num_beams=5,
+        repetition_penalty=1.2,    # Penalize repetition
+        no_repeat_ngram_size=2,    # Prevent repeating phrases
         early_stopping=True
     )
+    summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Fallback if model yields empty string
+    if not summary.strip():
+        return "Update logic"
+    return summary
 @app.route('/generate', methods=['POST'])
 def generate_commit():