Spaces:

NiviruIns
/

ai-commit-server

Sleeping

App Files Files Community

NiviruIns commited on Feb 4

Commit

1a06520

verified ·

1 Parent(s): cda6349

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -44

app.py CHANGED Viewed

@@ -21,73 +21,70 @@ except Exception as e:
     print(f"❌ Error loading model: {e}")
     exit(1)
-def preprocess_diff(diff_text):
     """
-    Strips all metadata to ensure the model focuses ONLY on code changes.
     """
-    if not diff_text:
-        return ""
     lines = diff_text.split('\n')
     cleaned_lines = []
     for line in lines:
-        # Keep only added (+) or removed (-) lines
         if (line.startswith('+') or line.startswith('-')):
-            # Remove metadata markers and noisy imports
             if line.startswith('+++') or line.startswith('---'): continue
             if "import " in line or "require(" in line: continue
-            if len(line.strip()) < 5: continue # Skip braces/empty lines
             cleaned_lines.append(line.strip())
     return "\n".join(cleaned_lines)
 def sanitize_summary(summary, diff_text, filename):
-    """
-    The 'Scorched Earth' filter. If it smells like a hallucination, kill it.
-    """
     summary_clean = summary.strip()
-    # 1. Catch Jira Tickets (e.g., STORM-1404, JIRA - 123)
-    # The regex allows for optional spaces around the hyphen
     ticket_pattern = re.compile(r'\b[A-Z]{3,}\s?-\s?\d+\b')
     match = ticket_pattern.search(summary_clean)
     if match:
         ticket = match.group()
-        # If this exact ticket string isn't in the source code, it's fake.
         if ticket not in diff_text:
-            print(f"⚠️ Hallucination Killed: '{ticket}' in '{filename}'")
-            return f"Update {filename}"
     # 2. Catch Linguistic Nonsense
-    forbidden_words = [
-        "transitive verb", "intransitive", "adjective",
-        "CHANGELOG", "readme", "documentation"
-    ]
-    # Only block "CHANGELOG" if the file itself isn't a changelog
-    if "changelog" not in filename.lower():
-        for word in forbidden_words:
-            if word in summary_clean.lower():
-                print(f"⚠️ Nonsense Killed: '{word}' in '{filename}'")
-                return f"Update {filename} logic"
     return summary_clean
 def generate_summary(diff_text, filename):
-    # Aggressively clean the input
     cleaned_diff = preprocess_diff(diff_text)
-    # If the diff is too small (e.g., just whitespace), skip the AI
     if not cleaned_diff or len(cleaned_diff) < 20:
-        return f"Update {filename}"
-    # Encode
     input_ids = tokenizer.encode(cleaned_diff, return_tensors="pt", max_length=512, truncation=True).to(device)
-    # Generate
     outputs = model.generate(
         input_ids,
         max_length=60,
@@ -97,19 +94,14 @@ def generate_summary(diff_text, filename):
     )
     raw_summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    # Apply the Sanitizer
-    final_summary = sanitize_summary(raw_summary, diff_text, filename)
-    return final_summary
 @app.route('/generate', methods=['POST'])
 def generate_commit():
     data = request.json
     files = data.get('files', [])
-    if not files:
-        return jsonify({"commit_message": ""})
     final_message_parts = []
@@ -117,7 +109,6 @@ def generate_commit():
         name = file_obj.get('name', 'file')
         diff = file_obj.get('diff', '')
-        # Hard limit on huge files
         if len(diff) > 12000:
             final_message_parts.append(f"{name}\nUpdate large file (chunked)")
             continue
@@ -127,7 +118,7 @@ def generate_commit():
             final_message_parts.append(f"{name}\n{summary}")
         except Exception as e:
             print(f"Error processing {name}: {e}")
-            final_message_parts.append(f"{name}\nRefactor code")
     return jsonify({"commit_message": "\n\n".join(final_message_parts)})

     print(f"❌ Error loading model: {e}")
     exit(1)
+def get_smart_fallback(diff_text, filename):
     """
+    If AI fails, look at the code to see WHICH function was touched.
     """
+    # Look for function definitions or modifications
+    # Regex matches: function name(), const name =, class Name
+    patterns = [
+        r'function\s+([a-zA-Z0-9_]+)',
+        r'const\s+([a-zA-Z0-9_]+)\s*=',
+        r'let\s+([a-zA-Z0-9_]+)\s*=',
+        r'class\s+([a-zA-Z0-9_]+)',
+        r'def\s+([a-zA-Z0-9_]+)'
+    ]
+    for pattern in patterns:
+        match = re.search(pattern, diff_text)
+        if match:
+            func_name = match.group(1)
+            return f"Refactor '{func_name}' in {filename}"
+    return f"Update logic in {filename}"
+def preprocess_diff(diff_text):
+    if not diff_text: return ""
     lines = diff_text.split('\n')
     cleaned_lines = []
     for line in lines:
         if (line.startswith('+') or line.startswith('-')):
             if line.startswith('+++') or line.startswith('---'): continue
             if "import " in line or "require(" in line: continue
+            if len(line.strip()) < 5: continue
             cleaned_lines.append(line.strip())
     return "\n".join(cleaned_lines)
 def sanitize_summary(summary, diff_text, filename):
     summary_clean = summary.strip()
+    # 1. Catch Hallucinated Jira Tickets
     ticket_pattern = re.compile(r'\b[A-Z]{3,}\s?-\s?\d+\b')
     match = ticket_pattern.search(summary_clean)
     if match:
         ticket = match.group()
         if ticket not in diff_text:
+            print(f"⚠️ Hallucination Killed: '{ticket}' -> Switching to Smart Fallback")
+            return get_smart_fallback(diff_text, filename)
     # 2. Catch Linguistic Nonsense
+    forbidden_words = ["transitive verb", "intransitive", "adjective"]
+    for word in forbidden_words:
+        if word in summary_clean.lower():
+            print(f"⚠️ Nonsense Killed: '{word}' -> Switching to Smart Fallback")
+            return get_smart_fallback(diff_text, filename)
     return summary_clean
 def generate_summary(diff_text, filename):
     cleaned_diff = preprocess_diff(diff_text)
     if not cleaned_diff or len(cleaned_diff) < 20:
+        return get_smart_fallback(diff_text, filename)
     input_ids = tokenizer.encode(cleaned_diff, return_tensors="pt", max_length=512, truncation=True).to(device)
     outputs = model.generate(
         input_ids,
         max_length=60,
     )
     raw_summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return sanitize_summary(raw_summary, diff_text, filename)
 @app.route('/generate', methods=['POST'])
 def generate_commit():
     data = request.json
     files = data.get('files', [])
+    if not files: return jsonify({"commit_message": ""})
     final_message_parts = []
         name = file_obj.get('name', 'file')
         diff = file_obj.get('diff', '')
         if len(diff) > 12000:
             final_message_parts.append(f"{name}\nUpdate large file (chunked)")
             continue
             final_message_parts.append(f"{name}\n{summary}")
         except Exception as e:
             print(f"Error processing {name}: {e}")
+            final_message_parts.append(f"{name}\nUpdate file")
     return jsonify({"commit_message": "\n\n".join(final_message_parts)})