Spaces:

Building-science
/

SCC

Running

mabuseif commited on Aug 7, 2025

Commit

9e4c5a7

verified ·

1 Parent(s): 201ac1d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -115,12 +115,22 @@ def normalise_hyphens(text):
     # Replace hyphen variants with U+002D for internal consistency
     return text.replace('\u2011', '-').replace('\u2013', '-').replace('\u2014', '-')
 def encode_text_fragment(text):
     # Encode text for W3C Text Fragments, preserving only regular hyphens (U+002D)
-    # Non-breaking hyphens (U+2011) are encoded as %E2%80%91
-    # En dashes (U+2013) are encoded as %E2%80%93
-    # Em dashes (U+2014) are encoded as %E2%80%94
-    return urllib.parse.quote(text, safe='-')
 def generate_citation_hash(author, year, url, fragment_text, cited_text, username, task_name, current_date, current_time):
     # Normalise hyphens for consistent hash generation
@@ -131,7 +141,7 @@ def generate_citation_hash(author, year, url, fragment_text, cited_text, usernam
     return hashlib.sha256(data.encode('utf-8')).hexdigest()
 def format_citation_html(url, fragment_text, author, year, scc_hash):
-    # Use original fragment_text for text fragment URL to match external source
     encoded_fragment = encode_text_fragment(fragment_text)
     full_url = f"{url}#:~:text={encoded_fragment}"
     return f'<a href="{full_url}" data-hash="{scc_hash}">{author} ({year})</a>'

     # Replace hyphen variants with U+002D for internal consistency
     return text.replace('\u2011', '-').replace('\u2013', '-').replace('\u2014', '-')
+def get_longest_segment(text):
+    # Split text by various dash types (hyphen, en dash, em dash, non-breaking hyphen)
+    dash_pattern = r'[\u002D\u2011\u2013\u2014]'
+    segments = re.split(dash_pattern, text)
+    # Remove empty segments and strip whitespace
+    segments = [segment.strip() for segment in segments if segment.strip()]
+    if not segments:
+        return text  # Return original text if no valid segments
+    # Return the longest segment
+    return max(segments, key=len)
 def encode_text_fragment(text):
+    # Get the longest segment if text contains dashes
+    fragment_text = get_longest_segment(text)
     # Encode text for W3C Text Fragments, preserving only regular hyphens (U+002D)
+    return urllib.parse.quote(fragment_text, safe='-')
 def generate_citation_hash(author, year, url, fragment_text, cited_text, username, task_name, current_date, current_time):
     # Normalise hyphens for consistent hash generation
     return hashlib.sha256(data.encode('utf-8')).hexdigest()
 def format_citation_html(url, fragment_text, author, year, scc_hash):
+    # Use the longest segment for the text fragment URL
     encoded_fragment = encode_text_fragment(fragment_text)
     full_url = f"{url}#:~:text={encoded_fragment}"
     return f'<a href="{full_url}" data-hash="{scc_hash}">{author} ({year})</a>'