Spaces:

raptorkwok
/

chinesemeteor

Sleeping

App Files Files Community

raptorkwok commited on Nov 7, 2025

Commit

f7c53ae

1 Parent(s): ddeed21

re-organize warning suppress codes

Browse files

Files changed (1) hide show

chinesemeteor.py +78 -83

chinesemeteor.py CHANGED Viewed

@@ -18,22 +18,10 @@ Chinese METEOR — with Jieba pre-segmentation + CwnGraph Chinese WordNet
 # suppress WordNet warnings
 import warnings
 warnings.filterwarnings("ignore")
-warnings.filterwarnings(
-    "ignore",
-    message="more than one synset, returning the first",
-    category=UserWarning,
-    module="nltk.translate.meteor_score"
-)
 import logging
 logging.getLogger("nltk").setLevel(logging.CRITICAL)
-_original_warn = warnings.warn
-def _no_meteor_warn(msg, *args, **kwargs):
-    if "more than one synset" in str(msg):
-        return
-    return _original_warn(msg, *args, **kwargs)
-warnings.warn = _no_meteor_warn
 import jieba_fast as jieba
 import datasets
 from typing import List, Dict
@@ -157,80 +145,87 @@ class ChineseMETEOR(evaluate.Metric):
         return pycantonese.segment(sentence)
     def _compute(self, predictions: List[str], references: List[str]) -> Dict[str, float]:
-        pred_seg = [" ".join(jieba.cut(p.strip())) for p in predictions]
-        ref_seg  = [" ".join(jieba.cut(r.strip())) for r in references]
-        # --- Apply Real Chinese WordNet into METEOR algorithm ---
-        def _cwn_synsets(self, word, pos=None):  # Matches NLTK method call
-            if not isinstance(word, str) or not word.strip():
-                #print(f"DEBUG: Skipping non-string input: {type(word)}")
-                return []
-            cwn = _load_cwn()
-            try:
-                # Use escaped regex for exact match (CwnGraph expects string pattern)
-                pattern = f"^{re.escape(word)}$"
-                lemmas = cwn.find_lemma(pattern)
-            except Exception as e:
-                #print(f"DEBUG: Error querying CWN for '{word}': {e}")
-                return []
-            exact_lemmas = [l for l in lemmas if _get_lemma_name(l) == word]
-            if not exact_lemmas:
-                #print(f"DEBUG: No exact lemma found for '{word}'")
-                return []
-            synsets_list = []
-            seen_synset_ids = set()
-            for lemma in exact_lemmas:
-                for sense in lemma.senses:
-                    synset = sense.synset
-                    if synset:
-                        try:
-                            synset_id = synset.id
-                        except AttributeError:
-                            synset_id = str(synset)
-                        if synset_id not in seen_synset_ids:
-                            seen_synset_ids.add(synset_id)
                             try:
-                                synset_lemmas = synset.lemmas
-                                syn_lemma_names = [_get_lemma_name(l) for l in synset_lemmas]
                             except AttributeError:
-                                synset_lemmas = []
-                                for s in synset.senses:
-                                    try:
-                                        # Access the single lemma via lemmas[0]
-                                        lemma = s.lemmas[0]
-                                        synset_lemmas.append(lemma)
-                                    except (AttributeError, IndexError, TypeError):
                                         try:
-                                            lemma = s.lemma
                                             synset_lemmas.append(lemma)
-                                        except AttributeError:
-                                            #print(f"DEBUG: Could not extract lemma from sense {s}")
-                                            continue
-                                syn_lemma_names = [_get_lemma_name(l) for l in synset_lemmas]
-                            syn_lemmas_set = set(syn_lemma_names)
-                            if syn_lemmas_set:
-                                synsets_list.append(_CwnSynset(list(syn_lemmas_set), synset_id))
-            #print(f"DEBUG: Found {len(synsets_list)} synsets for '{word}': {synsets_list[0]._lemmas if synsets_list else []}")
-            return synsets_list[:1]
-        # Use class for proper method binding
-        class ChineseWordNet:
-            def synsets(self, word, pos=None):
-                return _cwn_synsets(self, word, pos)
-        chinese_wn = ChineseWordNet()
-        scores = [
-            meteor_score.single_meteor_score(
-                #word_tokenize(ref),
-                self._tokenize_chinese(ref),
-                #word_tokenize(hyp),
-                self._tokenize_chinese(hyp),
-                wordnet=chinese_wn
-            )
-            for ref, hyp in zip(ref_seg, pred_seg)
-        ]
         return {
             "meteor": float(np.mean(scores)),

 # suppress WordNet warnings
 import warnings
 warnings.filterwarnings("ignore")
 import logging
 logging.getLogger("nltk").setLevel(logging.CRITICAL)
+import os
+import sys
 import jieba_fast as jieba
 import datasets
 from typing import List, Dict
         return pycantonese.segment(sentence)
     def _compute(self, predictions: List[str], references: List[str]) -> Dict[str, float]:
+        original_stdout = sys.stdout # store original output
+        sys.stdout = open(os.devnull, 'w')
+        try:
+            pred_seg = [" ".join(jieba.cut(p.strip())) for p in predictions]
+            ref_seg  = [" ".join(jieba.cut(r.strip())) for r in references]
+            # --- Apply Real Chinese WordNet into METEOR algorithm ---
+            def _cwn_synsets(self, word, pos=None):  # Matches NLTK method call
+                if not isinstance(word, str) or not word.strip():
+                    #print(f"DEBUG: Skipping non-string input: {type(word)}")
+                    return []
+                cwn = _load_cwn()
+                try:
+                    # Use escaped regex for exact match (CwnGraph expects string pattern)
+                    pattern = f"^{re.escape(word)}$"
+                    lemmas = cwn.find_lemma(pattern)
+                except Exception as e:
+                    #print(f"DEBUG: Error querying CWN for '{word}': {e}")
+                    return []
+                exact_lemmas = [l for l in lemmas if _get_lemma_name(l) == word]
+                if not exact_lemmas:
+                    #print(f"DEBUG: No exact lemma found for '{word}'")
+                    return []
+                synsets_list = []
+                seen_synset_ids = set()
+                for lemma in exact_lemmas:
+                    for sense in lemma.senses:
+                        synset = sense.synset
+                        if synset:
                             try:
+                                synset_id = synset.id
                             except AttributeError:
+                                synset_id = str(synset)
+                            if synset_id not in seen_synset_ids:
+                                seen_synset_ids.add(synset_id)
+                                try:
+                                    synset_lemmas = synset.lemmas
+                                    syn_lemma_names = [_get_lemma_name(l) for l in synset_lemmas]
+                                except AttributeError:
+                                    synset_lemmas = []
+                                    for s in synset.senses:
                                         try:
+                                            # Access the single lemma via lemmas[0]
+                                            lemma = s.lemmas[0]
                                             synset_lemmas.append(lemma)
+                                        except (AttributeError, IndexError, TypeError):
+                                            try:
+                                                lemma = s.lemma
+                                                synset_lemmas.append(lemma)
+                                            except AttributeError:
+                                                #print(f"DEBUG: Could not extract lemma from sense {s}")
+                                                continue
+                                    syn_lemma_names = [_get_lemma_name(l) for l in synset_lemmas]
+                                syn_lemmas_set = set(syn_lemma_names)
+                                if syn_lemmas_set:
+                                    synsets_list.append(_CwnSynset(list(syn_lemmas_set), synset_id))
+                #print(f"DEBUG: Found {len(synsets_list)} synsets for '{word}': {synsets_list[0]._lemmas if synsets_list else []}")
+                return synsets_list[:1]
+            # Use class for proper method binding
+            class ChineseWordNet:
+                def synsets(self, word, pos=None):
+                    return _cwn_synsets(self, word, pos)
+            chinese_wn = ChineseWordNet()
+            scores = [
+                meteor_score.single_meteor_score(
+                    #word_tokenize(ref),
+                    self._tokenize_chinese(ref),
+                    #word_tokenize(hyp),
+                    self._tokenize_chinese(hyp),
+                    wordnet=chinese_wn
+                )
+                for ref, hyp in zip(ref_seg, pred_seg)
+            ]
+        finally:
+            sys.stdout.close()
+            sys.stdout = original_stdout # restore original output
         return {
             "meteor": float(np.mean(scores)),