ModerRAS
/

AniFileBERT

@@ -222,7 +222,7 @@ static LANG_RE: Lazy<Regex> = Lazy::new(|| {
     Regex::new(r"(?i)^(?:CHS|CHT|ZHS|ZHT|GB|BIG5|JPN?|JP|JA|JAP|ENG|EN|SC|TC|简[体體]?|繁[体體]?|简日|繁日|字幕|内封|外挂|Sub|Subs|MSubs?)$").unwrap()
 });
 static MEDIA_RE: Lazy<Regex> = Lazy::new(|| {
-    Regex::new(r"(?i)^(?:WEB|WEB[-_. ]?DL|WEB[-_. ]?Rip|BDRip|BluRay|BDMV|BD|DVDRip|DVD|HD|UHD|HDTV|TVRip|REMUX|xvid|x26[45]|h\.?26[45]|HEVC|AVC|AV1|YUV\d+P?\d*|AAC\s*\d*(?:\.\d+)?|DDP\s*\d*(?:\.\d+)?|FLAC|MP3|DTS|HDMA|DTS-HDMA|E?AC3x?\d*(?:\.\d+)?|Opus|WMV\d*|\d(?:\.\d)?ch|10[-_. ]?bit|8[-_. ]?bit|Hi10p|Ma10p|ASSx?\d*|SRTx?\d*|SUP|R\d[A-Z]*|NoSub|MKV|MP4|AVI|RAW|Raws?)$").unwrap()
 });
 static SPECIAL_TITLE_PHRASE_RE: Lazy<Regex> = Lazy::new(|| {
     Regex::new(r"(?i)\b(?:theater\s+greeting\s+event|world\s+prem(?:eie|iere)|picture\s+drama)\b")
@@ -2207,6 +2207,16 @@ fn is_special_title_phrase(text: &str) -> bool {
         || SPECIAL_TITLE_PHRASE_RE.is_match(text)
 }
 const KNOWN_TITLE_PHRASES: &[&[&str]] = &[
     &["SPY", "x", "FAMILY"],
     &["Spy", "x", "Family"],
@@ -2222,7 +2232,15 @@ const KNOWN_TITLE_PHRASES: &[&[&str]] = &[
 fn apply_known_title_phrases(tokens: &[String], groups: &[Group], roles: &mut [String]) {
     if let Some(whitelists) = RUNTIME_WHITELISTS.get() {
         for (index, group) in groups.iter().enumerate() {
             if group.class_name == "BRACKET_TEXT"
                 && whitelists
                     .group_names
                     .contains(&normalize_whitelist_name(&group_text(tokens, group)))
@@ -2315,6 +2333,22 @@ fn adjust_contextual_roles(tokens: &[String], groups: &[Group], roles: &[String]
     let ep_markers = ["EP", "E", "Episode", "ep", "episode"];
     let roman = ["I", "II", "III", "IV", "V", "VI", "VII", "VIII", "IX"];
     apply_known_title_phrases(tokens, groups, &mut output);
     if roles
         .first()
         .is_some_and(|role| role.starts_with("EPISODE"))
@@ -2728,10 +2762,23 @@ fn adjust_contextual_roles(tokens: &[String], groups: &[Group], roles: &[String]
             } else {
                 String::new()
             };
             if previous_text.ends_with('第') && next_text.starts_with('期') {
                 output[index] = "SEASON".to_string();
                 continue;
             }
             if output[..index].iter().any(|role| role == "TITLE")
                 && (output[..index]
                     .iter()
@@ -3127,6 +3174,19 @@ fn smooth_title_spans(tokens: &[String], labels: &[String]) -> Vec<String> {
     ];
     let mut output = labels.to_vec();
     for (index, (token, label)) in tokens.iter().zip(labels.iter()).enumerate() {
         if label != "O" || !entity_joiners.contains(&token.as_str()) {
             continue;
         }
@@ -3808,5 +3868,21 @@ mod tests {
             labels_for("[DVD] 鋼鉄天使くるみ 予告 第03話 30秒バージョン (640x480 WMV9)");
         assert!(preview_seconds.contains(&("03".to_string(), "B-EPISODE".to_string())));
         assert!(!preview_seconds.contains(&("30".to_string(), "B-EPISODE".to_string())));
     }
 }

     Regex::new(r"(?i)^(?:CHS|CHT|ZHS|ZHT|GB|BIG5|JPN?|JP|JA|JAP|ENG|EN|SC|TC|简[体體]?|繁[体體]?|简日|繁日|字幕|内封|外挂|Sub|Subs|MSubs?)$").unwrap()
 });
 static MEDIA_RE: Lazy<Regex> = Lazy::new(|| {
+    Regex::new(r"(?i)^(?:WEB|WEB[-_. ]?DL|WEB[-_. ]?Rip|BDRip|BluRay|BDMV|BD|DVDRip|DVD|HD|UHD|HDTV|TVRip|REMUX|xvid|x26[45]|h\.?26[45]|HEVC|AVC|AV1|YUV\d+P?\d*|AAC\s*\d*(?:\.\d+)?|DDP\s*\d*(?:\.\d+)?|FLAC|MP3|DTS|HDMA|DTS-HDMA|E?AC3x?\d*(?:\.\d+)?|Opus|WMV\d*|\d(?:\.\d)?ch|10[-_. ]?bit|8[-_. ]?bit|Hi10p?|Ma10p|ASSx?\d*|SRTx?\d*|SUP|R\d[A-Z]*|NoSub|MKV|MP4|AVI|RAW|Raws?)$").unwrap()
 });
 static SPECIAL_TITLE_PHRASE_RE: Lazy<Regex> = Lazy::new(|| {
     Regex::new(r"(?i)\b(?:theater\s+greeting\s+event|world\s+prem(?:eie|iere)|picture\s+drama)\b")
         || SPECIAL_TITLE_PHRASE_RE.is_match(text)
 }
+fn looks_like_release_group(text: &str) -> bool {
+    let normalized = text.to_ascii_lowercase();
+    normalized.contains("fansub")
+        || normalized.ends_with("sub")
+        || normalized.contains("sub&")
+        || normalized.contains("&sub")
+        || normalized.contains("字幕组")
+        || normalized.contains("字幕組")
+}
 const KNOWN_TITLE_PHRASES: &[&[&str]] = &[
     &["SPY", "x", "FAMILY"],
     &["Spy", "x", "Family"],
 fn apply_known_title_phrases(tokens: &[String], groups: &[Group], roles: &mut [String]) {
     if let Some(whitelists) = RUNTIME_WHITELISTS.get() {
         for (index, group) in groups.iter().enumerate() {
+            let previous_structural = roles[..index].iter().any(|role| {
+                role.starts_with("EPISODE")
+                    || matches!(
+                        role.as_str(),
+                        "SEASON" | "SPECIAL" | "SOURCE" | "RESOLUTION"
+                    )
+            });
             if group.class_name == "BRACKET_TEXT"
+                && !previous_structural
                 && whitelists
                     .group_names
                     .contains(&normalize_whitelist_name(&group_text(tokens, group)))
     let ep_markers = ["EP", "E", "Episode", "ep", "episode"];
     let roman = ["I", "II", "III", "IV", "V", "VI", "VII", "VIII", "IX"];
     apply_known_title_phrases(tokens, groups, &mut output);
+    if output.first().is_some_and(|role| role == "GROUP") {
+        let first_text = group_text(tokens, &groups[0]);
+        let first_is_known_group = RUNTIME_WHITELISTS.get().is_some_and(|whitelists| {
+            whitelists
+                .group_names
+                .contains(&normalize_whitelist_name(&first_text))
+        });
+        if !first_is_known_group {
+            if let Some(groupish_index) = (1..groups.len()).find(|&index| {
+                output[index] == "TITLE" && looks_like_release_group(&group_text(tokens, &groups[index]))
+            }) {
+                output[0] = "TITLE".to_string();
+                output[groupish_index] = "GROUP".to_string();
+            }
+        }
+    }
     if roles
         .first()
         .is_some_and(|role| role.starts_with("EPISODE"))
             } else {
                 String::new()
             };
+            let previous_real_text = (0..index)
+                .rev()
+                .find(|&cursor| groups[cursor].class_name != "SEP")
+                .map(|cursor| group_text(tokens, &groups[cursor]))
+                .unwrap_or_default();
             if previous_text.ends_with('第') && next_text.starts_with('期') {
                 output[index] = "SEASON".to_string();
                 continue;
             }
+            if matches!(
+                previous_real_text.to_ascii_lowercase().as_str(),
+                "lesson" | "part"
+            )
+            {
+                output[index] = "O".to_string();
+                continue;
+            }
             if output[..index].iter().any(|role| role == "TITLE")
                 && (output[..index]
                     .iter()
     ];
     let mut output = labels.to_vec();
     for (index, (token, label)) in tokens.iter().zip(labels.iter()).enumerate() {
+        if label == "B-EPISODE" && token.chars().all(|ch| ch.is_ascii_digit()) {
+            let previous_word = (0..index)
+                .rev()
+                .find(|&cursor| {
+                    !joiners.contains(&tokens[cursor].as_str()) && labels[cursor] != "O"
+                        || tokens[cursor].chars().any(|ch| ch.is_alphabetic())
+                })
+                .map(|cursor| tokens[cursor].to_ascii_lowercase());
+            if matches!(previous_word.as_deref(), Some("lesson" | "part")) {
+                output[index] = "O".to_string();
+                continue;
+            }
+        }
         if label != "O" || !entity_joiners.contains(&token.as_str()) {
             continue;
         }
             labels_for("[DVD] 鋼鉄天使くるみ 予告 第03話 30秒バージョン (640x480 WMV9)");
         assert!(preview_seconds.contains(&("03".to_string(), "B-EPISODE".to_string())));
         assert!(!preview_seconds.contains(&("30".to_string(), "B-EPISODE".to_string())));
+        let hi10_source =
+            labels_for("[POPGO][Shigatsu wa Kimi no Uso] [01][Hi10][720P][GB][A964DA24]");
+        assert!(hi10_source.contains(&("Hi10".to_string(), "B-SOURCE".to_string())));
+        assert!(!hi10_source.contains(&("Hi10".to_string(), "B-GROUP".to_string())));
+        let souten =
+            labels_for("[苍天之拳].[Fosky_Fansub][Souten_No_Ken][DVDRIP][01][H.264_FLAC][848x480][CDD495FC]");
+        assert!(souten.contains(&("Fosky".to_string(), "B-GROUP".to_string())));
+        assert!(!souten.contains(&("苍天之拳".to_string(), "B-GROUP".to_string())));
+        assert!(souten.contains(&("Souten".to_string(), "B-TITLE".to_string())));
+        let bonjour =
+            labels_for("(2014Q4) Bonjour♪恋味パティスリー 第01話 「Lesson 1」 (1280x720 x265 10bit AAC)");
+        assert!(bonjour.contains(&("01".to_string(), "B-EPISODE".to_string())));
+        assert!(!bonjour.contains(&("1".to_string(), "B-EPISODE".to_string())));
     }
 }