LanguageDetection

Sleeping

App Files Files Community

TiberiuCristianLeon commited on Jan 2

Commit

2d2ddee

verified ·

1 Parent(s): c405a51

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -10

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ all_langs = {iso[0]: (iso[1], iso[2], iso[3]) for iso in non_empty_isos} # {'Rom
 iso1toall = {iso[1]: (iso[0], iso[2], iso[3]) for iso in non_empty_isos} # {'ro': ('Romanian', 'rum', 'ron')}
 DEFAULTS = None
-libraries = ["langdetect", "langid"]
 class Detect():
     def __init__(self, text: str) -> None:
@@ -22,12 +22,16 @@ class Detect():
         langcode = detect(self.text)
         langecode_probabilities: list[Language] = detect_langs(self.text)
         return langcode, round(number=langecode_probabilities[0].prob * 100, ndigits=2)
     def langid(self) -> tuple[str, float]:
-        import langid
-        result: tuple[str, float] = langid.classify(self.text)
-        langcode, langecode_probabilities = result
-        return langcode, abs(round(number=langecode_probabilities * 10, ndigits=2))
 def detect_language(input_text: str, used_libraries: list[str]) -> tuple[str, str]:
     """
@@ -52,10 +56,10 @@ def detect_language(input_text: str, used_libraries: list[str]) -> tuple[str, st
         listtoappend = [langcode, confidence_score]
         detections.append(listtoappend)
     if 'langid' in used_libraries:
-        from langid.langid import LanguageIdentifier, model
-        identifier = LanguageIdentifier.from_modelstring(string=model, norm_probs=True)
-        idresult: list[str, float] = list(identifier.classify(input_text))
-        listtoappend = [idresult[0], abs(round(number=idresult[1] * 100, ndigits=2))]
         detections.append(listtoappend)
     print(detections)
     return detections

 iso1toall = {iso[1]: (iso[0], iso[2], iso[3]) for iso in non_empty_isos} # {'ro': ('Romanian', 'rum', 'ron')}
 DEFAULTS = None
+libraries = ["langdetect", "langid", "lingua-py"]
 class Detect():
     def __init__(self, text: str) -> None:
         langcode = detect(self.text)
         langecode_probabilities: list[Language] = detect_langs(self.text)
         return langcode, round(number=langecode_probabilities[0].prob * 100, ndigits=2)
     def langid(self) -> tuple[str, float]:
+        from langid.langid import LanguageIdentifier, model
+        identifier = LanguageIdentifier.from_modelstring(string=model, norm_probs=True)
+        idresult: list[str, float] = list(identifier.classify(self.text))
+        return [idresult[0], abs(round(number=idresult[1] * 100, ndigits=2))]
+    def lingua(self) -> tuple[str, float]:
+        from lingua import Language, LanguageDetectorBuilder
+        detector: LanguageDetector = LanguageDetectorBuilder.from_all_languages().with_preloaded_language_models().build()
+        confidence_values: List[ConfidenceValue] = detector.compute_language_confidence_values(self.text)
+        return [confidence_values[0].language.iso_code_639_1.name.lower(), "{0:.2f}".format(confidence_values[0].value * 100)]
 def detect_language(input_text: str, used_libraries: list[str]) -> tuple[str, str]:
     """
         listtoappend = [langcode, confidence_score]
         detections.append(listtoappend)
     if 'langid' in used_libraries:
+        listtoappend = detectinstance.langid()
+        detections.append(listtoappend)
+    if 'lingua-py' in used_libraries:
+        listtoappend = detectinstance.lingua()
         detections.append(listtoappend)
     print(detections)
     return detections