Spaces:

egumasa
/

simple-text-analyzer

Building

App Files Files Community

egumasa commited on Aug 4, 2025

Commit

9bdec5c

1 Parent(s): 5ac114d

updated reference lists

Browse files

Files changed (5) hide show

config/reference_lists.yaml +168 -62
resources/reference_lists/en/AOE_words_dictionary.csv +3 -0
resources/reference_lists/en/Mcd_CD.txt +0 -0
resources/reference_lists/en/SemD.txt +0 -0
resources/reference_lists/en/spoken_bigram_lemma_contingency.csv +2 -2

config/reference_lists.yaml CHANGED Viewed

@@ -67,6 +67,67 @@ english:
         range: range
         dispersion: range
     concreteness_ratings_token:
       display_name: Concreteness Ratings (Token)
       description: Concreteness ratings for English words (1-5 scale) - token-based
@@ -108,6 +169,107 @@ english:
       measure_classifications:
         concreteness: psycholinguistic
       header_prefix: '#'
     academic_words_token:
       display_name: Academic Word List (Token)
       description: Common academic vocabulary for research writing - token-based analysis
@@ -129,6 +291,7 @@ english:
       - frequency
       measure_classifications:
         frequency: frequency
     academic_words_lemma:
       display_name: Academic Word List (Lemma)
       description: Common academic vocabulary for research writing - lemma-based analysis
@@ -148,64 +311,7 @@ english:
       - frequency
       measure_classifications:
         frequency: frequency
-    COCA_spoken_frequency_token:
-      display_name: COCA Spoken Frequency (Token)
-      description: Frequency and range data from COCA spoken subcorpus - token-based
-        analysis
-      file: resources/reference_lists/en/COCA_spoken_unigram_list.csv
-      format: tsv
-      columns:
-        word: 0
-        frequency: 1
-        normalized_freq: 2
-        range: 3
-        dispersion: 4
-      has_header: false
-      enabled: true
-      analysis_type: token
-      log_transformable:
-      - frequency
-      - normalized_freq
-      selectable_measures:
-      - frequency
-      - normalized_freq
-      - range
-      - dispersion
-      default_measures:
-      - frequency
-      - normalized_freq
-      default_log_transforms:
-      - frequency
-      - normalized_freq
-    COCA_spoken_frequency_lemma:
-      display_name: COCA Spoken Frequency (Lemma)
-      description: Frequency and range data from COCA spoken subcorpus - lemma-based
-        analysis
-      file: resources/reference_lists/en/COCA_spoken_unigram_list.csv
-      format: tsv
-      columns:
-        word: 0
-        frequency: 1
-        normalized_freq: 2
-        range: 3
-        dispersion: 4
-      has_header: false
-      enabled: true
-      analysis_type: lemma
-      log_transformable:
-      - frequency
-      - normalized_freq
-      selectable_measures:
-      - frequency
-      - normalized_freq
-      - range
-      - dispersion
-      default_measures:
-      - frequency
-      - normalized_freq
-      default_log_transforms:
-      - frequency
-      - normalized_freq
   bigrams:
     COCA_spoken_bigram_frequency_token:
       display_name: COCA Spoken Bigram Frequency (Token)
@@ -317,7 +423,7 @@ english:
         analysis
       file: resources/reference_lists/en/spoken_bigram_lemma_contingency.csv
       format: csv
-      columns:
         bigram: 0
         frequency: 1
         mi_score: 5
@@ -461,7 +567,7 @@ english:
       format: csv
       columns: *id007
       has_header: true
-      enabled: true
       analysis_type: lemma
       log_transformable:
       - frequency
@@ -592,7 +698,7 @@ english:
       format: csv
       columns: *id009
       has_header: true
-      enabled: true
       analysis_type: lemma
       log_transformable:
       - frequency
@@ -659,7 +765,7 @@ english:
       format: csv
       columns: *id010
       has_header: true
-      enabled: true
       analysis_type: lemma
       log_transformable:
       - frequency

         range: range
         dispersion: range
+    COCA_spoken_frequency_token:
+      display_name: COCA Spoken Frequency (Token)
+      description: Frequency and range data from COCA spoken subcorpus - token-based
+        analysis
+      file: resources/reference_lists/en/COCA_spoken_unigram_list.csv
+      format: tsv
+      columns:
+        word: 0
+        frequency: 1
+        normalized_freq: 2
+        range: 3
+        dispersion: 4
+      has_header: false
+      enabled: true
+      analysis_type: token
+      log_transformable:
+      - frequency
+      - normalized_freq
+      selectable_measures:
+      - frequency
+      - normalized_freq
+      - range
+      - dispersion
+      default_measures:
+      - frequency
+      - normalized_freq
+      default_log_transforms:
+      - frequency
+      - normalized_freq
+    COCA_spoken_frequency_lemma:
+      display_name: COCA Spoken Frequency (Lemma)
+      description: Frequency and range data from COCA spoken subcorpus - lemma-based
+        analysis
+      file: resources/reference_lists/en/COCA_spoken_unigram_list.csv
+      format: tsv
+      columns:
+        word: 0
+        frequency: 1
+        normalized_freq: 2
+        range: 3
+        dispersion: 4
+      has_header: false
+      enabled: true
+      analysis_type: lemma
+      log_transformable:
+      - frequency
+      - normalized_freq
+      selectable_measures:
+      - frequency
+      - normalized_freq
+      - range
+      - dispersion
+      default_measures:
+      - frequency
+      - normalized_freq
+      default_log_transforms:
+      - frequency
+      - normalized_freq
+    # Psycholinguistic norm
     concreteness_ratings_token:
       display_name: Concreteness Ratings (Token)
       description: Concreteness ratings for English words (1-5 scale) - token-based
       measure_classifications:
         concreteness: psycholinguistic
       header_prefix: '#'
+    aoa_ratings_token:
+      display_name: Age of Acquisition (AOA) Ratings (lemma)
+      description: Age of Acquisition (AOA) ratings for English words - lemma-based
+        analysis
+      file: resources/reference_lists/en/AoA_Brysbart.txt
+      format: tsv
+      columns:
+        word: 0
+        AOA: 1
+      has_header: true
+      enabled: true
+      analysis_type: lemma
+      log_transformable: []
+      selectable_measures:
+      - AOA
+      default_measures:
+      - AOA
+      default_log_transforms: []
+      measure_classifications:
+        concreteness: AOA
+      header_prefix: '#'
+    aoe_ratings_lemma:
+      display_name: Age of Exposure (AOE) (Lemma)
+      description: Age of Exposure (AOA) based on K-12 textbooks - lemma-based
+        analysis
+      file: resources/reference_lists/en/AOE_words_dictionary.csv
+      format: tsv
+      columns: &id018
+        word: 0
+        InverseAverage: 1
+        InverseLinearRegressionSlope: 2
+        IndexAboveThreshold40: 3
+        InflectionPointPolynomial: 4
+      has_header: true
+      enabled: true
+      analysis_type: lemma
+      log_transformable: []
+      selectable_measures:
+      - InverseAverage
+      - InverseLinearRegressionSlope
+      - IndexAboveThreshold40
+      - InflectionPointPolynomial
+      default_measures:
+      - InflectionPointPolynomial
+      measure_classifications:
+        InverseAverage: psycholinguistic
+        InverseLinearRegressionSlope: psycholinguistic
+        IndexAboveThreshold40: psycholinguistic
+        InflectionPointPolynomial: psycholinguistic
+      header_prefix: '#'
+      default_log_transforms: []
+      measure_classifications:
+        InflectionPointPolynomial: AOE
+        IndexAboveThreshold40: AOE
+      header_prefix: '#'
+    semd_token:
+      display_name: SemD (Token)
+      description: Semantic Diversity (SemD) for English words - token-based
+        analysis
+      file: resources/reference_lists/en/SemD.txt
+      format: tsv
+      columns: &id019
+        word: 0
+        semd: 1
+      has_header: true
+      enabled: true
+      analysis_type: token
+      log_transformable: []
+      selectable_measures:
+      - semd
+      default_measures:
+      - semd
+      default_log_transforms: []
+      measure_classifications:
+        semd: contextual distinctiveness
+      header_prefix: '#'
+    mcd_cd_token:
+      display_name: McD CD (Token)
+      description: Macdonald Contextual Diversity (McD CD) for English words - token-based
+        analysis
+      file: resources/reference_lists/en/Mcd_CD.txt
+      format: tsv
+      columns: &id020
+        word: 0
+        mcd: 1
+      has_header: false
+      enabled: true
+      analysis_type: token
+      log_transformable: []
+      selectable_measures:
+      - mcd
+      default_measures:
+      - mcd
+      measure_classifications:
+        mcd: contextual_diversity
+      header_prefix: '#'
     academic_words_token:
       display_name: Academic Word List (Token)
       description: Common academic vocabulary for research writing - token-based analysis
       - frequency
       measure_classifications:
         frequency: frequency
     academic_words_lemma:
       display_name: Academic Word List (Lemma)
       description: Common academic vocabulary for research writing - lemma-based analysis
       - frequency
       measure_classifications:
         frequency: frequency
   bigrams:
     COCA_spoken_bigram_frequency_token:
       display_name: COCA Spoken Bigram Frequency (Token)
         analysis
       file: resources/reference_lists/en/spoken_bigram_lemma_contingency.csv
       format: csv
+      columns: &id021
         bigram: 0
         frequency: 1
         mi_score: 5
       format: csv
       columns: *id007
       has_header: true
+      enabled: false
       analysis_type: lemma
       log_transformable:
       - frequency
       format: csv
       columns: *id009
       has_header: true
+      enabled: false
       analysis_type: lemma
       log_transformable:
       - frequency
       format: csv
       columns: *id010
       has_header: true
+      enabled: false
       analysis_type: lemma
       log_transformable:
       - frequency

resources/reference_lists/en/AOE_words_dictionary.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d43ae65af3e66118b94aa988f3b3840dbe07681872e550f48f63717032a0e43
+size 951099

resources/reference_lists/en/Mcd_CD.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

resources/reference_lists/en/SemD.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

resources/reference_lists/en/spoken_bigram_lemma_contingency.csv CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47b5daff8127da415a8ca46a913dc9010ef4f5c9707203d9d6965cc852b8a749
-size 19236284

 version https://git-lfs.github.com/spec/v1
+oid sha256:c63ba4df79fb8e850017e7e5020d3c71b0b71be91433eacb143e27b19a8e29ac
+size 19236676