Spaces:

egumasa
/

simple-text-analyzer

Building

App Files Files Community

simple-text-analyzer / config /reference_lists.yaml

egumasa

updated reference lists

9bdec5c 7 months ago

raw

history blame contribute delete

31.2 kB

	english:
	unigrams:
	COCA_magazine_frequency_token:
	display_name: COCA Magazine Frequency (Token)
	description: Frequency and range data from COCA magazine subcorpus - token-based
	analysis
	file: resources/reference_lists/en/COCA_magazine_unigram_list.csv
	format: tsv
	columns: &id001
	word: 0
	frequency: 1
	normalized_freq: 2
	range: 3
	dispersion: 4
	has_header: false
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- range
	- dispersion
	default_measures:
	- frequency
	- normalized_freq
	- range
	default_log_transforms:
	- frequency
	- normalized_freq
	measure_classifications:
	frequency: frequency
	normalized_freq: frequency
	range: range
	dispersion: range

	COCA_magazine_frequency_lemma:
	display_name: COCA Magazine Frequency (Lemma)
	description: Frequency and range data from COCA magazine subcorpus - lemma-based
	analysis
	file: resources/reference_lists/en/COCA_magazine_unigram_list.csv
	format: tsv
	columns: *id001
	has_header: false
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- range
	- dispersion
	default_measures:
	- frequency
	- normalized_freq
	- range
	default_log_transforms:
	- frequency
	- normalized_freq
	measure_classifications:
	frequency: frequency
	normalized_freq: frequency
	range: range
	dispersion: range

	COCA_spoken_frequency_token:
	display_name: COCA Spoken Frequency (Token)
	description: Frequency and range data from COCA spoken subcorpus - token-based
	analysis
	file: resources/reference_lists/en/COCA_spoken_unigram_list.csv
	format: tsv
	columns:
	word: 0
	frequency: 1
	normalized_freq: 2
	range: 3
	dispersion: 4
	has_header: false
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- range
	- dispersion
	default_measures:
	- frequency
	- normalized_freq
	default_log_transforms:
	- frequency
	- normalized_freq

	COCA_spoken_frequency_lemma:
	display_name: COCA Spoken Frequency (Lemma)
	description: Frequency and range data from COCA spoken subcorpus - lemma-based
	analysis
	file: resources/reference_lists/en/COCA_spoken_unigram_list.csv
	format: tsv
	columns:
	word: 0
	frequency: 1
	normalized_freq: 2
	range: 3
	dispersion: 4
	has_header: false
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- range
	- dispersion
	default_measures:
	- frequency
	- normalized_freq
	default_log_transforms:
	- frequency
	- normalized_freq

	# Psycholinguistic norm
	concreteness_ratings_token:
	display_name: Concreteness Ratings (Token)
	description: Concreteness ratings for English words (1-5 scale) - token-based
	analysis
	file: resources/reference_lists/en/Concreteness_Brysbaert.txt
	format: tsv
	columns: &id002
	word: 0
	concreteness: 1
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable: []
	selectable_measures:
	- concreteness
	default_measures:
	- concreteness
	default_log_transforms: []
	measure_classifications:
	concreteness: psycholinguistic
	header_prefix: '#'

	concreteness_ratings_lemma:
	display_name: Concreteness Ratings (Lemma)
	description: Concreteness ratings for English words (1-5 scale) - lemma-based
	analysis
	file: resources/reference_lists/en/Concreteness_Brysbaert.txt
	format: tsv
	columns: *id002
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable: []
	selectable_measures:
	- concreteness
	default_measures:
	- concreteness
	default_log_transforms: []
	measure_classifications:
	concreteness: psycholinguistic
	header_prefix: '#'

	aoa_ratings_token:
	display_name: Age of Acquisition (AOA) Ratings (lemma)
	description: Age of Acquisition (AOA) ratings for English words - lemma-based
	analysis
	file: resources/reference_lists/en/AoA_Brysbart.txt
	format: tsv
	columns:
	word: 0
	AOA: 1
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable: []
	selectable_measures:
	- AOA
	default_measures:
	- AOA
	default_log_transforms: []
	measure_classifications:
	concreteness: AOA
	header_prefix: '#'

	aoe_ratings_lemma:
	display_name: Age of Exposure (AOE) (Lemma)
	description: Age of Exposure (AOA) based on K-12 textbooks - lemma-based
	analysis
	file: resources/reference_lists/en/AOE_words_dictionary.csv
	format: tsv
	columns: &id018
	word: 0
	InverseAverage: 1
	InverseLinearRegressionSlope: 2
	IndexAboveThreshold40: 3
	InflectionPointPolynomial: 4
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable: []
	selectable_measures:
	- InverseAverage
	- InverseLinearRegressionSlope
	- IndexAboveThreshold40
	- InflectionPointPolynomial
	default_measures:
	- InflectionPointPolynomial
	measure_classifications:
	InverseAverage: psycholinguistic
	InverseLinearRegressionSlope: psycholinguistic
	IndexAboveThreshold40: psycholinguistic
	InflectionPointPolynomial: psycholinguistic
	header_prefix: '#'
	default_log_transforms: []
	measure_classifications:
	InflectionPointPolynomial: AOE
	IndexAboveThreshold40: AOE
	header_prefix: '#'

	semd_token:
	display_name: SemD (Token)
	description: Semantic Diversity (SemD) for English words - token-based
	analysis
	file: resources/reference_lists/en/SemD.txt
	format: tsv
	columns: &id019
	word: 0
	semd: 1
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable: []
	selectable_measures:
	- semd
	default_measures:
	- semd
	default_log_transforms: []
	measure_classifications:
	semd: contextual distinctiveness
	header_prefix: '#'

	mcd_cd_token:
	display_name: McD CD (Token)
	description: Macdonald Contextual Diversity (McD CD) for English words - token-based
	analysis
	file: resources/reference_lists/en/Mcd_CD.txt
	format: tsv
	columns: &id020
	word: 0
	mcd: 1
	has_header: false
	enabled: true
	analysis_type: token
	log_transformable: []
	selectable_measures:
	- mcd
	default_measures:
	- mcd
	measure_classifications:
	mcd: contextual_diversity
	header_prefix: '#'

	academic_words_token:
	display_name: Academic Word List (Token)
	description: Common academic vocabulary for research writing - token-based analysis
	file: resources/reference_lists/en/academic_words_token.csv
	format: csv
	columns: &id003
	word: 0
	frequency: 1
	has_header: true
	enabled: false
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	default_measures:
	- frequency
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency

	academic_words_lemma:
	display_name: Academic Word List (Lemma)
	description: Common academic vocabulary for research writing - lemma-based analysis
	file: resources/reference_lists/en/academic_words_lemma.csv
	format: csv
	columns: *id003
	has_header: true
	enabled: false
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	default_measures:
	- frequency
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency

	bigrams:
	COCA_spoken_bigram_frequency_token:
	display_name: COCA Spoken Bigram Frequency (Token)
	description: Bigram frequencies and range data - token-based analysis
	file: resources/reference_lists/en/COCA_spoken_bigram_list.csv
	format: tsv
	columns: &id004
	bigram: 0
	frequency: 1
	normalized_freq: 2
	documents: 3
	range: 4
	has_header: false
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- documents
	- range
	default_measures:
	- frequency
	- normalized_freq
	- range
	default_log_transforms:
	- frequency
	- normalized_freq
	measure_classifications:
	frequency: frequency
	normalized_freq: frequency
	documents: range
	range: range

	COCA_spoken_bigram_frequency_lemma:
	display_name: COCA Spoken Bigram Frequency (Lemma)
	description: Bigram frequencies and range data - lemma-based analysis
	file: resources/reference_lists/en/COCA_spoken_bigram_list.csv
	format: tsv
	columns: *id004
	has_header: false
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- documents
	- range
	default_measures:
	- frequency
	- normalized_freq
	- range
	default_log_transforms:
	- frequency
	- normalized_freq
	measure_classifications:
	frequency: frequency
	normalized_freq: frequency
	documents: range
	range: range

	COCA_spoken_bigram_association_token:
	display_name: COCA Spoken Bigram Associations (Token)
	description: Bigram association measures (MI, T-score, Delta P) - token-based
	analysis
	file: resources/reference_lists/en/spoken_bi_contingency.csv
	format: csv
	columns: &id005
	bigram: 0
	frequency: 1
	mi_score: 2
	mi_2_score: 3
	t_score: 4
	delta_p: 5
	ap_collex: 6
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	- mi_score
	- mi_2_score
	- t_score
	- delta_p
	- ap_collex
	default_measures:
	- frequency
	- t_score
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency
	mi_score: association
	mi_2_score: association
	t_score: association
	delta_p: association
	ap_collex: association

	COCA_spoken_bigram_association_lemma:
	display_name: COCA Spoken Bigram Associations (Lemma)
	description: Bigram association measures (MI, T-score, Delta P) - lemma-based
	analysis
	file: resources/reference_lists/en/spoken_bigram_lemma_contingency.csv
	format: csv
	columns: &id021
	bigram: 0
	frequency: 1
	mi_score: 5
	mi_2_score: 6
	t_score: 7
	delta_p: 8
	ap_collex: 9
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	- mi_score
	- mi_2_score
	- t_score
	- delta_p
	- ap_collex
	default_measures:
	- frequency
	- t_score
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency
	mi_score: association
	mi_2_score: association
	t_score: association
	delta_p: association
	ap_collex: association

	COCA_magazine_bigram_frequency_token:
	display_name: COCA Magazine Bigram Frequency (Token)
	description: Bigram frequencies and range data in Magazine - token-based analysis
	file: resources/reference_lists/en/COCA_magazine_bigram_list.csv
	format: tsv
	columns: &id006
	bigram: 0
	frequency: 1
	normalized_freq: 2
	documents: 3
	range: 4
	has_header: false
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- documents
	- range
	default_measures:
	- frequency
	- normalized_freq
	- range
	default_log_transforms:
	- frequency
	- normalized_freq
	measure_classifications:
	frequency: frequency
	normalized_freq: frequency
	documents: range
	range: range

	COCA_magazine_bigram_frequency_lemma:
	display_name: COCA Magazine Bigram Frequency (Lemma)
	description: Bigram frequencies and range data in Magazine - lemma-based analysis
	file: resources/reference_lists/en/COCA_spoken_bigram_list.csv
	format: tsv
	columns: *id006
	has_header: false
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- documents
	- range
	default_measures:
	- frequency
	- normalized_freq
	- range
	default_log_transforms:
	- frequency
	- normalized_freq
	measure_classifications:
	frequency: frequency
	normalized_freq: frequency
	documents: range
	range: range

	COCA_magazine_bigram_association_token:
	display_name: COCA Magazine Bigram Associations (Token)
	description: Bigram association measures (MI, T-score, Delta P) - token-based
	analysis
	file: resources/reference_lists/en/magazine_bi_contingency.csv
	format: csv
	columns: &id007
	bigram: 0
	frequency: 1
	mi_score: 2
	mi_2_score: 3
	t_score: 4
	delta_p: 5
	ap_collex: 6
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	- mi_score
	- mi_2_score
	- t_score
	- delta_p
	- ap_collex
	default_measures:
	- frequency
	- t_score
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency
	mi_score: association
	mi_2_score: association
	t_score: association
	delta_p: association
	ap_collex: association
	COCA_magazine_bigram_association_lemma:
	display_name: COCA Magazine Bigram Associations (Lemma)
	description: Bigram association measures (MI, T-score, Delta P) - lemma-based
	analysis
	file: resources/reference_lists/en/magazine_bigram_lemma_contingency.csv
	format: csv
	columns: *id007
	has_header: true
	enabled: false
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	- mi_score
	- mi_2_score
	- t_score
	- delta_p
	- ap_collex
	default_measures:
	- frequency
	- t_score
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency
	mi_score: association
	mi_2_score: association
	t_score: association
	delta_p: association
	ap_collex: association
	trigrams:
	COCA_trigram_frequency_token:
	display_name: COCA Trigram Frequency (Token)
	description: Trigram frequencies and range data - token-based analysis
	file: resources/reference_lists/en/COCA_spoken_trigram_list.csv
	format: tsv
	columns: &id008
	trigram: 0
	frequency: 1
	normalized_freq: 2
	range: 3
	dispersion: 4
	has_header: false
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- range
	- dispersion
	default_measures:
	- frequency
	- normalized_freq
	- range
	default_log_transforms:
	- frequency
	- normalized_freq
	measure_classifications:
	frequency: frequency
	normalized_freq: frequency
	range: range
	dispersion: range
	COCA_trigram_frequency_lemma:
	display_name: COCA Trigram Frequency (Lemma)
	description: Trigram frequencies and range data - lemma-based analysis
	file: resources/reference_lists/en/COCA_spoken_trigram_list.csv
	format: tsv
	columns: *id008
	has_header: false
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	- normalized_freq
	selectable_measures:
	- frequency
	- normalized_freq
	- range
	- dispersion
	default_measures:
	- frequency
	- normalized_freq
	- range
	default_log_transforms:
	- frequency
	- normalized_freq
	measure_classifications:
	frequency: frequency
	normalized_freq: frequency
	range: range
	dispersion: range
	COCA_trigram_assoc_uni_bi_token:
	display_name: COCA Trigram→Bigram Associations (Token)
	description: Trigram to bigram association measures - token-based analysis
	file: resources/reference_lists/en/spoken_tri_contingency_1.csv
	format: csv
	columns: &id009
	trigram: 0
	frequency: 1
	mi_score: 2
	mi_2_score: 3
	t_score: 4
	delta_p: 5
	ap_collex: 6
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	- mi_score
	- mi_2_score
	- t_score
	- delta_p
	- ap_collex
	default_measures:
	- frequency
	- t_score
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency
	mi_score: association
	mi_2_score: association
	t_score: association
	delta_p: association
	ap_collex: association
	COCA_trigram_assoc_uni_bi_lemma:
	display_name: COCA Trigram→Bigram Associations (Lemma)
	description: Trigram to bigram association measures - lemma-based analysis
	file: resources/reference_lists/en/spoken_trigram_lemma_contingency_1.csv
	format: csv
	columns: *id009
	has_header: true
	enabled: false
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	- mi_score
	- mi_2_score
	- t_score
	- delta_p
	- ap_collex
	default_measures:
	- frequency
	- t_score
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency
	mi_score: association
	mi_2_score: association
	t_score: association
	delta_p: association
	ap_collex: association
	COCA_trigram_assoc_bi_uni_token:
	display_name: COCA Trigram→Unigram Associations (Token)
	description: Trigram to unigram association measures - token-based analysis
	file: resources/reference_lists/en/spoken_tri_contingency_2.csv
	format: csv
	columns: &id010
	trigram: 0
	frequency: 1
	mi_score: 2
	mi_2_score: 3
	t_score: 4
	delta_p: 5
	ap_collex: 6
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	- mi_score
	- mi_2_score
	- t_score
	- delta_p
	- ap_collex
	default_measures:
	- frequency
	- t_score
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency
	mi_score: association
	mi_2_score: association
	t_score: association
	delta_p: association
	ap_collex: association
	COCA_trigram_assoc_bi_uni_lemma:
	display_name: COCA Trigram→Unigram Associations (Lemma)
	description: Trigram to unigram association measures - lemma-based analysis
	file: resources/reference_lists/en/spoken_trigram_lemma_contingency_2.csv
	format: csv
	columns: *id010
	has_header: true
	enabled: false
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	- mi_score
	- mi_2_score
	- t_score
	- delta_p
	- ap_collex
	default_measures:
	- frequency
	- t_score
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency
	mi_score: association
	mi_2_score: association
	t_score: association
	delta_p: association
	ap_collex: association
	japanese:
	unigrams:
	BCCWJ_frequency_token:
	display_name: BCCWJ Written - Frequency (Token)
	description: BCCWJ raw frequency counts for written Japanese - token-based analysis
	file: resources/reference_lists/ja/BCCWJ_frequencylist_suw_ver1_1.tsv
	format: tsv
	columns: &id011
	surface_form: 1
	lemma: 2
	pos: 3
	frequency: 6
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	BCCWJ_frequency_lemma:
	display_name: BCCWJ Written - Frequency (Lemma)
	description: BCCWJ raw frequency counts for written Japanese - lemma-based analysis
	file: resources/reference_lists/ja/BCCWJ_frequencylist_suw_ver1_1.tsv
	format: tsv
	columns: *id011
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	BCCWJ_pmw_token:
	display_name: BCCWJ Written - Per Million Words (Token)
	description: BCCWJ normalized frequency for written Japanese - token-based analysis
	file: resources/reference_lists/ja/BCCWJ_frequencylist_suw_ver1_1.tsv
	format: tsv
	columns: &id012
	surface_form: 1
	lemma: 2
	pos: 3
	frequency: 7
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	BCCWJ_pmw_lemma:
	display_name: BCCWJ Written - Per Million Words (Lemma)
	description: BCCWJ normalized frequency for written Japanese - lemma-based analysis
	file: resources/reference_lists/ja/BCCWJ_frequencylist_suw_ver1_1.tsv
	format: tsv
	columns: *id012
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	BCCWJ_rank_token:
	display_name: BCCWJ Written - Frequency Rank (Token)
	description: BCCWJ frequency ranking for written Japanese - token-based analysis
	file: resources/reference_lists/ja/BCCWJ_frequencylist_suw_ver1_1.tsv
	format: tsv
	columns: &id013
	surface_form: 1
	lemma: 2
	pos: 3
	frequency: 0
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	BCCWJ_rank_lemma:
	display_name: BCCWJ Written - Frequency Rank (Lemma)
	description: BCCWJ frequency ranking for written Japanese - lemma-based analysis
	file: resources/reference_lists/ja/BCCWJ_frequencylist_suw_ver1_1.tsv
	format: tsv
	columns: *id013
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	CSJ_frequency_token:
	display_name: CSJ Spoken - Frequency (Token)
	description: CSJ raw frequency counts for spoken Japanese - token-based analysis
	file: resources/reference_lists/ja/CSJ_frequencylist_suw_ver201803.tsv
	format: tsv
	columns: &id014
	surface_form: 1
	lemma: 2
	pos: 3
	frequency: 6
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	CSJ_frequency_lemma:
	display_name: CSJ Spoken - Frequency (Lemma)
	description: CSJ raw frequency counts for spoken Japanese - lemma-based analysis
	file: resources/reference_lists/ja/CSJ_frequencylist_suw_ver201803.tsv
	format: tsv
	columns: *id014
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	CSJ_pmw_token:
	display_name: CSJ Spoken - Per Million Words (Token)
	description: CSJ normalized frequency for spoken Japanese - token-based analysis
	file: resources/reference_lists/ja/CSJ_frequencylist_suw_ver201803.tsv
	format: tsv
	columns: &id015
	surface_form: 1
	lemma: 2
	pos: 3
	frequency: 7
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	CSJ_pmw_lemma:
	display_name: CSJ Spoken - Per Million Words (Lemma)
	description: CSJ normalized frequency for spoken Japanese - lemma-based analysis
	file: resources/reference_lists/ja/CSJ_frequencylist_suw_ver201803.tsv
	format: tsv
	columns: *id015
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	CSJ_rank_token:
	display_name: CSJ Spoken - Frequency Rank (Token)
	description: CSJ frequency ranking for spoken Japanese - token-based analysis
	file: resources/reference_lists/ja/CSJ_frequencylist_suw_ver201803.tsv
	format: tsv
	columns: &id016
	surface_form: 1
	lemma: 2
	pos: 3
	frequency: 0
	has_header: true
	enabled: true
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true
	CSJ_rank_lemma:
	display_name: CSJ Spoken - Frequency Rank (Lemma)
	description: CSJ frequency ranking for spoken Japanese - lemma-based analysis
	file: resources/reference_lists/ja/CSJ_frequencylist_suw_ver201803.tsv
	format: tsv
	columns: *id016
	has_header: true
	enabled: true
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- pos
	- frequency
	default_measures:
	- frequency
	- pos
	default_log_transforms:
	- frequency
	measure_classifications:
	pos: unknown
	frequency: frequency
	japanese_corpus: true

	jp_frequency_token:
	display_name: Japanese Frequency List (Token)
	description: Frequency data for Japanese words - token-based analysis
	file: resources/reference_lists/ja/jp_frequency_token.csv
	format: csv
	columns: &id017
	word: 0
	frequency: 1
	has_header: true
	enabled: false
	analysis_type: token
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	default_measures:
	- frequency
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency

	jp_frequency_lemma:
	display_name: Japanese Frequency List (Lemma)
	description: Frequency data for Japanese words - lemma-based analysis
	file: resources/reference_lists/ja/jp_frequency_lemma.csv
	format: csv
	columns: *id017
	has_header: true
	enabled: false
	analysis_type: lemma
	log_transformable:
	- frequency
	selectable_measures:
	- frequency
	default_measures:
	- frequency
	default_log_transforms:
	- frequency
	measure_classifications:
	frequency: frequency