YagiASAFAS
/

PoliBERT-MY

Safetensors

bert

politics

Model card Files Files and versions

xet

Community

YagiASAFAS commited on Apr 6, 2025

Commit

e6b7410

verified ·

1 Parent(s): 2dfb231

Update README.md

Browse files

Files changed (1) hide show

README.md +12 -12

README.md CHANGED Viewed

@@ -50,18 +50,18 @@ For each topic, the model assigns one of four sentiment labels: **unknown, negat
 The training data was aggregated from multiple sources:
-| Data Source                           | N     | Status | Labeling Method                                                  |
-|---------------------------------------|-------|--------|------------------------------------------------------------------|
-| English Newspaper                     | 5912  | Done   | BERT (MyPoliBERT-ver03 was used)                                   |
-| English Newspaper Comments (Facebook) | 8471  | Done   | BERT                                                             |
-| Malay Newspaper                       | 5254  | Done   | OpenAI API (translated to English then classified)               |
-| Chinese Newspaper                     | 2480  | Done   | OpenAI API (translated to English then classified)               |
-| Tamil Newspaper                       | 1512  | Done   | OpenAI API (translated to English then classified)               |
-| Reddit                                | 20000 | Done   | BERT                                                             |
-| Manifesto BN                          | 98    | Done   | OpenAI API                                                       |
-| Manifesto PH                          | 180   | Done   | OpenAI API                                                       |
-| Manifesto PN                          | 15    | Done   | OpenAI API                                                       |
-| Synthetic Data                        | 4124  | Done   | OpenAI API                                                       |
 - **NOTE**: The originally aggregated dataset, which included data from various sources (such as English Newspapers, Facebook comments, Malay, Chinese, and Tamil Newspapers, Reddit, Manifestos, and Synthetic Data), contained some noise and misclassifications; after removing these noisy entries, 47,966 clean data points were used for training.

 The training data was aggregated from multiple sources:
+| Data Source                           | N     | Labeling Method                                                  |
+|---------------------------------------|-------|------------------------------------------------------------------|
+| English Newspaper                     | 5912  | BERT (MyPoliBERT-ver03 was used)                                 |
+| English Newspaper Comments (Facebook) | 8471  | BERT                                                             |
+| Malay Newspaper                       | 5254  | OpenAI API (translated to English then classified)               |
+| Chinese Newspaper                     | 2480  | OpenAI API (translated to English then classified)               |
+| Tamil Newspaper                       | 1512  | OpenAI API (translated to English then classified)               |
+| Reddit                                | 20000 | BERT (MyPoliBERT-ver03 was used)                                 |
+| Manifesto BN                          | 98    | OpenAI API                                                       |
+| Manifesto PH                          | 180   | OpenAI API                                                       |
+| Manifesto PN                          | 15    | OpenAI API                                                       |
+| Synthetic Data                        | 4124  | OpenAI API                                                       |
 - **NOTE**: The originally aggregated dataset, which included data from various sources (such as English Newspapers, Facebook comments, Malay, Chinese, and Tamil Newspapers, Reddit, Manifestos, and Synthetic Data), contained some noise and misclassifications; after removing these noisy entries, 47,966 clean data points were used for training.