bart-large-cnndm / README.md
ryusangwon's picture
Model save
c951a19 verified
metadata
license: apache-2.0
base_model: facebook/bart-large
tags:
  - generated_from_trainer
metrics:
  - rouge
model-index:
  - name: cnn_dailymail_726_bart-large
    results: []

cnn_dailymail_726_bart-large

This model is a fine-tuned version of facebook/bart-large on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 0.8412
  • Rouge1: 0.2469
  • Rouge2: 0.1266
  • Rougel: 0.2074
  • Rougelsum: 0.2332
  • Gen Len: 20.0

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 128
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 500
  • num_epochs: 10

Training results

Training Loss Epoch Step Validation Loss Rouge1 Rouge2 Rougel Rougelsum Gen Len
0.9706 0.22 500 0.9015 0.237 0.1181 0.1979 0.2232 19.9999
0.9212 0.45 1000 0.8771 0.237 0.1193 0.199 0.2233 20.0
0.8991 0.67 1500 0.8572 0.2443 0.1238 0.2045 0.2304 20.0
0.9085 0.89 2000 0.8519 0.2404 0.1227 0.2022 0.2269 20.0
0.8494 1.11 2500 0.8471 0.2437 0.1233 0.2041 0.2298 20.0
0.832 1.34 3000 0.8400 0.2438 0.1248 0.2055 0.2301 20.0
0.8522 1.56 3500 0.8393 0.2417 0.1242 0.2043 0.2283 20.0
0.8494 1.78 4000 0.8338 0.2436 0.1239 0.2047 0.23 19.9999
0.7729 2.01 4500 0.8332 0.2431 0.1253 0.2048 0.2298 20.0
0.7761 2.23 5000 0.8323 0.2477 0.1264 0.207 0.2335 19.9994
0.7788 2.45 5500 0.8277 0.2473 0.1259 0.2068 0.2333 20.0
0.7832 2.67 6000 0.8251 0.2453 0.126 0.2061 0.2317 20.0
0.7888 2.9 6500 0.8239 0.242 0.1241 0.2037 0.2287 20.0
0.7413 3.12 7000 0.8360 0.2394 0.1228 0.2017 0.2258 20.0
0.7438 3.34 7500 0.8283 0.2462 0.1267 0.2072 0.2326 19.9999
0.7271 3.57 8000 0.8275 0.2406 0.1235 0.2028 0.2276 20.0
0.7435 3.79 8500 0.8221 0.2451 0.1254 0.2055 0.2311 19.9998
0.7072 4.01 9000 0.8277 0.2437 0.1251 0.2049 0.2301 19.9999
0.708 4.24 9500 0.8270 0.2465 0.1263 0.2067 0.2325 19.9999
0.7058 4.46 10000 0.8279 0.2424 0.1249 0.2045 0.229 19.9999
0.6918 4.68 10500 0.8248 0.246 0.1259 0.2063 0.232 19.9998
0.7121 4.9 11000 0.8231 0.2457 0.126 0.2058 0.232 19.9999
0.6667 5.13 11500 0.8297 0.2458 0.1262 0.2066 0.2323 19.9996
0.6767 5.35 12000 0.8309 0.2469 0.1269 0.2071 0.2332 19.9996
0.6961 5.57 12500 0.8299 0.247 0.1271 0.2074 0.2333 20.0
0.6842 5.8 13000 0.8333 0.2473 0.127 0.2077 0.2336 19.9996
0.6485 6.02 13500 0.8360 0.2454 0.1259 0.2061 0.2316 19.9998
0.6651 6.24 14000 0.8349 0.2454 0.126 0.2062 0.2314 20.0
0.6483 6.46 14500 0.8331 0.2454 0.1258 0.2058 0.2316 20.0
0.6626 6.69 15000 0.8309 0.2468 0.127 0.2069 0.2328 19.9996
0.6675 6.91 15500 0.8337 0.2448 0.1255 0.2056 0.231 19.9999
0.6479 7.13 16000 0.8387 0.2471 0.1267 0.2074 0.2333 19.9999
0.6506 7.36 16500 0.8377 0.2474 0.1264 0.2071 0.2335 19.9999
0.643 7.58 17000 0.8369 0.2454 0.1259 0.2059 0.2318 20.0
0.6262 7.8 17500 0.8378 0.2466 0.1269 0.2071 0.233 19.9997
0.6235 8.02 18000 0.8415 0.2458 0.1266 0.2065 0.2321 20.0
0.6081 8.25 18500 0.8421 0.2465 0.1267 0.2069 0.2326 19.9997
0.6257 8.47 19000 0.8409 0.2477 0.1267 0.2075 0.2337 19.9999
0.6187 8.69 19500 0.8381 0.2459 0.1264 0.2066 0.2321 19.9997
0.6178 8.92 20000 0.8384 0.248 0.1273 0.2079 0.2339 19.9996
0.6018 9.14 20500 0.8432 0.2468 0.1265 0.2071 0.2329 20.0
0.6235 9.36 21000 0.8418 0.2469 0.1265 0.207 0.233 20.0
0.606 9.58 21500 0.8418 0.2464 0.1264 0.207 0.2327 19.9999
0.6016 9.81 22000 0.8412 0.2469 0.1266 0.2074 0.2332 20.0

Framework versions

  • Transformers 4.37.2
  • Pytorch 2.2.0+cu121
  • Datasets 2.16.1
  • Tokenizers 0.15.1