F-Haru
/

WMT_Metrics_da_data

Model card Files Files and versions

xet

Community

F-Haru commited on Aug 18, 2023

Commit

1bc94fa

1 Parent(s): f31434a

Update metrics_finetuning_student.py

Browse files

Files changed (1) hide show

metrics_finetuning_student.py +22 -28

metrics_finetuning_student.py CHANGED Viewed

@@ -1,10 +1,5 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
-"""
-Created on Thu Aug 17 14:12:16 2023
-@author: fujidai
-"""
 import torch
@@ -23,12 +18,11 @@ from sentence_transformers import SentenceTransformer, util
 word_embedding_model = models.Transformer('/paraphrase-multilingual-mpnet-base-v2', max_seq_length=512)# modelの指定をする
 pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
-#dense_model = models.Dense(in_features=pooling_model.get_sentence_embedding_dimension(),out_features=16)
 model = SentenceTransformer(modules=[word_embedding_model, pooling_model],device='mps')
 print(model)
-with open('/da_seikika.txt', 'r') as f:#Negative en-ja cos_sim
     raberu = f.read()
 raberu_lines = raberu.splitlines()#改行コードごとにリストに入れている
@@ -39,47 +33,51 @@ for i in range(len(raberu_lines)):
-with open('/src.txt', 'r') as f:#TEDのenglish
     left = f.read()
 left_lines = left.splitlines()
-with open('/trg.txt', 'r') as f:#pseudo japanese (TEDのenglishをgoogle翻訳に入れた疑似コーパス)
     right = f.read()
 right_lines = right.splitlines()#改行コードごとにリストに入れている
 train_examples = []
 for i in range(len(left_lines)):
     pair=[]
     pair.append(left_lines[i])#left_lines側のi行目をtextsに追加している
     pair.append(right_lines[i])#right_lines側のi行目をtextsに追加している
-    example = InputExample(texts=pair, label=data[i])#textsをラベル付きで追加している
-    #print(example)#
-    #label=1-data[i]の１は positive cos_sim
-    #if aq>=0.25:
     train_examples.append(example)#学習として入れるものに入れている
 print(len(train_examples))
 device = torch.device('mps')
-#print(device)
 import torch.nn.functional as F
 train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=8)
-#train_loss = losses.MarginMSELoss(model=model,similarity_fct=F.cosine_similarity)
-train_loss = losses.CosineSimilarityLoss(model)
 #Tune the model
 model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=100, warmup_steps=100,show_progress_bar=True,
-          #output_path='完成2best-6-30',
-          checkpoint_path='checkpoint-savename',checkpoint_save_steps=6699,#どのくらいのイテレーションごとに保存するか
-          save_best_model=True#,#,#checkpoint_save_total_limit=5
-          #optimizer_params= {'lr': 2e-6}#
           )
 model.save("savename")
@@ -87,16 +85,12 @@ model.save("savename")

 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 import torch
 word_embedding_model = models.Transformer('/paraphrase-multilingual-mpnet-base-v2', max_seq_length=512)# modelの指定をする
 pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
 model = SentenceTransformer(modules=[word_embedding_model, pooling_model],device='mps')
 print(model)
+with open('/da_seikika.txt', 'r') as f:#dascoreを正規化したもの
     raberu = f.read()
 raberu_lines = raberu.splitlines()#改行コードごとにリストに入れている
+with open('/src.txt', 'r') as f:#ソース
     left = f.read()
 left_lines = left.splitlines()
+with open('/ref.txt', 'r') as f:#リファレンス
+    senter = f.read()
+senter_lines = senter.splitlines()
+with open('/trg.txt', 'r') as f:#ターゲット
     right = f.read()
 right_lines = right.splitlines()#改行コードごとにリストに入れている
 train_examples = []
 for i in range(len(left_lines)):
     pair=[]
     pair.append(left_lines[i])#left_lines側のi行目をtextsに追加している
+    pair.append(senter_lines[i])
     pair.append(right_lines[i])#right_lines側のi行目をtextsに追加している
+    absolutely=abs(1-data[i])#　１ーdascoreの数値を絶対値を付けている
+    example = InputExample(texts=pair, label=absolutely)#textsをラベル付きで追加している
     train_examples.append(example)#学習として入れるものに入れている
 print(len(train_examples))
 device = torch.device('mps')
 import torch.nn.functional as F
 train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=8)
+train_loss = losses.MarginMSELoss(model=model,similarity_fct=F.cosine_similarity)
 #Tune the model
 model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=100, warmup_steps=100,show_progress_bar=True,
+          checkpoint_path='checkpoint-savename',
+          checkpoint_save_steps=6699,#どのくらいのイテレーションごとに保存するか
+          save_best_model=True,
           )
 model.save("savename")
+'''
+'''