Spaces:

wt3639
/

Course_rec

Paused

App Files Files Community

Tao Wu commited on Jun 27, 2024

Commit

22f807c

1 Parent(s): 381ef72

add explanation

Browse files

Files changed (2) hide show

app/app.py +27 -3
app/embedding_setup.py +67 -3

app/app.py CHANGED Viewed

@@ -5,8 +5,8 @@ import json
 import requests
 from config import *
 import functools
-from embedding_setup import retriever, find_similar_occupation, evaluate, compare_docs_with_context
-from data_process import build_skill_query, get_occupations_from_csv, get_courses_from_BA, get_occupation_detial, build_occupation_query
 with open('/app/data/redis_data.json', 'r') as file:
     data_dict = json.load(file)
 #r = redis.Redis(host=REDIS_HOST, port=REDIS_PORT, db=REDIS_DB, decode_responses=True)
@@ -40,12 +40,36 @@ def retrieve_documents(occupation,skills):
     sorted_docs = sorted(docs, key=functools.cmp_to_key(partial_compare_docs), reverse=True)
     output.append(f"<b>Qualifikationslücke:</b> {skill_query}")
     output.append(f"<b>Empfohlene Kurse:</b>")
-    for doc in sorted_docs:
         doc_name = doc.metadata.get('name', 'Unnamed Document')
         doc_url = doc.metadata.get('url', '#')
         output.append(f"<a href='{doc_url}' target='_blank'>{doc_name}</a>")
     output.append(f"<br>")
     return "<br>".join(output)

 import requests
 from config import *
 import functools
+from embedding_setup import retriever, find_similar_occupation, compare_docs_with_context,generate_exp,generate_prompt_exp
+from data_process import  get_occupations_from_csv, get_courses_from_BA, get_occupation_detial, build_occupation_query
 with open('/app/data/redis_data.json', 'r') as file:
     data_dict = json.load(file)
 #r = redis.Redis(host=REDIS_HOST, port=REDIS_PORT, db=REDIS_DB, decode_responses=True)
     sorted_docs = sorted(docs, key=functools.cmp_to_key(partial_compare_docs), reverse=True)
+    batch_prompts = []
+    for doc in sorted_docs[:5]:
+        doc_name = doc.metadata.get('name', 'Unnamed Document')
+        doc_skill = doc.metadata.get('skills', '')
+        output.append(f"<a href='{doc_url}' target='_blank'>{doc_name}</a>")
+        input_text = f"target occupation: {target_occupation_query}\n courses: name: {doc_name}, learning objectives: {doc_skill}"
+        prompt = generate_prompt_exp(input_text)
+        batch_prompts.append(prompt)
+    # Evaluate the current batch of prompts
+    batch_output = generate_exp(batch_prompts)
+    for i in range(5):
+        doc = sorted_docs[i]
+        doc_name = doc.metadata.get('name', 'Unnamed Document')
+        doc_url = doc.metadata.get('url', '#')
+        doc_skill = doc.metadata.get('skills', '')
+        output.append(f"<a href='{doc_url}' target='_blank'>{doc_name}</a>")
+        output.append(f"<b>Recommendation Explanation:</b> {batch_output[i]}")
     output.append(f"<b>Qualifikationslücke:</b> {skill_query}")
     output.append(f"<b>Empfohlene Kurse:</b>")
+    for doc in sorted_docs[:5]:
         doc_name = doc.metadata.get('name', 'Unnamed Document')
         doc_url = doc.metadata.get('url', '#')
         output.append(f"<a href='{doc_url}' target='_blank'>{doc_name}</a>")
+        input_text = f"target occupation: {target_occupation_query}\n courses: name: {doc_name['course_name']}, learning objectives: {doc_name['skills']}"
+        prompt = generate_prompt_exp(input_text)
+        batch_prompts.append(prompt)
     output.append(f"<br>")
     return "<br>".join(output)

app/embedding_setup.py CHANGED Viewed

@@ -31,8 +31,8 @@ retriever = db.as_retriever(search_kwargs={"k": TOP_K})
 LLM_MODEL = "meta-llama/Meta-Llama-3-8B-Instruct"
-lora_weights = "wt3639/Llama-3-8B-Instruct_CourseRec_lora"
 hf_auth  = os.environ.get("hf_token")
@@ -53,11 +53,12 @@ model = AutoModelForCausalLM.from_pretrained(
 rec_adapter = PeftModel.from_pretrained(
             model,
-            lora_weights,
             torch_dtype=torch.float16,
             device_map={'': 0}
         )
 tokenizer.padding_side = "left"
     # unwind broken decapoda-research config
 #model.half()  # seems to fix bugs for some users.
@@ -67,6 +68,8 @@ rec_adapter.config.pad_token_id = tokenizer.pad_token_id = 0  # unk
 rec_adapter.config.bos_token_id = 1
 rec_adapter.config.eos_token_id = 2
 def generate_prompt(target_occupation, skill_gap, courses):
     return f"""
 ### Instruction:
@@ -147,6 +150,67 @@ def compare_docs_with_context(doc_a, doc_b, df_course, target_occupation_name, t
     else:
         return 0  # Consider them equal if the response is unclear
 def find_similar_occupation(target_occupation_query, berufe, top_k, similarity_func):
     # Pro kurs wird ein Document erstellt. Dieses enthält Metadaten sowie einen page_content.

 LLM_MODEL = "meta-llama/Meta-Llama-3-8B-Instruct"
+lora_weights_rec = "wt3639/Llama-3-8B-Instruct_CourseRec_lora"
+lora_weights_exp = "wt3639/Llama-3-8B-Instruct_RecExp_lora"
 hf_auth  = os.environ.get("hf_token")
 rec_adapter = PeftModel.from_pretrained(
             model,
+            lora_weights_rec,
             torch_dtype=torch.float16,
             device_map={'': 0}
         )
 tokenizer.padding_side = "left"
     # unwind broken decapoda-research config
 #model.half()  # seems to fix bugs for some users.
 rec_adapter.config.bos_token_id = 1
 rec_adapter.config.eos_token_id = 2
 def generate_prompt(target_occupation, skill_gap, courses):
     return f"""
 ### Instruction:
     else:
         return 0  # Consider them equal if the response is unclear
+#-----------------------------------------explanation-------------------------------------
+exp_adapter = PeftModel.from_pretrained(
+            model,
+            lora_weights_exp,
+            torch_dtype=torch.float16,
+            device_map={'': 0}
+        )
+exp_adapter.eval()
+exp_adapter.config.pad_token_id = tokenizer.pad_token_id = 0  # unk
+exp_adapter.config.bos_token_id = 1
+exp_adapter.config.eos_token_id = 2
+def generate_prompt_exp(input_text):
+    return f"""
+### Instruction:
+As an education expert, you have been provided with target occupations and recommended course information. Your task is to explain the recommendation in German.
+### Input:
+{input_text}
+### Response:
+"""
+def generate_exp(
+        prompt=None,
+        temperature=0,
+        top_p=1.0,
+        top_k=40,
+        num_beams=1,
+        max_new_tokens=140,
+        batch_size=1,
+        **kwargs,
+    ):
+        inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(device)
+        generation_config = GenerationConfig(
+            temperature=temperature,
+            top_p=top_p,
+            top_k=top_k,
+            num_beams=num_beams,
+            **kwargs,
+        )
+        with torch.no_grad():
+            generation_output = model.generate(
+                **inputs,
+                generation_config=generation_config,
+                return_dict_in_generate=True,
+                output_scores=True,
+                max_new_tokens=max_new_tokens,
+                # batch_size=batch_size,
+                eos_token_id=tokenizer.eos_token_id,
+                pad_token_id=tokenizer.eos_token_id,
+            )
+        s = generation_output.sequences
+        output = tokenizer.batch_decode(s, skip_special_tokens=True)
+        output = [_.split('Response:\n')[-1] for _ in output]
+        return output
 def find_similar_occupation(target_occupation_query, berufe, top_k, similarity_func):
     # Pro kurs wird ein Document erstellt. Dieses enthält Metadaten sowie einen page_content.