Spaces:

intersteller2887
/

Turing-test-web

Sleeping

App Files Files Community

intersteller2887 commited on Jul 7, 2025

Commit

5a2951e

verified ·

1 Parent(s): 01f55b9

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -38

app.py CHANGED Viewed

@@ -10,25 +10,18 @@ dataset = load_dataset("intersteller2887/Turing-test-dataset", split="train")
 print(dataset[0])
-"""all_data_audio_paths = [
     item["audio"]["path"]
     for item in dataset
     if item["audio"] and "path" in item["audio"]
-]"""
-all_data_audio_data = [
-    (item["audio"]["array"], item["audio"]["sampling_rate"])
-    for item in dataset
-    if item["audio"] and "array" in item["audio"]
 ]
 """valid_audio_paths = [path for path in all_data_audio_paths if os.path.exists(path)]
 print(f"Total valid audio files: {len(valid_audio_paths)}")"""
-sample1_audio_data = all_data_audio_data[0]
-# sample1_audio_path = next((p for p in all_data_audio_paths if p.endswith("/home/user/.cache/huggingface/hub/datasets--intersteller2887--Turing-test-dataset/snapshots/5cd5dd6c5badbbce22a66b3b49c4224751b10375/data/bf_train_L2_T01_1_glm.wav")), None)
-# print(sample1_audio_path)
 # ==============================================================================
 # 数据定义 (Data Definition)
@@ -36,8 +29,7 @@ sample1_audio_data = all_data_audio_data[0]
 DIMENSIONS_DATA = [
     {
         "title": "语义和语用特征",
-        "audio": sample1_audio_data[0],
-        "rate": sample1_audio_data[1],
         "desc": "这是“语义和语用特征”维度的文本描述示例。",
         "sub_dims": [
             "记忆一致性：回应者是否能够正确并正确并延续并记忆并延续对话信息？是否存在对上下文的误解或不自洽？", "逻辑连贯性：回应者在语义与对话结构上保持前后一致、合乎逻辑？是否存在前后矛盾的情况？",
@@ -57,8 +49,7 @@ DIMENSIONS_DATA = [
     },
     {
         "title": "非生理性副语言特征",
-        "audio": sample1_audio_data[0],
-        "rate": sample1_audio_data[1],
         "desc": "这是“非生理性副语言特征”维度的文本描述示例。",
         "sub_dims": [
             "节奏：回应者是否存在自然的停顿？语速是否存在自然、流畅的变化？", "语调：在表达疑问、惊讶、强调时，回应者的音调是否会自然上扬或下降？是否表现出符合语境的变化？",
@@ -73,8 +64,7 @@ DIMENSIONS_DATA = [
     },
     {
         "title": "生理性副语言特征",
-        "audio": sample1_audio_data[0],
-        "rate": sample1_audio_data[1],
         "desc": "这是“生理性副语言特征”维度的文本描述示例。",
         "sub_dims": [
             "微生理杂音：回应中是否出现如呼吸声、口水音、气泡音等无意识发声？这些发声是否自然地穿插在恰当的语流节奏当中？",
@@ -88,8 +78,7 @@ DIMENSIONS_DATA = [
     },
     {
         "title": "机械人格",
-        "audio": sample1_audio_data[0],
-        "rate": sample1_audio_data[1],
         "desc": "这是“机械人格”维度的文本描述示例。",
         "sub_dims": [
             "谄媚现象：回应者是否频繁地赞同用户、重复用户的说法、不断表示感谢或道歉？是否存在“无论用户说什么都肯定或支持”的语气模式？",
@@ -102,8 +91,7 @@ DIMENSIONS_DATA = [
     },
     {
         "title": "情感表达",
-        "audio": sample1_audio_data[0],
-        "rate": sample1_audio_data[1],
         "desc": "这是“情感表达”维度的文本描述示例。",
         "sub_dims": [
             "语义层面：回应者的语言内容是否体现出符合上下文的情绪反应？是否表达了人类对某些情境应有的情感态度？",
@@ -119,19 +107,12 @@ DIMENSIONS_DATA = [
 DIMENSION_TITLES = [d["title"] for d in DIMENSIONS_DATA]
 random.seed()
-selected_audio_data = random.sample(all_data_audio_data, 5)
-QUESTION_SET = [
-    {"audio": data[0], "rate": data[1], "desc": f"这是一个测试音频"}
-    for data in selected_audio_data
-]
-"""selected_audio_paths = random.sample(all_data_audio_paths, 5)
 QUESTION_SET = [
     {"audio": path, "desc": f"这是音频文件 {os.path.basename(path)} 的描述"}
     for path in selected_audio_paths
-]"""
 """QUESTION_SET = [
     {"audio": "data/Ses02F_impro01.wav", "desc": "这是第一个测试文件的描述",},
@@ -168,8 +149,7 @@ def update_sample_view(dimension_title):
     dim_data = next((d for d in DIMENSIONS_DATA if d["title"] == dimension_title), None)
     if dim_data:
         return (
-            # gr.update(value=dim_data["audio"]),
-            gr.update(value=(dim_data["audio"], dim_data["rate"])),
             gr.update(value=dim_data["desc"]),
             gr.update(choices=dim_data["sub_dims"], value=[], interactive=True),
             gr.update(value=dim_data["reference"])
@@ -216,8 +196,7 @@ def init_test_question(user_data, q_idx):
         q_idx, d_idx, {},
         gr.update(value=progress_q),
         dim_title_update,
-        gr.update(value=(question['audio'], question['rate'])),
-        # gr.update(value=question['audio']),
         gr.update(value=question['desc']),
         prev_btn_update,
         next_btn_update,
@@ -270,9 +249,7 @@ def submit_question_and_advance(q_idx, d_idx, selections, final_choice, all_resu
     selections["final_choice"] = final_choice
     final_question_result = {
-        "question_id": q_idx,
-        "audio_array": QUESTION_SET[q_idx]['audio'].tolist(),   # numpy -> list
-        "sampling_rate": QUESTION_SET[q_idx]['rate'],
         "user_data": user_data, "selections": selections
     }
     all_results.append(final_question_result)
@@ -285,8 +262,7 @@ def submit_question_and_advance(q_idx, d_idx, selections, final_choice, all_resu
     else:
         result_str = "### 测试全部完成！\n\n你的提交结果概览：\n"
         for res in all_results:
-            result_str += f"\n#### 题目: 音频 {res['question_id']}（{len(res['audio_array'])} samples @ {res['sampling_rate']} Hz）\n"
-            # result_str += f"\n#### 题目: {res['audio_file']}\n"
             result_str += f"##### 最终判断: **{res['selections'].get('final_choice', '未选择')}**\n"
             for dim_title, dim_data in res['selections'].items():
                 if dim_title == 'final_choice': continue

 print(dataset[0])
+all_data_audio_paths = [
     item["audio"]["path"]
     for item in dataset
     if item["audio"] and "path" in item["audio"]
 ]
 """valid_audio_paths = [path for path in all_data_audio_paths if os.path.exists(path)]
 print(f"Total valid audio files: {len(valid_audio_paths)}")"""
+sample1_audio_path = next((p for p in all_data_audio_paths if p.endswith("/home/user/.cache/huggingface/hub/datasets--intersteller2887--Turing-test-dataset/snapshots/5cd5dd6c5badbbce22a66b3b49c4224751b10375/data/bf_train_L2_T01_1_glm.wav")), None)
+print(sample1_audio_path)
 # ==============================================================================
 # 数据定义 (Data Definition)
 DIMENSIONS_DATA = [
     {
         "title": "语义和语用特征",
+        "audio": sample1_audio_path,
         "desc": "这是“语义和语用特征”维度的文本描述示例。",
         "sub_dims": [
             "记忆一致性：回应者是否能够正确并正确并延续并记忆并延续对话信息？是否存在对上下文的误解或不自洽？", "逻辑连贯性：回应者在语义与对话结构上保持前后一致、合乎逻辑？是否存在前后矛盾的情况？",
     },
     {
         "title": "非生理性副语言特征",
+        "audio": sample1_audio_path,
         "desc": "这是“非生理性副语言特征”维度的文本描述示例。",
         "sub_dims": [
             "节奏：回应者是否存在自然的停顿？语速是否存在自然、流畅的变化？", "语调：在表达疑问、惊讶、强调时，回应者的音调是否会自然上扬或下降？是否表现出符合语境的变化？",
     },
     {
         "title": "生理性副语言特征",
+        "audio": sample1_audio_path,
         "desc": "这是“生理性副语言特征”维度的文本描述示例。",
         "sub_dims": [
             "微生理杂音：回应中是否出现如呼吸声、口水音、气泡音等无意识发声？这些发声是否自然地穿插在恰当的语流节奏当中？",
     },
     {
         "title": "机械人格",
+        "audio": sample1_audio_path,
         "desc": "这是“机械人格”维度的文本描述示例。",
         "sub_dims": [
             "谄媚现象：回应者是否频繁地赞同用户、重复用户的说法、不断表示感谢或道歉？是否存在“无论用户说什么都肯定或支持”的语气模式？",
     },
     {
         "title": "情感表达",
+        "audio": sample1_audio_path,
         "desc": "这是“情感表达”维度的文本描述示例。",
         "sub_dims": [
             "语义层面：回应者的语言内容是否体现出符合上下文的情绪反应？是否表达了人类对某些情境应有的情感态度？",
 DIMENSION_TITLES = [d["title"] for d in DIMENSIONS_DATA]
 random.seed()
+selected_audio_paths = random.sample(all_data_audio_paths, 5)
 QUESTION_SET = [
     {"audio": path, "desc": f"这是音频文件 {os.path.basename(path)} 的描述"}
     for path in selected_audio_paths
+]
 """QUESTION_SET = [
     {"audio": "data/Ses02F_impro01.wav", "desc": "这是第一个测试文件的描述",},
     dim_data = next((d for d in DIMENSIONS_DATA if d["title"] == dimension_title), None)
     if dim_data:
         return (
+            gr.update(value=dim_data["audio"]),
             gr.update(value=dim_data["desc"]),
             gr.update(choices=dim_data["sub_dims"], value=[], interactive=True),
             gr.update(value=dim_data["reference"])
         q_idx, d_idx, {},
         gr.update(value=progress_q),
         dim_title_update,
+        gr.update(value=question['audio']),
         gr.update(value=question['desc']),
         prev_btn_update,
         next_btn_update,
     selections["final_choice"] = final_choice
     final_question_result = {
+        "question_id": q_idx, "audio_file": QUESTION_SET[q_idx]['audio'],
         "user_data": user_data, "selections": selections
     }
     all_results.append(final_question_result)
     else:
         result_str = "### 测试全部完成！\n\n你的提交结果概览：\n"
         for res in all_results:
+            result_str += f"\n#### 题目: {res['audio_file']}\n"
             result_str += f"##### 最终判断: **{res['selections'].get('final_choice', '未选择')}**\n"
             for dim_title, dim_data in res['selections'].items():
                 if dim_title == 'final_choice': continue