Trina-QwQ commited on
Commit
02ff858
·
verified ·
1 Parent(s): 8d64bbe

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -1
README.md CHANGED
@@ -25,6 +25,15 @@ WT-Copilot
25
 
26
  ---
27
 
28
- WT-Copilot是一个创造**性**写作(creative writing)行内补齐模型。
 
29
 
 
30
 
 
 
 
 
 
 
 
 
25
 
26
  ---
27
 
28
+ WT-Copilot是一个创造**性**写作(creative writing)行内补齐模型。
29
+ 可以使用llama.cpp或者其他gguf友好的客户端进行推理。例如:https://github.com/ggml-org/llama.cpp/releases/
30
 
31
+ ![image](https://cdn-uploads.huggingface.co/production/uploads/694b6e80de3fb72dd3113e02/YvxbqjYvZ6EqyHqhWC3Tk.png)
32
 
33
+ 使用8GB显存(虽然大概率只占用1GB)的GT-580大约能取得5tops的输出,足以满足流畅写作的需要。原则上核显可以跑,但是纯CPU(例如intel-KF)最好不要尝试。
34
+
35
+
36
+ ---
37
+
38
+
39
+ WT-Copilot 的训练流程以领域内网络小说为核心数据来源。我们首先从公开可访问的网络小说中抓取大量连续叙事文本,这些文本以章节级结构、强风格化描写和高密度情绪表达为主要特征。由于原始网络小说数据噪声较高,在进入训练流程前会经过系统性的预处理与清洗,包括去除网页残留信息、广告文本、无关符号与明显损坏的段落,同时统一段落与标点结构,以保证文本在行文层面具备连续性与可读性。清洗后的数据会被进一步切分为适合行内补齐(inline completion)的训练样本,而非对话或问答格式。在完成数据准备后,模型会在该领域数据上进行预训练,以强化对长文本延续、语气稳定性与文学风格一致性的建模能力。在实际训练过程中我们发现,本领域网络小说文本普遍缺乏明确的文本指令或任务描述,传统的指令微调方式不仅收益有限,反而可能破坏模型的行文能力。因此 WT-Copilot 并未采用以指令为中心的对齐范式,而是选择以风格为核心的训练路径。为此我们引入了 SSFT(Style Supervised Fine-Tuning)与强化学习相结合的方法。具体而言,通过少量人工标注的高质量样本训练出一个用于风格与文本质量评估的模型,该评估模型会对主模型在大量、成分复杂且包含噪声的训练样本上的输出进行打分与筛选。主模型在此过程中并不是学习如何遵循指令,而是学习哪些行文方式更符合目标风格,并在强化学习阶段进一步放大这些写作特征。这种训练方式的核心目标是最大化文本的自然度、表现力与整体完成度,而非通用性或可控性。这种方法带来的直接结果是,WT-Copilot 在续写、改写以及行内补齐等创作型任务上具备极为突出的表现,生成文本在风格一致性与文学表现力方面明显优于常规通用模型。但与此同时,由于模型在训练过程中几乎未针对推理、对话或复杂指令进行优化,其推理能力与多轮对话能力基本丧失,在人名替换、实体对齐等指令跟随场景中表现尤为薄弱,且在部分情况下可能出现文本循环等问题。这些现象并非缺陷,而是该训练方法在明确取舍下的自然结果,也意味着 WT-Copilot 被明确设计为一个非对话、非通用用途的创造性写作行内补齐模型。