Update README.md
Browse files
README.md
CHANGED
|
@@ -15,17 +15,20 @@ pipeline_tag: text-generation
|
|
| 15 |
# 夫子•明察司法大模型
|
| 16 |
|
| 17 |
## 模型简介
|
| 18 |
-
|
|
|
|
| 19 |
|
| 20 |
夫子•明察司法大模型具备如下三大特色:
|
| 21 |
-
- **基于法条检索回复** 夫子•明察大模型能够
|
| 22 |
|
| 23 |
-
- **基于案例检索回复** 夫子•明察大模型能够基于历史相似案例
|
| 24 |
|
| 25 |
- **三段论推理判决** 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。
|
| 26 |
|
|
|
|
| 27 |
## 训练数据
|
| 28 |
-
|
|
|
|
| 29 |
|
| 30 |
以下为夫子·明察司法大模型增量预训练、指令微调过程中所使用数据的统计信息:
|
| 31 |
|
|
@@ -60,7 +63,7 @@ pipeline_tag: text-generation
|
|
| 60 |
|
| 61 |
</tr>
|
| 62 |
<tr>
|
| 63 |
-
<td class="tg-c3ow" rowspan="7">有监督司法
|
| 64 |
<td class="tg-9wq8" rowspan="3">法条检索回复数据</td>
|
| 65 |
<td class="tg-c3ow">自主构建</td>
|
| 66 |
<td class="tg-9wq8">32k</td>
|
|
@@ -126,7 +129,7 @@ pipeline_tag: text-generation
|
|
| 126 |
{
|
| 127 |
"instruction": "请补充以下法条缺失部分",
|
| 128 |
"input": "高等教育自学考试暂行条例第十七条规定:\n高等教育自学考试的命题由全国考委统筹安排,分别采取全国统一命题、区域命题、省级命题三种办法",
|
| 129 |
-
"output": "
|
| 130 |
},
|
| 131 |
# 根据案情生成相关法条
|
| 132 |
{
|
|
@@ -163,10 +166,41 @@ pipeline_tag: text-generation
|
|
| 163 |
},
|
| 164 |
```
|
| 165 |
|
|
|
|
| 166 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 167 |
|
|
|
|
| 168 |
|
| 169 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 170 |
|
| 171 |
<details>
|
| 172 |
<summary><b>法律咨询</b></summary>
|
|
@@ -176,7 +210,7 @@ pipeline_tag: text-generation
|
|
| 176 |
| :--------: | -- |
|
| 177 |
| 夫子•明察<br>(模型直接回复) | 政府公务员不能成为企业合伙人,因为政府公务员的职责是为人民服务,而不是为自己谋取利益。在企业合伙过程中,政府公务员不能利用自己的职权和影响力来干预企业的经营管理,也不能参与企业的利润分配。如果政府公务员想要成为企业合伙人,需要符合相关法律法规的规定,取得相应的资格和条件。 |
|
| 178 |
| 夫子•明察<br>(经过法条检索) | 不可以。根据《中华人民共和国合伙企业法》第九条规定,申请设立合伙企业时,应当向企业登记机关提交登记申请书、合伙协议书、合伙人身份证明等文件。其中,合伙人为国家机关工作人员的,应当提交其职务证明文件,并注明其委派代表的职务。因此,政府公务员不能成为企业合伙人。 |
|
| 179 |
-
| 其他法律模型 | 根据《中华人民共和国公务员法》规定,公务员离开原任职务后,可以在一定期限内从事与原任职务有关的工作,但不得利用原任职务或者职权从事营利活动。因此,政府公务员可以成为企业合伙人,但必须符合上述规定,不能利用原任职务或职权从事营利活动。|
|
| 180 |
| ChatGLM | 公务员不可以成为企业合伙人,因为公务员身份和职业责任不允许从事营利性活动,包括成为企业合伙人。根据《公务员法》的规定,公务员必须履行工作职责,同时遵守职业道德和职业操守,不得从事与工作无关的活动,也不得利用职务之便谋取私利。公务员之间也不得建立商业关系或者成为合伙人。公务员成为企业合伙人可能会违反法律法规,不仅会影响公务员的形象和信誉,也会损害政府的公信力和形象。因此,政府公务员不得成为企业合伙人。|
|
| 181 |
</details>
|
| 182 |
|
|
@@ -213,7 +247,7 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
|
|
| 213 |
|
| 214 |
## 代码调用
|
| 215 |
|
| 216 |
-
可以通过如下代码调用
|
| 217 |
|
| 218 |
```ipython
|
| 219 |
>>> from transformers import AutoTokenizer, AutoModel
|
|
@@ -231,6 +265,7 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
|
|
| 231 |
|
| 232 |
请参考 [GitHub 仓库](https://github.com/irlab-sdu/fuzi.mingcha)
|
| 233 |
|
|
|
|
| 234 |
## 致谢
|
| 235 |
|
| 236 |
本项目基于如下开源项目展开,在此对相关项目和开发人员表示感谢:
|
|
@@ -242,16 +277,15 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
|
|
| 242 |
|
| 243 |
|
| 244 |
## 声明
|
|
|
|
| 245 |
本项目的内容仅供学术研究之用,不得用于商业或其他可能对社会造成危害的用途。
|
| 246 |
在涉及第三方代码的使用时,请切实遵守相关的开源协议。
|
| 247 |
本项目中大模型提供的法律问答、判决预测等功能仅供参考,不构成法律意见。
|
| 248 |
如果您需要法律援助等服务,请寻求专业的法律从业者的帮助。
|
| 249 |
|
| 250 |
-
|
| 251 |
## 协议
|
| 252 |
|
| 253 |
-
本仓库的代码依照 Apache-2.0 协议开源,我们对 ChatGLM-6B 模型的权重的使用遵循 [Model License](https://github.com/THUDM/ChatGLM-6B/blob/main/MODEL_LICENSE)。
|
| 254 |
-
|
| 255 |
|
| 256 |
## 引用
|
| 257 |
|
|
@@ -265,4 +299,4 @@ pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels
|
|
| 265 |
journal={GitHub repository},
|
| 266 |
howpublished={\url{https://github.com/irlab-sdu/fuzi.mingcha}},
|
| 267 |
}
|
| 268 |
-
```
|
|
|
|
| 15 |
# 夫子•明察司法大模型
|
| 16 |
|
| 17 |
## 模型简介
|
| 18 |
+
|
| 19 |
+
夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 [ChatGLM](https://github.com/THUDM/ChatGLM-6B) 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。
|
| 20 |
|
| 21 |
夫子•明察司法大模型具备如下三大特色:
|
| 22 |
+
- **基于法条检索回复** 夫子•明察大模型能够结合相关法条进行回复生成。对于用户的咨询,夫子•明察大模型基于生成式检索范式先初步引用相关法条,再检索外部知识库对所引法条进行校验与确认,最终结合这些法条进行问题分析与回复生成。这保证生成的回复能够基于与问题相关的法律依据,并根据这些依据提供深入的分析和建议,使回复具有高权威性、高可靠性与高可信性。
|
| 23 |
|
| 24 |
+
- **基于案例检索回复** 夫子•明察大模型能够基于历史相似案例对输入案情进行分析。大模型能够生成与用户提供的案情相似的案情描述及判决结果,通过检索外部数据库得到真实的历史案例,并将这些相似的历史案例的信息用于辅助生成判决。生成的判决参考相关案例的法律依据,从而更加合理。用户可以对照相似案例,从而更好地理解潜在的法律风险。
|
| 25 |
|
| 26 |
- **三段论推理判决** 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。
|
| 27 |
|
| 28 |
+
|
| 29 |
## 训练数据
|
| 30 |
+
|
| 31 |
+
夫子•明察司法大模型的训练数据可分为两大类别:中文无监督司法语料以及有监督司法微调数据。其中不仅涵盖法律法规、司法解释、判决文书等内容,同时还包括各类高质量司法任务数据集,例如法律问答、类案检索和三段论式法律判决。内容丰富、优质海量的训练数据,确保了对司法领域知识进行准确且全面的覆盖,为夫子•明察司法大模型提供坚实的知识基础。
|
| 32 |
|
| 33 |
以下为夫子·明察司法大模型增量预训练、指令微调过程中所使用数据的统计信息:
|
| 34 |
|
|
|
|
| 63 |
|
| 64 |
</tr>
|
| 65 |
<tr>
|
| 66 |
+
<td class="tg-c3ow" rowspan="7">中文有监督司法微调数据</td>
|
| 67 |
<td class="tg-9wq8" rowspan="3">法条检索回复数据</td>
|
| 68 |
<td class="tg-c3ow">自主构建</td>
|
| 69 |
<td class="tg-9wq8">32k</td>
|
|
|
|
| 129 |
{
|
| 130 |
"instruction": "请补充以下法条缺失部分",
|
| 131 |
"input": "高等教育自学考试暂行条例第十七条规定:\n高等教育自学考试的命题由全国考委统筹安排,分别采取全国统一命题、区域命题、省级命题三种办法",
|
| 132 |
+
"output": "逐步建立题库,实现必要的命题标准化。\n试题(包括副题)及参考答案、评分标准启用前属绝密材料。"
|
| 133 |
},
|
| 134 |
# 根据案情生成相关法条
|
| 135 |
{
|
|
|
|
| 166 |
},
|
| 167 |
```
|
| 168 |
|
| 169 |
+
注:其中我们自主构建的数据集,如三段论推理判决数据集等,将会在近期以论文的形式公开,感谢您的关注和理解。
|
| 170 |
|
| 171 |
+
## 效果展示
|
| 172 |
+
以下为夫子·明察三大特色的效果展示:<br>
|
| 173 |
+
<details>
|
| 174 |
+
<summary><b>基于法条检索回复</b></summary>
|
| 175 |
+
|
| 176 |
+

|
| 177 |
+

|
| 178 |
|
| 179 |
+
</details>
|
| 180 |
|
| 181 |
+
|
| 182 |
+
<details>
|
| 183 |
+
<summary><b>基于案例检索回复</b></summary>
|
| 184 |
+
|
| 185 |
+

|
| 186 |
+
|
| 187 |
+
</details>
|
| 188 |
+
|
| 189 |
+
|
| 190 |
+
<details>
|
| 191 |
+
<summary><b>三段论推理判决</b></summary>
|
| 192 |
+
|
| 193 |
+

|
| 194 |
+

|
| 195 |
+

|
| 196 |
+

|
| 197 |
+

|
| 198 |
+
|
| 199 |
+
</details>
|
| 200 |
+
|
| 201 |
+
|
| 202 |
+
|
| 203 |
+
<br>以下为夫子·明察与其他法律大模型、ChatGLM的效果对比:<br>
|
| 204 |
|
| 205 |
<details>
|
| 206 |
<summary><b>法律咨询</b></summary>
|
|
|
|
| 210 |
| :--------: | -- |
|
| 211 |
| 夫子•明察<br>(模型直接回复) | 政府公务员不能成为企业合伙人,因为政府公务员的职责是为人民服务,而不是为自己谋取利益。在企业合伙过程中,政府公务员不能利用自己的职权和影响力来干预企业的经营管理,也不能参与企业的利润分配。如果政府公务员想要成为企业合伙人,需要符合相关法律法规的规定,取得相应的资格和条件。 |
|
| 212 |
| 夫子•明察<br>(经过法条检索) | 不可以。根据《中华人民共和国合伙企业法》第九条规定,申请设立合伙企业时,应当向企业登记机关提交登记申请书、合伙协议书、合伙人身份证明等文件。其中,合伙人为国家机关工作人员的,应当提交其职务证明文件,并注明其委派代表的职务。因此,政府公务员不能成为企业合伙人。 |
|
| 213 |
+
| 其他法律模型 | 根据《中华人民共和国公务员法》第X条规定,公务员离开原任职务后,可以在一定期限内从事与原任职务有关的工作,但不得利用原任职务或者职权从事营利活动。因此,政府公务员可以成为企业合伙人,但必须符合上述规定,不能利用原任职务或职权从事营利活动。|
|
| 214 |
| ChatGLM | 公务员不可以成为企业合伙人,因为公务员身份和职业责任不允许从事营利性活动,包括成为企业合伙人。根据《公务员法》的规定,公务员必须履行工作职责,同时遵守职业道德和职业操守,不得从事与工作无关的活动,也不得利用职务之便谋取私利。公务员之间也不得建立商业关系或者成为合伙人。公务员成为企业合伙人可能会违反法律法规,不仅会影响公务员的形象和信誉,也会损害政府的公信力和形象。因此,政府公务员不得成为企业合伙人。|
|
| 215 |
</details>
|
| 216 |
|
|
|
|
| 247 |
|
| 248 |
## 代码调用
|
| 249 |
|
| 250 |
+
可以通过如下代码调用夫子•明察模型来生成对话:
|
| 251 |
|
| 252 |
```ipython
|
| 253 |
>>> from transformers import AutoTokenizer, AutoModel
|
|
|
|
| 265 |
|
| 266 |
请参考 [GitHub 仓库](https://github.com/irlab-sdu/fuzi.mingcha)
|
| 267 |
|
| 268 |
+
|
| 269 |
## 致谢
|
| 270 |
|
| 271 |
本项目基于如下开源项目展开,在此对相关项目和开发人员表示感谢:
|
|
|
|
| 277 |
|
| 278 |
|
| 279 |
## 声明
|
| 280 |
+
|
| 281 |
本项目的内容仅供学术研究之用,不得用于商业或其他可能对社会造成危害的用途。
|
| 282 |
在涉及第三方代码的使用时,请切实遵守相关的开源协议。
|
| 283 |
本项目中大模型提供的法律问答、判决预测等功能仅供参考,不构成法律意见。
|
| 284 |
如果您需要法律援助等服务,请寻求专业的法律从业者的帮助。
|
| 285 |
|
|
|
|
| 286 |
## 协议
|
| 287 |
|
| 288 |
+
本仓库的代码依照 [Apache-2.0](LICENSE) 协议开源,我们对 ChatGLM-6B 模型的权重的使用遵循 [Model License](https://github.com/THUDM/ChatGLM-6B/blob/main/MODEL_LICENSE)。
|
|
|
|
| 289 |
|
| 290 |
## 引用
|
| 291 |
|
|
|
|
| 299 |
journal={GitHub repository},
|
| 300 |
howpublished={\url{https://github.com/irlab-sdu/fuzi.mingcha}},
|
| 301 |
}
|
| 302 |
+
```
|