wang commited on Jun 26, 2025

Commit

verified ·

1 Parent(s): 8f317cc

Upload 404 files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +3 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/._README.md +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.gitignore +158 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/NamedEntityRecognization.iml +12 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/csv-plugin.xml +16 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/deployment.xml +14 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/inspectionProfiles/Project_Default.xml +178 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/inspectionProfiles/profiles_settings.xml +6 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/misc.xml +4 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/modules.xml +8 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/remote-mappings.xml +16 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/vcs.xml +6 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/webServers.xml +14 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/workspace.xml +256 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/README.md +340 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/config.cpython-310.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/config.cpython-37.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/config.cpython-38.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/evaluate.cpython-310.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/evaluate.cpython-37.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/evaluate.cpython-38.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/model.cpython-310.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/model.cpython-37.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/model.cpython-38.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/path.cpython-310.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/path.cpython-37.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/path.cpython-38.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/plot.cpython-310.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/plot.cpython-37.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/plot.cpython-38.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/predict.cpython-37.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/preprocess.cpython-310.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/preprocess.cpython-37.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/preprocess.cpython-38.pyc +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/calc_bert_matrix.ipynb +534 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/config.py +9 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/cudnn-7.6.5-cuda10.0_0.conda +3 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/data/chip.train +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/data/chip.validate +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/data/yidu.test +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/data/yidu.train +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/data/yidu.validate +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/evaluate.py +154 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/evaluate_ner.py +359 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/images/chip_train_acc.png +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/images/chip_train_loss.png +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/images/chip_val_f1.png +0 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/images/downstream.png +3 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/images/model.jpg +3 -0
chinese_medical_ner/ccksyidu4k-ner-roformer/images/yidu_train_acc.png +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+chinese_medical_ner/ccksyidu4k-ner-roformer/cudnn-7.6.5-cuda10.0_0.conda filter=lfs diff=lfs merge=lfs -text
+chinese_medical_ner/ccksyidu4k-ner-roformer/images/downstream.png filter=lfs diff=lfs merge=lfs -text
+chinese_medical_ner/ccksyidu4k-ner-roformer/images/model.jpg filter=lfs diff=lfs merge=lfs -text

chinese_medical_ner/ccksyidu4k-ner-roformer/._README.md ADDED Viewed

Binary file (4.1 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/.gitignore ADDED Viewed

	@@ -0,0 +1,158 @@

+### JupyterNotebooks template
+# gitignore template for Jupyter Notebooks
+# website: http://jupyter.org/
+.ipynb_checkpoints
+*/.ipynb_checkpoints/*
+# IPython
+profile_default/
+ipython_config.py
+# Remove previous ipynb_checkpoints
+#   git rm -r .ipynb_checkpoints/
+### Python template
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+.pybuilder/
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+#   For a library or package, you might want to ignore these files since the code is
+#   intended to run in multiple environments; otherwise, check them in:
+# .python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+# pytype static type analyzer
+.pytype/
+# Cython debug symbols
+cython_debug/
+chinese_roformer-v2-char_L-6_H-384_A-6/*.ckpt*
+chinese_roformer-v2-char_L-12_H-768_A-12/*.ckpt*
+weights/*.h5
+data/lung.*

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/NamedEntityRecognization.iml ADDED Viewed

	@@ -0,0 +1,12 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="jdk" jdkName="Python 3.7 (tf_v1)" jdkType="Python SDK" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+  <component name="PyDocumentationSettings">
+    <option name="format" value="PLAIN" />
+    <option name="myDocStringFormat" value="Plain" />
+  </component>
+</module>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/csv-plugin.xml ADDED Viewed

	@@ -0,0 +1,16 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="CsvFileAttributes">
+    <option name="attributeMap">
+      <map>
+        <entry key="/report/yidu_bert_base.csv">
+          <value>
+            <Attribute>
+              <option name="separator" value="," />
+            </Attribute>
+          </value>
+        </entry>
+      </map>
+    </option>
+  </component>
+</project>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/deployment.xml ADDED Viewed

	@@ -0,0 +1,14 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="PublishConfigData" serverName="NamedEntityRecognization" createEmptyFolders="true" remoteFilesAllowedToDisappearOnAutoupload="false">
+    <serverData>
+      <paths name="NamedEntityRecognization">
+        <serverdata>
+          <mappings>
+            <mapping deploy="/home/bureaux/Projects/NamedEntityRecognization" local="$PROJECT_DIR$" web="/" />
+          </mappings>
+        </serverdata>
+      </paths>
+    </serverData>
+  </component>
+</project>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/inspectionProfiles/Project_Default.xml ADDED Viewed

	@@ -0,0 +1,178 @@

+<component name="InspectionProjectProfileManager">
+  <profile version="1.0">
+    <option name="myName" value="Project Default" />
+    <inspection_tool class="DuplicatedCode" enabled="true" level="WEAK WARNING" enabled_by_default="true">
+      <Languages>
+        <language minSize="147" name="Python" />
+      </Languages>
+    </inspection_tool>
+    <inspection_tool class="JupyterPackageInspection" enabled="false" level="WARNING" enabled_by_default="false" />
+    <inspection_tool class="PyPackageRequirementsInspection" enabled="false" level="WARNING" enabled_by_default="false">
+      <option name="ignoredPackages">
+        <value>
+          <list size="127">
+            <item index="0" class="java.lang.String" itemvalue="h5py" />
+            <item index="1" class="java.lang.String" itemvalue="six" />
+            <item index="2" class="java.lang.String" itemvalue="keras-bert" />
+            <item index="3" class="java.lang.String" itemvalue="keras-transformer" />
+            <item index="4" class="java.lang.String" itemvalue="absl-py" />
+            <item index="5" class="java.lang.String" itemvalue="google-pasta" />
+            <item index="6" class="java.lang.String" itemvalue="protobuf" />
+            <item index="7" class="java.lang.String" itemvalue="decorator" />
+            <item index="8" class="java.lang.String" itemvalue="tensorflow-estimator" />
+            <item index="9" class="java.lang.String" itemvalue="joblib" />
+            <item index="10" class="java.lang.String" itemvalue="threadpoolctl" />
+            <item index="11" class="java.lang.String" itemvalue="opt-einsum" />
+            <item index="12" class="java.lang.String" itemvalue="scikit-learn" />
+            <item index="13" class="java.lang.String" itemvalue="PyYAML" />
+            <item index="14" class="java.lang.String" itemvalue="cycler" />
+            <item index="15" class="java.lang.String" itemvalue="gast" />
+            <item index="16" class="java.lang.String" itemvalue="numpy" />
+            <item index="17" class="java.lang.String" itemvalue="importlib-metadata" />
+            <item index="18" class="java.lang.String" itemvalue="Keras-Preprocessing" />
+            <item index="19" class="java.lang.String" itemvalue="tensorflow" />
+            <item index="20" class="java.lang.String" itemvalue="Pygments" />
+            <item index="21" class="java.lang.String" itemvalue="pyzmq" />
+            <item index="22" class="java.lang.String" itemvalue="certifi" />
+            <item index="23" class="java.lang.String" itemvalue="prompt-toolkit" />
+            <item index="24" class="java.lang.String" itemvalue="cached-property" />
+            <item index="25" class="java.lang.String" itemvalue="Markdown" />
+            <item index="26" class="java.lang.String" itemvalue="scipy" />
+            <item index="27" class="java.lang.String" itemvalue="Werkzeug" />
+            <item index="28" class="java.lang.String" itemvalue="opencv-python" />
+            <item index="29" class="java.lang.String" itemvalue="parso" />
+            <item index="30" class="java.lang.String" itemvalue="wrapt" />
+            <item index="31" class="java.lang.String" itemvalue="astor" />
+            <item index="32" class="java.lang.String" itemvalue="ipython" />
+            <item index="33" class="java.lang.String" itemvalue="kiwisolver" />
+            <item index="34" class="java.lang.String" itemvalue="typing-extensions" />
+            <item index="35" class="java.lang.String" itemvalue="jupyter-client" />
+            <item index="36" class="java.lang.String" itemvalue="ipykernel" />
+            <item index="37" class="java.lang.String" itemvalue="Keras-Applications" />
+            <item index="38" class="java.lang.String" itemvalue="appnope" />
+            <item index="39" class="java.lang.String" itemvalue="pandas" />
+            <item index="40" class="java.lang.String" itemvalue="termcolor" />
+            <item index="41" class="java.lang.String" itemvalue="tensorboard" />
+            <item index="42" class="java.lang.String" itemvalue="matplotlib" />
+            <item index="43" class="java.lang.String" itemvalue="grpcio" />
+            <item index="44" class="java.lang.String" itemvalue="Keras" />
+            <item index="45" class="java.lang.String" itemvalue="pytz" />
+            <item index="46" class="java.lang.String" itemvalue="Pillow" />
+            <item index="47" class="java.lang.String" itemvalue="seqeval" />
+            <item index="48" class="java.lang.String" itemvalue="keras-embed-sim" />
+            <item index="49" class="java.lang.String" itemvalue="sklearn" />
+            <item index="50" class="java.lang.String" itemvalue="keras-position-wise-feed-forward" />
+            <item index="51" class="java.lang.String" itemvalue="keras-pos-embd" />
+            <item index="52" class="java.lang.String" itemvalue="keras-self-attention" />
+            <item index="53" class="java.lang.String" itemvalue="keras-layer-normalization" />
+            <item index="54" class="java.lang.String" itemvalue="keras-multi-head" />
+            <item index="55" class="java.lang.String" itemvalue="jedi" />
+            <item index="56" class="java.lang.String" itemvalue="pyDeprecate" />
+            <item index="57" class="java.lang.String" itemvalue="pytorch-lightning" />
+            <item index="58" class="java.lang.String" itemvalue="aiohttp" />
+            <item index="59" class="java.lang.String" itemvalue="packaging" />
+            <item index="60" class="java.lang.String" itemvalue="torch" />
+            <item index="61" class="java.lang.String" itemvalue="pyparsing" />
+            <item index="62" class="java.lang.String" itemvalue="torchvision" />
+            <item index="63" class="java.lang.String" itemvalue="traitlets" />
+            <item index="64" class="java.lang.String" itemvalue="testpath" />
+            <item index="65" class="java.lang.String" itemvalue="pickleshare" />
+            <item index="66" class="java.lang.String" itemvalue="python-dateutil" />
+            <item index="67" class="java.lang.String" itemvalue="defusedxml" />
+            <item index="68" class="java.lang.String" itemvalue="nbclient" />
+            <item index="69" class="java.lang.String" itemvalue="QtPy" />
+            <item index="70" class="java.lang.String" itemvalue="MarkupSafe" />
+            <item index="71" class="java.lang.String" itemvalue="pycparser" />
+            <item index="72" class="java.lang.String" itemvalue="pyasn1-modules" />
+            <item index="73" class="java.lang.String" itemvalue="ipython-genutils" />
+            <item index="74" class="java.lang.String" itemvalue="jupyterlab-widgets" />
+            <item index="75" class="java.lang.String" itemvalue="bleach" />
+            <item index="76" class="java.lang.String" itemvalue="oauthlib" />
+            <item index="77" class="java.lang.String" itemvalue="astunparse" />
+            <item index="78" class="java.lang.String" itemvalue="entrypoints" />
+            <item index="79" class="java.lang.String" itemvalue="jsonschema" />
+            <item index="80" class="java.lang.String" itemvalue="notebook" />
+            <item index="81" class="java.lang.String" itemvalue="qtconsole" />
+            <item index="82" class="java.lang.String" itemvalue="terminado" />
+            <item index="83" class="java.lang.String" itemvalue="argcomplete" />
+            <item index="84" class="java.lang.String" itemvalue="tensorboard-data-server" />
+            <item index="85" class="java.lang.String" itemvalue="pexpect" />
+            <item index="86" class="java.lang.String" itemvalue="jupyterlab-pygments" />
+            <item index="87" class="java.lang.String" itemvalue="nbconvert" />
+            <item index="88" class="java.lang.String" itemvalue="attrs" />
+            <item index="89" class="java.lang.String" itemvalue="cn2an" />
+            <item index="90" class="java.lang.String" itemvalue="flatbuffers" />
+            <item index="91" class="java.lang.String" itemvalue="backcall" />
+            <item index="92" class="java.lang.String" itemvalue="widgetsnbextension" />
+            <item index="93" class="java.lang.String" itemvalue="charset-normalizer" />
+            <item index="94" class="java.lang.String" itemvalue="idna" />
+            <item index="95" class="java.lang.String" itemvalue="rsa" />
+            <item index="96" class="java.lang.String" itemvalue="jupyter-core" />
+            <item index="97" class="java.lang.String" itemvalue="tensorflow-addons" />
+            <item index="98" class="java.lang.String" itemvalue="matplotlib-inline" />
+            <item index="99" class="java.lang.String" itemvalue="ptyprocess" />
+            <item index="100" class="java.lang.String" itemvalue="cffi" />
+            <item index="101" class="java.lang.String" itemvalue="pandocfilters" />
+            <item index="102" class="java.lang.String" itemvalue="wcwidth" />
+            <item index="103" class="java.lang.String" itemvalue="pyasn1" />
+            <item index="104" class="java.lang.String" itemvalue="requests" />
+            <item index="105" class="java.lang.String" itemvalue="Jinja2" />
+            <item index="106" class="java.lang.String" itemvalue="typeguard" />
+            <item index="107" class="java.lang.String" itemvalue="pyrsistent" />
+            <item index="108" class="java.lang.String" itemvalue="requests-oauthlib" />
+            <item index="109" class="java.lang.String" itemvalue="jupyter" />
+            <item index="110" class="java.lang.String" itemvalue="tensorboard-plugin-wit" />
+            <item index="111" class="java.lang.String" itemvalue="zipp" />
+            <item index="112" class="java.lang.String" itemvalue="nest-asyncio" />
+            <item index="113" class="java.lang.String" itemvalue="urllib3" />
+            <item index="114" class="java.lang.String" itemvalue="ipywidgets" />
+            <item index="115" class="java.lang.String" itemvalue="tornado" />
+            <item index="116" class="java.lang.String" itemvalue="google-auth-oauthlib" />
+            <item index="117" class="java.lang.String" itemvalue="nbformat" />
+            <item index="118" class="java.lang.String" itemvalue="Send2Trash" />
+            <item index="119" class="java.lang.String" itemvalue="prometheus-client" />
+            <item index="120" class="java.lang.String" itemvalue="mistune" />
+            <item index="121" class="java.lang.String" itemvalue="jupyter-console" />
+            <item index="122" class="java.lang.String" itemvalue="cachetools" />
+            <item index="123" class="java.lang.String" itemvalue="debugpy" />
+            <item index="124" class="java.lang.String" itemvalue="argon2-cffi" />
+            <item index="125" class="java.lang.String" itemvalue="webencodings" />
+            <item index="126" class="java.lang.String" itemvalue="google-auth" />
+          </list>
+        </value>
+      </option>
+    </inspection_tool>
+    <inspection_tool class="PyPep8Inspection" enabled="true" level="WEAK WARNING" enabled_by_default="true">
+      <option name="ignoredErrors">
+        <list>
+          <option value="E501" />
+          <option value="E122" />
+          <option value="W292" />
+        </list>
+      </option>
+    </inspection_tool>
+    <inspection_tool class="PyPep8NamingInspection" enabled="true" level="WEAK WARNING" enabled_by_default="true">
+      <option name="ignoredErrors">
+        <list>
+          <option value="N803" />
+          <option value="N802" />
+          <option value="N806" />
+        </list>
+      </option>
+    </inspection_tool>
+    <inspection_tool class="PyUnresolvedReferencesInspection" enabled="true" level="WARNING" enabled_by_default="true">
+      <option name="ignoredIdentifiers">
+        <list>
+          <option value="utils.backend.keras" />
+          <option value="utils.backend.K" />
+          <option value="utils.backend.sparse_multilabel_categorical_crossentropy" />
+        </list>
+      </option>
+    </inspection_tool>
+    <inspection_tool class="SpellCheckingInspection" enabled="false" level="TYPO" enabled_by_default="false">
+      <option name="processCode" value="true" />
+      <option name="processLiterals" value="true" />
+      <option name="processComments" value="true" />
+    </inspection_tool>
+  </profile>
+</component>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/inspectionProfiles/profiles_settings.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/misc.xml ADDED Viewed

	@@ -0,0 +1,4 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.7 (tf_v1)" project-jdk-type="Python SDK" />
+</project>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/modules.xml ADDED Viewed

	@@ -0,0 +1,8 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/NamedEntityRecognization.iml" filepath="$PROJECT_DIR$/.idea/NamedEntityRecognization.iml" />
+    </modules>
+  </component>
+</project>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/remote-mappings.xml ADDED Viewed

	@@ -0,0 +1,16 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="RemoteMappingsManager">
+    <list>
+      <list>
+        <remote-mappings server-id="python@sftp://bureaux@180.169.131.147:22/home/bureaux/miniconda3/envs/Keras-base/bin/python">
+          <settings>
+            <list>
+              <mapping local-root="$PROJECT_DIR$" remote-root="/home/bureaux/Projects/NamedEntityRecognization" />
+            </list>
+          </settings>
+        </remote-mappings>
+      </list>
+    </list>
+  </component>
+</project>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/vcs.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="$PROJECT_DIR$" vcs="Git" />
+  </component>
+</project>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/webServers.xml ADDED Viewed

	@@ -0,0 +1,14 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="WebServers">
+    <option name="servers">
+      <webServer id="fb160272-0942-419e-87dd-a353536a93b5" name="NamedEntityRecognization">
+        <fileTransfer accessType="SFTP" host="180.169.131.147" port="22" sshConfigId="03272ad8-3c65-4cd1-95f0-0886d605abb3" sshConfig="bureaux@180.169.131.147:22 password">
+          <advancedOptions>
+            <advancedOptions dataProtectionLevel="Private" passiveMode="true" shareSSLContext="true" />
+          </advancedOptions>
+        </fileTransfer>
+      </webServer>
+    </option>
+  </component>
+</project>

chinese_medical_ner/ccksyidu4k-ner-roformer/.idea/workspace.xml ADDED Viewed

	@@ -0,0 +1,256 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="AutoImportSettings">
+    <option name="autoReloadType" value="SELECTIVE" />
+  </component>
+  <component name="ChangeListManager">
+    <list default="true" id="626a281e-0f78-4eb9-9469-6e0d7f35140d" name="变更" comment="">
+      <change afterPath="$PROJECT_DIR$/report/crf_trans_yidu_visual.xlsx" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/.idea/NamedEntityRecognization.iml" beforeDir="false" afterPath="$PROJECT_DIR$/.idea/NamedEntityRecognization.iml" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/.idea/deployment.xml" beforeDir="false" afterPath="$PROJECT_DIR$/.idea/deployment.xml" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/.idea/misc.xml" beforeDir="false" afterPath="$PROJECT_DIR$/.idea/misc.xml" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/.idea/workspace.xml" beforeDir="false" afterPath="$PROJECT_DIR$/.idea/workspace.xml" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/config.py" beforeDir="false" afterPath="$PROJECT_DIR$/config.py" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/path.py" beforeDir="false" afterPath="$PROJECT_DIR$/path.py" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/preprocess.py" beforeDir="false" afterPath="$PROJECT_DIR$/preprocess.py" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/train.py" beforeDir="false" afterPath="$PROJECT_DIR$/train.py" afterDir="false" />
+      <change beforePath="$PROJECT_DIR$/utils/snippets.py" beforeDir="false" afterPath="$PROJECT_DIR$/utils/snippets.py" afterDir="false" />
+    </list>
+    <option name="SHOW_DIALOG" value="false" />
+    <option name="HIGHLIGHT_CONFLICTS" value="true" />
+    <option name="HIGHLIGHT_NON_ACTIVE_CHANGELIST" value="false" />
+    <option name="LAST_RESOLUTION" value="IGNORE" />
+  </component>
+  <component name="Git.Settings">
+    <option name="RECENT_GIT_ROOT_PATH" value="$PROJECT_DIR$" />
+  </component>
+  <component name="MarkdownSettingsMigration">
+    <option name="stateVersion" value="1" />
+  </component>
+  <component name="ProjectId" id="27LFq9lTgR3bspJNCu2Zpj2aqJy" />
+  <component name="ProjectLevelVcsManager" settingsEditedManually="true" />
+  <component name="ProjectViewState">
+    <option name="hideEmptyMiddlePackages" value="true" />
+    <option name="showLibraryContents" value="true" />
+  </component>
+  <component name="PropertiesComponent">{
+  &quot;keyToString&quot;: {
+    &quot;WebServerToolWindowFactoryState&quot;: &quot;true&quot;,
+    &quot;last_opened_file_path&quot;: &quot;/Volumes/Riesling/TRAIN/AI-base/src/NamedEntityRecognization/report&quot;,
+    &quot;node.js.detected.package.eslint&quot;: &quot;true&quot;,
+    &quot;node.js.detected.package.tslint&quot;: &quot;true&quot;,
+    &quot;node.js.selected.package.eslint&quot;: &quot;(autodetect)&quot;,
+    &quot;node.js.selected.package.tslint&quot;: &quot;(autodetect)&quot;,
+    &quot;nodejs_package_manager_path&quot;: &quot;npm&quot;,
+    &quot;settings.editor.selected.configurable&quot;: &quot;com.jetbrains.python.configuration.PyActiveSdkModuleConfigurable&quot;
+  }
+}</component>
+  <component name="RecentsManager">
+    <key name="CopyFile.RECENT_KEYS">
+      <recent name="$PROJECT_DIR$/report" />
+      <recent name="$PROJECT_DIR$/data" />
+      <recent name="$PROJECT_DIR$" />
+    </key>
+  </component>
+  <component name="RunManager" selected="Python.predict">
+    <configuration name="evaluate" type="PythonConfigurationType" factoryName="Python" temporary="true" nameIsGenerated="true">
+      <module name="NamedEntityRecognization" />
+      <option name="INTERPRETER_OPTIONS" value="" />
+      <option name="PARENT_ENVS" value="true" />
+      <envs>
+        <env name="PYTHONUNBUFFERED" value="1" />
+      </envs>
+      <option name="SDK_HOME" value="" />
+      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$" />
+      <option name="IS_MODULE_SDK" value="true" />
+      <option name="ADD_CONTENT_ROOTS" value="true" />
+      <option name="ADD_SOURCE_ROOTS" value="true" />
+      <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
+      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/evaluate.py" />
+      <option name="PARAMETERS" value="" />
+      <option name="SHOW_COMMAND_LINE" value="false" />
+      <option name="EMULATE_TERMINAL" value="false" />
+      <option name="MODULE_MODE" value="false" />
+      <option name="REDIRECT_INPUT" value="false" />
+      <option name="INPUT_FILE" value="" />
+      <method v="2" />
+    </configuration>
+    <configuration name="model" type="PythonConfigurationType" factoryName="Python" temporary="true" nameIsGenerated="true">
+      <module name="NamedEntityRecognization" />
+      <option name="INTERPRETER_OPTIONS" value="" />
+      <option name="PARENT_ENVS" value="true" />
+      <envs>
+        <env name="PYTHONUNBUFFERED" value="1" />
+      </envs>
+      <option name="SDK_HOME" value="" />
+      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$" />
+      <option name="IS_MODULE_SDK" value="true" />
+      <option name="ADD_CONTENT_ROOTS" value="true" />
+      <option name="ADD_SOURCE_ROOTS" value="true" />
+      <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
+      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/model.py" />
+      <option name="PARAMETERS" value="" />
+      <option name="SHOW_COMMAND_LINE" value="false" />
+      <option name="EMULATE_TERMINAL" value="false" />
+      <option name="MODULE_MODE" value="false" />
+      <option name="REDIRECT_INPUT" value="false" />
+      <option name="INPUT_FILE" value="" />
+      <method v="2" />
+    </configuration>
+    <configuration name="predict" type="PythonConfigurationType" factoryName="Python" temporary="true" nameIsGenerated="true">
+      <module name="NamedEntityRecognization" />
+      <option name="INTERPRETER_OPTIONS" value="" />
+      <option name="PARENT_ENVS" value="true" />
+      <envs>
+        <env name="PYTHONUNBUFFERED" value="1" />
+      </envs>
+      <option name="SDK_HOME" value="" />
+      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$" />
+      <option name="IS_MODULE_SDK" value="true" />
+      <option name="ADD_CONTENT_ROOTS" value="true" />
+      <option name="ADD_SOURCE_ROOTS" value="true" />
+      <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
+      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/predict.py" />
+      <option name="PARAMETERS" value="" />
+      <option name="SHOW_COMMAND_LINE" value="false" />
+      <option name="EMULATE_TERMINAL" value="false" />
+      <option name="MODULE_MODE" value="false" />
+      <option name="REDIRECT_INPUT" value="false" />
+      <option name="INPUT_FILE" value="" />
+      <method v="2" />
+    </configuration>
+    <configuration name="statistic" type="PythonConfigurationType" factoryName="Python" temporary="true" nameIsGenerated="true">
+      <module name="NamedEntityRecognization" />
+      <option name="INTERPRETER_OPTIONS" value="" />
+      <option name="PARENT_ENVS" value="true" />
+      <envs>
+        <env name="PYTHONUNBUFFERED" value="1" />
+      </envs>
+      <option name="SDK_HOME" value="" />
+      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$" />
+      <option name="IS_MODULE_SDK" value="true" />
+      <option name="ADD_CONTENT_ROOTS" value="true" />
+      <option name="ADD_SOURCE_ROOTS" value="true" />
+      <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
+      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/statistic.py" />
+      <option name="PARAMETERS" value="" />
+      <option name="SHOW_COMMAND_LINE" value="false" />
+      <option name="EMULATE_TERMINAL" value="false" />
+      <option name="MODULE_MODE" value="false" />
+      <option name="REDIRECT_INPUT" value="false" />
+      <option name="INPUT_FILE" value="" />
+      <method v="2" />
+    </configuration>
+    <configuration name="train" type="PythonConfigurationType" factoryName="Python" temporary="true" nameIsGenerated="true">
+      <module name="NamedEntityRecognization" />
+      <option name="INTERPRETER_OPTIONS" value="" />
+      <option name="PARENT_ENVS" value="true" />
+      <envs>
+        <env name="PYTHONUNBUFFERED" value="1" />
+      </envs>
+      <option name="SDK_HOME" value="" />
+      <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$" />
+      <option name="IS_MODULE_SDK" value="true" />
+      <option name="ADD_CONTENT_ROOTS" value="true" />
+      <option name="ADD_SOURCE_ROOTS" value="true" />
+      <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
+      <EXTENSION ID="net.ashald.envfile">
+        <option name="IS_ENABLED" value="false" />
+        <option name="IS_SUBST" value="false" />
+        <option name="IS_PATH_MACRO_SUPPORTED" value="false" />
+        <option name="IS_IGNORE_MISSING_FILES" value="false" />
+        <option name="IS_ENABLE_EXPERIMENTAL_INTEGRATIONS" value="false" />
+        <ENTRIES>
+          <ENTRY IS_ENABLED="true" PARSER="runconfig" />
+        </ENTRIES>
+      </EXTENSION>
+      <option name="SCRIPT_NAME" value="$PROJECT_DIR$/train.py" />
+      <option name="PARAMETERS" value="" />
+      <option name="SHOW_COMMAND_LINE" value="true" />
+      <option name="EMULATE_TERMINAL" value="false" />
+      <option name="MODULE_MODE" value="false" />
+      <option name="REDIRECT_INPUT" value="false" />
+      <option name="INPUT_FILE" value="" />
+      <method v="2" />
+    </configuration>
+    <list>
+      <item itemvalue="Python.predict" />
+      <item itemvalue="Python.statistic" />
+      <item itemvalue="Python.train" />
+      <item itemvalue="Python.model" />
+      <item itemvalue="Python.evaluate" />
+    </list>
+    <recent_temporary>
+      <list>
+        <item itemvalue="Python.predict" />
+        <item itemvalue="Python.train" />
+        <item itemvalue="Python.evaluate" />
+        <item itemvalue="Python.model" />
+        <item itemvalue="Python.statistic" />
+      </list>
+    </recent_temporary>
+  </component>
+  <component name="SpellCheckerSettings" RuntimeDictionaries="0" Folders="0" CustomDictionaries="0" DefaultDictionary="应用程序级" UseSingleDictionary="true" transferred="true" />
+  <component name="TaskManager">
+    <task active="true" id="Default" summary="默认任务">
+      <changelist id="626a281e-0f78-4eb9-9469-6e0d7f35140d" name="变更" comment="" />
+      <created>1649091649915</created>
+      <option name="number" value="Default" />
+      <option name="presentableId" value="Default" />
+      <updated>1649091649915</updated>
+      <workItem from="1649091655927" duration="9332000" />
+      <workItem from="1649773940694" duration="6925000" />
+      <workItem from="1651504862776" duration="153000" />
+      <workItem from="1651924741385" duration="694000" />
+      <workItem from="1658891597769" duration="13145000" />
+      <workItem from="1661422884262" duration="704000" />
+    </task>
+    <servers />
+  </component>
+  <component name="TypeScriptGeneratedFilesManager">
+    <option name="version" value="3" />
+  </component>
+  <component name="XDebuggerManager">
+    <breakpoint-manager>
+      <breakpoints>
+        <line-breakpoint enabled="true" suspend="THREAD" type="python-line">
+          <url>file://$PROJECT_DIR$/predict.py</url>
+          <line>36</line>
+          <option name="timeStamp" value="5" />
+        </line-breakpoint>
+        <line-breakpoint enabled="true" suspend="THREAD" type="python-line">
+          <url>file://$PROJECT_DIR$/train.py</url>
+          <line>110</line>
+          <option name="timeStamp" value="20" />
+        </line-breakpoint>
+        <line-breakpoint enabled="true" suspend="THREAD" type="python-line">
+          <url>file://$PROJECT_DIR$/preprocess.py</url>
+          <line>81</line>
+          <option name="timeStamp" value="21" />
+        </line-breakpoint>
+        <line-breakpoint enabled="true" suspend="THREAD" type="python-line">
+          <url>file://$PROJECT_DIR$/preprocess.py</url>
+          <line>107</line>
+          <option name="timeStamp" value="24" />
+        </line-breakpoint>
+        <line-breakpoint enabled="true" suspend="THREAD" type="python-line">
+          <url>file://$PROJECT_DIR$/utils/snippets.py</url>
+          <line>509</line>
+          <option name="timeStamp" value="28" />
+        </line-breakpoint>
+        <line-breakpoint enabled="true" suspend="THREAD" type="python-line">
+          <url>file://$PROJECT_DIR$/utils/snippets.py</url>
+          <line>506</line>
+          <option name="timeStamp" value="30" />
+        </line-breakpoint>
+      </breakpoints>
+    </breakpoint-manager>
+  </component>
+  <component name="com.intellij.coverage.CoverageDataManagerImpl">
+    <SUITE FILE_PATH="coverage/NamedEntityRecognization$train.coverage" NAME="train 覆盖结果" MODIFIED="1658905350571" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$" />
+    <SUITE FILE_PATH="coverage/NamedEntityRecognization$model.coverage" NAME="model 覆盖结果" MODIFIED="1649776894188" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$" />
+    <SUITE FILE_PATH="coverage/NamedEntityRecognization$evaluate.coverage" NAME="evaluate 覆盖结果" MODIFIED="1649825507637" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$" />
+    <SUITE FILE_PATH="coverage/NamedEntityRecognization$statistic.coverage" NAME="statistic 覆盖结果" MODIFIED="1649172187190" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$" />
+    <SUITE FILE_PATH="coverage/NamedEntityRecognization$predict.coverage" NAME="predict 覆盖结果" MODIFIED="1658911968974" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$" />
+  </component>
+</project>

chinese_medical_ner/ccksyidu4k-ner-roformer/README.md ADDED Viewed

	@@ -0,0 +1,340 @@

+# CCKS2019医渡云4k电子病历数据集命名实体识别
+## Dataset
+Yidu-S4K数据集，对于给定的一组电子病历纯文本文档，任务的目标是识别并抽取出与医学临床相关的实体提及（entity mention），并将它们归类到预定义类别（pre-defined
+categories），比如疾病、治疗、检查检验等。
+1. 疾病和诊断：医学上定义的疾病和医生在临床工作中对病因、病生理、分型分期等所作的判断。
+2. 检查： 影像检查（X线、CT、MR、PETCT等）+造影+超声+心电图，未避免检查操作与手术操作过多冲突，不包含此外其它的诊断性操作，如胃镜、肠镜等。
+3. 检验： 在实验室进行的物理或化学检查，本期特指临床工作中检验科进行的化验，不含免疫组化等广义实验室检查
+4. 手术： 医生在患者身体局部进行的切除、缝合等治疗，是外科的主要治疗方法。
+5. 药物： 用于疾病治疗的具体化学物质。
+6. 解剖部位： 指疾病、症状和体征发生的人体解剖学部位。
+任务一数据结构： 任务一数据每一行为一个json json key 为`['originalText','entities']` 即原文和实体列表 `json["entities"]`
+为列表，每个元素代表一个实体entity，其中有该实体在原文中的起始位置`start_pos`,结束位置`end_pos`,以及实体类型
+训练样本1000条，提交的测试样本379条，经过处理后转成BIO格式，形如：
+```
+心	B-TESTIMAGE
+脏	I-TESTIMAGE
+彩	I-TESTIMAGE
+超	I-TESTIMAGE
+：	O
+右	B-ANATOMY
+房	I-ANATOMY
+、	O
+右	B-ANATOMY
+室	I-ANATOMY
+稍	O
+增	O
+大	O
+，	O
+E	B-TESTLAB
+F	I-TESTLAB
+正	O
+常	O
+。	O
+```
+ATTENTION:
+- 字与标签之间用tab（"\t"）隔开
+- 其中句子与句子之间使用空行隔开
+- 文件最后以两个换行结束
+句长与数量信息可以运行`statistic.py`以查看
+## Project Structure
+```
+./
+├── README.md
+├── __pycache__
+├── chinese_roformer-v2-char_L-12_H-768_A-12    roformer_v2 base权重文件
+│   ├── bert_config.json
+│   ├── bert_model.ckpt.data-00000-of-00001
+│   ├── bert_model.ckpt.index
+│   ├── bert_model.ckpt.meta
+│   ├── checkpoint
+│   └── vocab.txt
+├── chinese_roformer-v2-char_L-6_H-384_A-6      roformer_v2 small 权重文件
+│   ├── bert_config.json
+│   ├── bert_model.ckpt.data-00000-of-00001
+│   ├── bert_model.ckpt.index
+│   ├── bert_model.ckpt.meta
+│   ├── checkpoint
+│   └── vocab.txt
+├── config.py                                   模型可能需要调整的超参数
+├── data                                        数据集文件夹
+│   ├── yidu.test                               官方提供的379个测试样本
+│   ├── yidu.train                              从划分官方1000个训练样本中划分的的训练集
+│   ├── yidu.validate                           从划分官方1000个训练样本中划分的的验证集
+│   └── yidu_catagory.pkl                       类别set，由train.py生成，predict.py中用到
+├── evaluate.py
+├── images                                      训练、评估数据生成的图片
+│   ├── train_acc.png
+│   ├── train_loss.png
+│   └── val_f1.png
+├── log                                         训练日志，由train.py生成
+│   ├── train_loss.csv
+│   ├── val_f1.csv
+│   ├── yidu.out
+│   └── yidu_f1.out
+├── model.py                                    构建模型
+├── path.py                                     所有路径
+├── predict.py                                  模型预测输出
+├── preprocess.py                               数据预处理
+├── statistic.py                                统计句长与数量信息，以便调整和设置maxlen
+├── report                                      评估报告，由evaluate.py生成
+│   └── yidu_bert_base.csv                      每个类别的精准、召回、F1
+├── train.py                                    训练文件
+├── requirements.txt                            pip环境
+├── plot.py                                     画图工具
+├── utils                                       bert4keras工具包，也可pip下载
+│   ├── __init__.py
+│   ├── __pycache__
+│   ├── backend.py
+│   ├── layers.py
+│   ├── models.py
+│   ├── optimizers.py
+│   ├── snippets.py
+│   └── tokenizers.py
+└── weights                                     保存的权重
+    ├── yidu_catagory.pkl                       实体类别
+    ├── yidu_roformer_v2_base.h5                模型权重
+    └── yidu_roformer_v2_crf_trans.pkl          最佳模型的权重
+```
+## Requirements
+```
+Keras==2.2.4
+matplotlib==3.4.0
+pandas==1.2.3
+tensorflow==1.14.0
+tqdm==4.61.2
+```
+## Steps
+1. 替换数据集
+2. 修改path.py中的地址
+3. 删掉旧的weights/{}_catagory.pkl类别set文件
+4. 根据需要修改model.py模型结构
+5. 修改config.py的参数
+6. Debug
+7. 训练
+## Model
+### 上游
+[GitHub - ZhuiyiTechnology/roformer-v2: RoFormer升级版](https://github.com/ZhuiyiTechnology/roformer-v2)
+是RoFormer升级版，主要通过结构的简化来提升速度，并通过无监督预训练和有监督预训练的结合来提升效果，从而达到了速度与效果的“双赢”。相比RoFormer，RoFormerV2的主要改动是简化模型结构、增加训练数据以及加入有监督训练，这些改动能让RoFormerV2最终取得了速度和效果的“双赢”。
+- **Small版**
+  ： [chinese_roformer-v2-char_L-6_H-384_A-6.zip](https://open.zhuiyi.ai/releases/nlp/models/zhuiyi/chinese_roformer-v2-char_L-6_H-384_A-6.zip)
+- **Base版**
+  ： [chinese_roformer-v2-char_L-12_H-768_A-12.zip](https://open.zhuiyi.ai/releases/nlp/models/zhuiyi/chinese_roformer-v2-char_L-12_H-768_A-12.zip)
+- **Large版**
+  ： [chinese_roformer-v2-char_L-24_H-1024_A-16.zip](https://open.zhuiyi.ai/releases/nlp/models/zhuiyi/chinese_roformer-v2-char_L-24_H-1024_A-16.zip)
+### 下游
+![](images/downstream.png)
+模型大小
+> * **Small版**：两张3090（24G），先用无监督MLM训练了100万步（maxlen为512），然后有监督多任务训练了75万步（maxlen从64到512不等，取决于任务），batch_size为512，优化器为LAMB；
+> * **Base版**：四张3090（24G），先用无监督MLM训练了100万步（maxlen为512），然后有监督多任务训练了75万步（maxlen从64到512不等，取决于任务），batch_size为512，优化器为LAMB；
+> * **Large版**：两张A100（80G），先用无监督MLM训练了100万步（maxlen为512），然后有监督多任务训练了50万步（maxlen从64到512不等，取决于任务），batch_size为512，优化器为LAMB。
+## Config
+- `maxlen` 训练中每个batch的最大单句长度，少于填充，多于截断
+- `epochs` 最大训练轮次
+- `batch_size` batch size
+- `bert_layers` bert层数，small ≤ 4,base ≤ 12
+- `crf_lr_multiplier` CRF层放大的学习率，必要时扩大它
+- `model_type` 模型， 'roformer_v2'
+- `dropout_rate` dropout比率
+- `max_lr` 最大学习率，bert_layers越大应该越小，small建议5e-5~1e-4，base建议1e-5~5e-5
+- `lstm_hidden_units` lstm隐藏层数量
+ATTENTION: 并非所有句子都要填充到同一个长度，要求每个batch内的每个样本长度一致即可。所以若batch中最大长度 ≤ maxlen，则该batch将填充or截断到最长句子长度，若batch中最大长度 ≥
+maxlen，则该batch将填充or截断到config.py中的maxlen
+## Train
+### 策略
+#### 划分策略
+将1000条训练样本按8：2划分成训练集、验证集，并shuffle。
+#### 优化策略
+- 使用EMA(exponential mobing average)滑动平均配合Adam作为优化策略。滑动平均可以用来估计变量的局部值，是的变量的更新与一段时间内的历史值有关。它的意义在于利用滑动平均的参数来提高模型在测试数据上的健壮性。
+  EMA 对每一个待更新训练学习的变量 (variable) 都会维护一个影子变量 (shadow variable)。影子变量的初始值就是这个变量的初始值。
+- BERT模型由于已经有了预训练权重，所以微调权重只需要很小的学习率，而LSTM和Dense使用的`he_normal`
+  初始化学习率，需要使用较大学习率，所以本模型使用[分层学习率](https://kexue.fm/archives/6418)
+- 在Embedding层注入扰动，[对抗训练](https://kexue.fm/archives/7234) ，使模型更具鲁棒性。
+#### 停止策略
+在callback中计算验证集实体F1值，监控它。5轮不升即停。
+### 日志
+```
+Epoch 1/999
+78/78 [==============================] - 342s 4s/step - loss: 44.7248 - sparse_accuracy: 0.8038
+valid:  f1: 0.05063, precision: 0.06611, recall: 0.04103, best f1: 0.05063
+Epoch 2/999
+78/78 [==============================] - 313s 4s/step - loss: 13.2246 - sparse_accuracy: 0.9135
+valid:  f1: 0.67956, precision: 0.70216, recall: 0.65837, best f1: 0.67956
+Epoch 3/999
+78/78 [==============================] - 319s 4s/step - loss: 5.9724 - sparse_accuracy: 0.9418
+valid:  f1: 0.81794, precision: 0.83338, recall: 0.80306, best f1: 0.81794
+...
+Epoch 16/999
+78/78 [==============================] - 308s 4s/step - loss: 1.6843 - sparse_accuracy: 0.9109
+Early stop count 3/5
+valid:  f1: 0.87578, precision: 0.86848, recall: 0.88321, best f1: 0.87753
+Epoch 17/999
+78/78 [==============================] - 323s 4s/step - loss: 1.5966 - sparse_accuracy: 0.9090
+Early stop count 4/5
+valid:  f1: 0.87717, precision: 0.86962, recall: 0.88485, best f1: 0.87753
+Epoch 18/999
+78/78 [==============================] - 324s 4s/step - loss: 1.4774 - sparse_accuracy: 0.9092
+Early stop count 5/5
+Epoch 00018: early stopping THR
+valid:  f1: 0.87693, precision: 0.86916, recall: 0.88485, best f1: 0.87753
+```
+训练集crf loss
+![](images/yidu_train_loss.png)
+训练集crf acc:
+![](images/yidu_train_acc.png)
+### Evaluate
+### 策略
+评估策略为实体级别的F1，抽取到的每个实体的label、在每句中的起始坐标、终止坐标都正确才算对
+可以评估：
+- 总的F1：所有类别一起统计，TP为所有label、起始坐标、终止坐标都正确的个数，TP+FP为预测实体总数，TP+FN为真实实体总数
+- 每类的F1：分类统计，TP为每个列别的起始坐标、终止坐标都正确的个数，TP+FP为每个类别的预测实体总数，TP+FN为每个类别的真实实体总数
+### 评估单个模型
+```python
+evaluate_one(save_file_path = weights_path + '/yidu_roformer_v2_base.h5',
+             dataset_path = "./data/yidu.test",
+             csv_path = './report/yidu_bert_base.csv',
+             evaluate_categories_f1 = True)
+```
+`save_file_path`，`dataset_path`是评估数据集路径，`evaluate_categories_f1`为是否评估每个类别的F1（时间会比评估总的F1长很多），`csv_path`
+是每类F1数据生成的csv文件存放路径。
+ATTENTION: 1个batch只进1条句子，所以可以无视train的maxlen，但是tokenize后长于512的部分将无法被预测，也不会被算进P里
+## Performance
+### 测试集表现
+![](images/yidu_val_f1.png)
+### 验证集最佳F1
+```
+Epoch 13/999
+78/78 [==============================] - 314s 4s/step - loss: 1.9135 - sparse_accuracy: 0.9114
+valid:  f1: 0.87753, precision: 0.87033, recall: 0.88485, best f1: 0.87753
+```
+### 官方提供的379条测试样本表现
+```
+weight path:/home/bureaux/Projects/NamedEntityRecognization/weights/yidu_roformer_v2_base.h5
+evaluate dataset path:./data/yidu.test
+Evaluating General F1: 100%|████████████████████████████████████| 2035/2035 [03:11<00:00, 10.60it/s]
+General:  f1: 0.87700, precision: 0.86014, recall: 0.89454
+```
+### 官方提供的379条测试样本表现每的类别F1评测结果
+```
+Evaluating F1 of each Categories: 100%|█████████████████████████| 2035/2035 [19:37<00:00,  1.73it/s]
+             TP  TP+FP  TP+FN  precision  recall      f1
+ANATOMY    2788   3286   3094     0.8484  0.9011  0.8740
+DISEASE    1176   1332   1323     0.8829  0.8889  0.8859
+DRUG        470    497    485     0.9457  0.9691  0.9572
+OPERATION   143    158    162     0.9051  0.8827  0.8938
+TESTIMAGE   326    366    348     0.8907  0.9368  0.9132
+TESTLAB     466    603    590     0.7728  0.7898  0.7812
+```
+## Predict
+```python
+txt = '1997-8-6行胃癌根治术，2010.11发现CA724 升高最高1295 ，复查PET-CT检查未见复发转移，之后多次复查CA724 波动在500-800之间，多次查胃镜提示吻合口炎，给予对症治疗，患者感左下腹隐痛下腹隐痛不适，2013.10.15复查血CA724 147 CA199 13.62 ,2013.10.23复查腹部CT检查提示胰腺占位，考虑恶性，胰头周围，肝门，腹膜后多发多发淋巴结转移。PET-CT提示：胰头区高代谢，考虑恶性病变。患者近10天出现午饭后左下腹部胀痛，持续2-3小时候可自行缓解。体重近1月上降2KG.患者胰腺穿刺取病理示低分化腺癌，免疫组化示CEA+,CGA+/-,CD56+/-,SYN+/-,对手术有顾虑，且手术风险较大，2013-11-26行放疗30次，2014-1-7放疗结束。2013-11-28始行单药吉西他滨化疗4周期。末次2014-1-7.放化疗中出现黄疸，对症治疗后好转。化疗后患者出现II度白细胞降低、II度血小板降低。2014-1-24复查胰头区病灶及腹腔淋巴结均较强缩小，胰腺穿刺病理中低分化腺癌，免疫组化CA19+,CK7+,CGA-,SYN-,CD56-,CA199+，符合胆、胰导管来源浸润性腺癌。CA72.4 明显上降。2014-1-27病理比对原胃切除标本报告与胰腺肿瘤存在较大形态差异。考虑患者明确胰腺癌，于2014-2-7行第5周期GEM化疗，2014-2复查后病灶缩小SD，于2014-2-21开始第六周期化疗，因第八天白细胞减少推迟到2014-3-3。2014-4-7第8周期化疗。末次给药2014-4-14.2014-4-21复查评效SD，略有缩小，CA72.4降低至11.12.2014-4-28继续单药GEM化疗，末次给药时间2014-9-1.GEM双周一次，2014-7-24复查胰腺病灶继续缩小,评效PR。现患者无明显不适，饮食、睡眠可，体重较前上降约4KG。'
+for i in predict(txt = txt,
+                 weights_path = weights_path + '/yidu_roformer_v2_base.h5',
+                 label_dict_path = label_dict_path,
+                 trans_path = "./weights/yidu_roformer_v2_crf_trans.pkl"):
+    print(i)
+```
+txt为输入文本，save_file_path为使用权重的路径，label_dict_path为实体类别字典的pkl文件，trans_path为模型转移矩阵文件。缺一不可。
+输出结果
+```
+[
+    ('胃癌根治术', 'OPERATION', 9, 13)
+    ('CA724', 'TESTLAB', 24, 28)
+    ('PET-CT', 'TESTIMAGE', 42, 47)
+    ('CA724', 'TESTLAB', 63, 67)
+    ('吻合口炎', 'DISEASE', 89, 92)
+    ('左下腹', 'ANATOMY', 104, 106)
+    ('下腹', 'ANATOMY', 109, 110)
+    ('CA724', 'TESTLAB', 129, 133)
+    ('腹部CT', 'TESTIMAGE', 164, 167)
+    ('胰腺', 'ANATOMY', 172, 173)
+    ('胰头', 'ANATOMY', 182, 183)
+    ('肝门', 'ANATOMY', 187, 188)
+    ('腹膜', 'ANATOMY', 190, 191)
+    ('PET-CT', 'TESTIMAGE', 203, 208)
+    ('胰头区', 'ANATOMY', 212, 214)
+    ('左下腹部', 'ANATOMY', 237, 240)
+    ('胰腺', 'ANATOMY', 271, 272)
+    ('低分化腺癌', 'DISEASE', 279, 283)
+    ('吉西他滨', 'DRUG', 376, 379)
+    ('白细胞', 'TESTLAB', 424, 426)
+    ('血小板', 'TESTLAB', 433, 435)
+    ('胰头区', 'ANATOMY', 450, 452)
+    ('腹腔淋巴结', 'ANATOMY', 456, 460)
+    ('胰腺', 'ANATOMY', 467, 468)
+    ('中低分化腺癌', 'DISEASE', 473, 478)
+    ('胆', 'ANATOMY', 520, 520)
+    ('胰', 'ANATOMY', 522, 522)
+    ('CA72.4', 'TESTLAB', 533, 538)
+    ('胃', 'ANATOMY', 559, 559)
+    ('胰腺肿瘤', 'DISEASE', 567, 570)
+    ('胰腺癌', 'DISEASE', 586, 588)
+]
+```
+输出格式为`(实体, 类别, 起始坐标, 终止坐标)`

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/config.cpython-310.pyc ADDED Viewed

Binary file (419 Bytes). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/config.cpython-37.pyc ADDED Viewed

Binary file (413 Bytes). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/config.cpython-38.pyc ADDED Viewed

Binary file (407 Bytes). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/evaluate.cpython-310.pyc ADDED Viewed

Binary file (4.57 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/evaluate.cpython-37.pyc ADDED Viewed

Binary file (4.65 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/evaluate.cpython-38.pyc ADDED Viewed

Binary file (4.59 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/model.cpython-310.pyc ADDED Viewed

Binary file (4.28 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/model.cpython-37.pyc ADDED Viewed

Binary file (4.18 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/model.cpython-38.pyc ADDED Viewed

Binary file (4.23 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/path.cpython-310.pyc ADDED Viewed

Binary file (976 Bytes). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/path.cpython-37.pyc ADDED Viewed

Binary file (970 Bytes). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/path.cpython-38.pyc ADDED Viewed

Binary file (964 Bytes). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/plot.cpython-310.pyc ADDED Viewed

Binary file (1.62 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/plot.cpython-37.pyc ADDED Viewed

Binary file (1.68 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/plot.cpython-38.pyc ADDED Viewed

Binary file (1.61 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/predict.cpython-37.pyc ADDED Viewed

Binary file (2.58 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/preprocess.cpython-310.pyc ADDED Viewed

Binary file (4.22 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/preprocess.cpython-37.pyc ADDED Viewed

Binary file (4.18 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/__pycache__/preprocess.cpython-38.pyc ADDED Viewed

Binary file (4.18 kB). View file

chinese_medical_ner/ccksyidu4k-ner-roformer/calc_bert_matrix.ipynb ADDED Viewed

	@@ -0,0 +1,534 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "12\n",
+      "28\n",
+      "28.835511207580566\n",
+      "[[0.8042815  0.83821416 0.7857758  0.8936385  0.7276579  0.83560634\n",
+      "  0.83956754 0.7425114  0.82972634 0.840919   0.8455287  0.8671753\n",
+      "  0.7728379  0.43285608 0.82833314 0.8327997  0.8392484  0.8234416\n",
+      "  0.8522128  0.51038194 0.82206476 0.7454972  0.8382132  0.49966788\n",
+      "  0.86459064 0.7834512  0.8475671  0.85460234]\n",
+      " [0.8011063  0.828354   0.82743424 0.850899   0.73062104 0.85595804\n",
+      "  0.8435649  0.7553144  0.8425723  0.82148576 0.80054176 0.89214945\n",
+      "  0.79418015 0.47419527 0.81845486 0.8461245  0.8021023  0.7938319\n",
+      "  0.79460996 0.5338131  0.87848425 0.7716693  0.8170972  0.52933466\n",
+      "  0.8097694  0.83968496 0.839522   0.8165166 ]\n",
+      " [0.4245787  0.4378011  0.42134485 0.46912104 0.38410604 0.44984287\n",
+      "  0.41388378 0.44095236 0.43873137 0.44801378 0.43414456 0.4509009\n",
+      "  0.41366065 0.7984361  0.4289     0.43039462 0.42809123 0.4324836\n",
+      "  0.46127015 0.86037296 0.41747275 0.38431278 0.48179275 0.84873366\n",
+      "  0.4345677  0.41943404 0.46897653 0.45358443]\n",
+      " [0.7554055  0.77900416 0.7624301  0.8424594  0.68307996 0.8088174\n",
+      "  0.80660224 0.69681954 0.7785535  0.8220203  0.79812443 0.8501669\n",
+      "  0.7326208  0.41718763 0.7723533  0.8132994  0.8087872  0.77721477\n",
+      "  0.7891983  0.46248394 0.7991282  0.73404676 0.81659716 0.46346214\n",
+      "  0.79148304 0.7274809  0.9603679  0.77111566]\n",
+      " [0.8101381  0.8370694  0.8437565  0.87504846 0.73189175 0.86311483\n",
+      "  0.8619976  0.79309046 0.8413706  0.8296794  0.8228364  0.99999994\n",
+      "  0.8147346  0.4384241  0.81975913 0.8577111  0.8390564  0.8067612\n",
+      "  0.8274136  0.51204675 0.88608086 0.7762571  0.8515235  0.50785893\n",
+      "  0.80906993 0.8036982  0.87490416 0.8234324 ]\n",
+      " [0.4217796  0.48954895 0.42723012 0.4532832  0.3561649  0.4448802\n",
+      "  0.4336366  0.45388544 0.4319604  0.46770507 0.41890997 0.44228512\n",
+      "  0.43652567 0.93544704 0.446108   0.46484137 0.39359793 0.39574915\n",
+      "  0.45182198 0.8406079  0.425097   0.39100745 0.47122467 0.8352574\n",
+      "  0.42255652 0.4323899  0.4527101  0.43198568]\n",
+      " [0.8338187  0.8482033  0.7583538  0.9017825  0.7151871  0.84789246\n",
+      "  0.8150497  0.7093185  0.8569419  0.8142565  0.899078   0.84663707\n",
+      "  0.7619577  0.44392824 0.79649574 0.80953574 0.8414211  0.8342018\n",
+      "  0.80380815 0.4652272  0.83020467 0.75900805 0.81513274 0.4604773\n",
+      "  0.8724065  0.79225063 0.8495691  0.8571184 ]\n",
+      " [0.4388544  0.48099732 0.44652414 0.491911   0.39358306 0.4963931\n",
+      "  0.46961203 0.4602445  0.45970094 0.49297816 0.44363937 0.50785893\n",
+      "  0.42448643 0.8044198  0.4709897  0.47543868 0.4438693  0.4341317\n",
+      "  0.47560525 0.94062746 0.46269763 0.41282403 0.49911708 0.9999999\n",
+      "  0.45720756 0.43912742 0.51201    0.48214957]\n",
+      " [0.852879   0.9037154  0.7821789  0.9420587  0.7552315  0.8836415\n",
+      "  0.87547123 0.7251524  0.8828964  0.8373711  0.92202234 0.89002985\n",
+      "  0.7854445  0.474783   0.8376787  0.85402507 0.8500402  0.8268823\n",
+      "  0.82753396 0.48748526 0.87112916 0.78053    0.82918906 0.48343372\n",
+      "  0.841926   0.8271333  0.8875084  0.87484753]\n",
+      " [0.7869381  0.85783684 0.7684859  0.8841141  0.66779125 0.7765528\n",
+      "  0.75417054 0.73889744 0.85345876 0.863776   0.86478865 0.82011044\n",
+      "  0.77472615 0.43941003 0.7532432  0.7775699  0.7492738  0.7495041\n",
+      "  0.8271534  0.46770984 0.77475417 0.72683036 0.80998313 0.4553116\n",
+      "  0.8437807  0.75127625 0.8239754  0.8759123 ]\n",
+      " [0.8414567  0.86158824 0.7993734  0.9158263  0.75114155 0.8754386\n",
+      "  0.8565251  0.75108814 0.8627944  0.8455615  0.8663789  0.8859818\n",
+      "  0.7832396  0.4651299  0.8199284  0.8319515  0.8332075  0.81501603\n",
+      "  0.8339864  0.5201047  0.85637003 0.763462   0.82180524 0.5130591\n",
+      "  0.8290285  0.82059264 0.84924185 0.8875982 ]\n",
+      " [0.75577044 0.74085385 0.737481   0.7770459  0.708807   0.79907984\n",
+      "  0.80543596 0.6826918  0.718661   0.7301651  0.7104209  0.8091022\n",
+      "  0.710036   0.4174271  0.80161786 0.8145112  0.7708455  0.76511174\n",
+      "  0.74256396 0.4779269  0.79805374 0.7345556  0.75847065 0.48508406\n",
+      "  0.7402287  0.755322   0.8002572  0.72530735]]\n",
+      "0.916689\n"
+     ]
+    }
+   ],
+   "source": [
+    "## calc with cpu\n",
+    "import time\n",
+    "from transformers import BertTokenizer, BertModel\n",
+    "import torch\n",
+    "import numpy as np\n",
+    "from sklearn.metrics.pairwise import cosine_similarity\n",
+    "\n",
+    "# 初始化模型和分词器\n",
+    "tokenizer = BertTokenizer.from_pretrained(\"G:/model_zoo/LM/bert-base-chinese/\")\n",
+    "bert_model = BertModel.from_pretrained(\"G:/model_zoo/LM/bert-base-chinese/\")\n",
+    "\n",
+    "# tgt和out列表\n",
+    "# tgt_list = ['症状', '器官', '检查']\n",
+    "# out_list = ['病状', '身体部位', '诊断','胃']\n",
+    "\n",
+    "tgt_list = ['乏力感', '厌世', '躯体不适', '社会功能严重受损', '兴趣减退', '言行紊乱', '脑器质性疾病', '情绪低落', '精神障碍', '情绪差伴躯体不适', '焦虑', '自责']\n",
+    "out_list = ['认知行为治疗', '与家人交流障碍', '偶有轻生想法', '长期适应性障碍', '利培酮', '心理治疗', '发呆', '独处时感到被支配', '沉迷学佛后出现精神异常', '与家人交流困难', '急性而短暂的精神病性障碍', '兴趣减退', '有被害妄想和攻击行为', '言语紊乱', '自知力可', '攻击行为', '心脏', '肝脏', '反应慢', '持续的情绪低落', '沉迷学佛', '氢溴酸西酞普兰', '无法胜任家务', '情绪低落', '急性起病', '被害妄想', '社会功能受损', '重度抑郁发作']\n",
+    "print(len(tgt_list))\n",
+    "print(len(out_list))\n",
+    "\n",
+    "# 获取词向量\n",
+    "def get_word_embedding(word):\n",
+    "    # 对单词进行编码\n",
+    "    input_ids = tokenizer.encode(word, add_special_tokens=True, return_tensors='pt')\n",
+    "    # 获取词向量\n",
+    "    with torch.no_grad():\n",
+    "        output = bert_model(input_ids)\n",
+    "    # 使用[CLS]标记的向量作为句子向量\n",
+    "    return output.last_hidden_state[:, 0, :].numpy()\n",
+    "\n",
+    "# 计算相似性矩阵\n",
+    "def calculate_similarity_matrix(words_list1, words_list2):\n",
+    "    if len(words_list1) > 0 and len(words_list2) > 0:\n",
+    "        embeddings1 = np.array([get_word_embedding(word) for word in words_list1])\n",
+    "        embeddings2 = np.array([get_word_embedding(word) for word in words_list2])\n",
+    "        \n",
+    "        # 计算余弦相似性矩阵\n",
+    "        similarity_matrix = cosine_similarity(embeddings1.reshape(embeddings1.shape[0],-1), embeddings2.reshape(embeddings2.shape[0],-1))\n",
+    "    else:\n",
+    "        similarity_matrix = np.zeros((2,2))\n",
+    "    return similarity_matrix\n",
+    "\n",
+    "time1 = time.time()\n",
+    "# 计算tgt和out列表的相似性矩阵\n",
+    "for i in range(50):\n",
+    "    similarity_matrix = calculate_similarity_matrix(tgt_list, out_list)\n",
+    "time2 = time.time()\n",
+    "time_cost = time2-time1\n",
+    "print(time_cost)\n",
+    "\n",
+    "# 打印相似性矩阵\n",
+    "print(similarity_matrix)\n",
+    "print(np.max(np.array(similarity_matrix),axis=1).mean())\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `beta` will be renamed internally to `bias`. Please use a different name to suppress this warning.\n",
+      "A parameter name that contains `gamma` will be renamed internally to `weight`. Please use a different name to suppress this warning.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "12\n",
+      "28\n",
+      "29.067501306533813\n",
+      "[[[-1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1. -1. ...  1. -1. -1.]\n",
+      "  ...\n",
+      "  [ 1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1.  1. ...  1. -1.  1.]\n",
+      "  [ 1.  1.  1. ...  1.  1.  1.]]\n",
+      "\n",
+      " [[ 1.  1.  1. ...  1.  1.  1.]\n",
+      "  [ 1.  1.  1. ...  1.  1.  1.]\n",
+      "  [ 1.  1. -1. ...  1. -1. -1.]\n",
+      "  ...\n",
+      "  [-1.  1.  1. ...  1.  1.  1.]\n",
+      "  [ 1.  1.  1. ...  1. -1.  1.]\n",
+      "  [-1.  1.  1. ...  1.  1.  1.]]\n",
+      "\n",
+      " [[ 1.  1. -1. ...  1.  1.  1.]\n",
+      "  [ 1.  1. -1. ...  1.  1.  1.]\n",
+      "  [ 1.  1.  1. ...  1. -1. -1.]\n",
+      "  ...\n",
+      "  [-1.  1. -1. ...  1.  1.  1.]\n",
+      "  [ 1.  1. -1. ...  1. -1.  1.]\n",
+      "  [-1.  1. -1. ...  1.  1.  1.]]\n",
+      "\n",
+      " ...\n",
+      "\n",
+      " [[ 1.  1.  1. ...  1.  1. -1.]\n",
+      "  [ 1.  1.  1. ...  1.  1. -1.]\n",
+      "  [ 1.  1. -1. ...  1. -1.  1.]\n",
+      "  ...\n",
+      "  [-1.  1.  1. ...  1.  1. -1.]\n",
+      "  [ 1.  1.  1. ...  1. -1. -1.]\n",
+      "  [-1.  1.  1. ...  1.  1. -1.]]\n",
+      "\n",
+      " [[-1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1. -1. ...  1. -1. -1.]\n",
+      "  ...\n",
+      "  [ 1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1.  1. ...  1. -1.  1.]\n",
+      "  [ 1.  1.  1. ...  1.  1.  1.]]\n",
+      "\n",
+      " [[-1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1. -1. ...  1. -1. -1.]\n",
+      "  ...\n",
+      "  [ 1.  1.  1. ...  1.  1.  1.]\n",
+      "  [-1.  1.  1. ...  1. -1.  1.]\n",
+      "  [ 1.  1.  1. ...  1.  1.  1.]]]\n",
+      "0.9941406\n"
+     ]
+    }
+   ],
+   "source": [
+    "## calc with gpu 反而更慢了。。。\n",
+    "import time\n",
+    "\n",
+    "from transformers import BertTokenizer, BertModel\n",
+    "import torch\n",
+    "import numpy as np\n",
+    "# from sklearn.metrics.pairwise import cosine_similarity\n",
+    "from torch.nn.functional import cosine_similarity\n",
+    "\n",
+    "# 初始化模型和分词器\n",
+    "tokenizer = BertTokenizer.from_pretrained(\"G:/model_zoo/LM/bert-base-chinese/\")\n",
+    "bert_model = BertModel.from_pretrained(\"G:/model_zoo/LM/bert-base-chinese/\")\n",
+    "\n",
+    "# tgt和out列表\n",
+    "# tgt_list = ['症状', '器官', '检查']\n",
+    "# out_list = ['病状', '身体部位', '诊断','胃']\n",
+    "\n",
+    "tgt_list = ['乏力感', '厌世', '躯体不适', '社会功能严重受损', '兴趣减退', '言行紊乱', '脑器质性疾病', '情绪低落', '精神障碍', '情绪差伴躯体不适', '焦虑', '自责']\n",
+    "out_list = ['认知行为治疗', '与家人交流障碍', '偶有轻生想法', '长期适应性障碍', '利培酮', '心理治疗', '发呆', '独处时感到被支配', '沉迷学佛后出现精神异常', '与家人交流困难', '急性而短暂的精神病性障碍', '兴趣减退', '有被害妄想和攻击行为', '言语紊乱', '自知力可', '攻击行为', '心脏', '肝脏', '反应慢', '持续的情绪低落', '沉迷学佛', '氢溴酸西酞普兰', '无法胜任家务', '情绪低落', '急性起病', '被害妄想', '社会功能受损', '重度抑郁发作']\n",
+    "print(len(tgt_list))\n",
+    "print(len(out_list))\n",
+    "\n",
+    "# 确保CUDA可用\n",
+    "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
+    "\n",
+    "# 将模型移动到GPU\n",
+    "bert_model.to(device)\n",
+    "\n",
+    "# 获取词向量\n",
+    "def get_word_embedding(word):\n",
+    "    # 对单词进行编码\n",
+    "    input_ids = tokenizer.encode(word, add_special_tokens=True, return_tensors='pt').to(device)\n",
+    "    # 获取词向量\n",
+    "    with torch.no_grad():\n",
+    "        output = bert_model(input_ids)\n",
+    "    # 使用[CLS]标记的向量作为句子向量\n",
+    "    # 将结果移回CPU，因为cosine_similarity需要numpy数组\n",
+    "    return output.last_hidden_state[:, 0, :]\n",
+    "\n",
+    "# 计算相似性矩阵\n",
+    "def calculate_similarity_matrix(words_list1, words_list2):\n",
+    "    if len(words_list1) > 0 and len(words_list2) > 0:\n",
+    "        embeddings1 = torch.stack([get_word_embedding(word) for word in words_list1])\n",
+    "        embeddings2 = torch.stack([get_word_embedding(word) for word in words_list2])\n",
+    "        \n",
+    "        # 计算余弦相似性矩阵\n",
+    "        # similarity_matrix = cosine_similarity(embeddings1.reshape(embeddings1.shape[0],-1), embeddings2.reshape(embeddings2.shape[0],-1))\n",
+    "        similarity_matrix = cosine_similarity(embeddings1.unsqueeze(1), embeddings2.unsqueeze(0), dim=2).cpu().numpy()\n",
+    "    \n",
+    "    else:\n",
+    "        similarity_matrix = np.zeros((2,2))\n",
+    "    return similarity_matrix\n",
+    "\n",
+    "\n",
+    "time1 = time.time()\n",
+    "# 计算tgt和out列表的相似性矩阵\n",
+    "for i in range(50):\n",
+    "    similarity_matrix = calculate_similarity_matrix(tgt_list, out_list)\n",
+    "time2 = time.time()\n",
+    "time_cost = time2-time1\n",
+    "print(time_cost)\n",
+    "\n",
+    "# 打印相似性矩阵\n",
+    "print(similarity_matrix)\n",
+    "print(np.max(np.array(similarity_matrix),axis=1).mean())\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "100\n"
+     ]
+    }
+   ],
+   "source": [
+    "import numpy as np\n",
+    "ner_result = np.load(r\"G:\\code\\R0\\chinese_medical_ner-main\\ccksyidu4k-ner-roformer\\ccksyidu4k-ner-roformer\\ner_result\\PsychClinical\\1shot\\gpt-3.5-turbo_api\\task3ner_result.npy\",allow_pickle=True)\n",
+    "print(len(ner_result))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "-------------------------------------------------- task5 --------------------------------------------------\n",
+      "gpt-3.5-turbo\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/gpt-3.5-turbo_api/task5/ner_result.npy not exist!!!\n",
+      "gpt-4o-mini\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/gpt-4o-mini_api/task5/ner_result.npy not exist!!!\n",
+      "gpt-4\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/gpt-4_api/task5/ner_result.npy not exist!!!\n",
+      "gemini-1.5-pro\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/gemini-1.5-pro_api/task5/ner_result.npy not exist!!!\n",
+      "glm4\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/glm4_api/task5/ner_result.npy not exist!!!\n",
+      "hunyuan-lite\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/hunyuan-lite_api/task5/ner_result.npy not exist!!!\n",
+      "hunyuan-pro\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/hunyuan-pro_api/task5/ner_result.npy not exist!!!\n",
+      "minimax\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/minimax_api/task5/ner_result.npy not exist!!!\n",
+      "spark-4ultra\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/spark-4ultra_api/task5/ner_result.npy not exist!!!\n",
+      "baichuan4\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/baichuan4_api/task5/ner_result.npy not exist!!!\n",
+      "deepseek\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/deepseek_api/task5/ner_result.npy not exist!!!\n",
+      "doubao-pro-32k\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/doubao-pro-32k_api/task5/ner_result.npy not exist!!!\n",
+      "ernie-4-8k\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/ernie-4-8k_api/task5/ner_result.npy not exist!!!\n",
+      "moonshot-v1-32k\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/moonshot-v1-32k_api/task5/ner_result.npy not exist!!!\n",
+      "yi-large\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/yi-large_api/task5/ner_result.npy not exist!!!\n",
+      "qwen-max\n",
+      "Error: G:/code/CMB_wuhu/src/ner_result/PsychClinical/0shot/qwen-max_api/task5/ner_result.npy not exist!!!\n"
+     ]
+    }
+   ],
+   "source": [
+    "### 计算性能指标\n",
+    "\n",
+    "import os\n",
+    "# model_id指定数据整理的格式 psychAiD与ChatGLM3的格式相同\n",
+    "\n",
+    "\n",
+    "nshot = 0\n",
+    "# for task in [1,3,5]:\n",
+    "for task in [5]:\n",
+    "\n",
+    "    print('-'*50,'task{}'.format(task),'-'*50)\n",
+    "\n",
+    "    for model in ['gpt-3.5-turbo','gpt-4o-mini','gpt-4','gemini-1.5-pro','glm4','hunyuan-lite','hunyuan-pro','minimax','spark-4ultra','baichuan4','deepseek','doubao-pro-32k','ernie-4-8k','moonshot-v1-32k','yi-large','qwen-max']: \n",
+    "    # for model in ['baichuan4']: \n",
+    "        \n",
+    "        print(model)\n",
+    "        if task == 5:\n",
+    "            nshot=0\n",
+    "        # ans_path = 'G:/code/CMB_0726/result-refined/API/{}shot/task{}_{}.json'.format(nshot,task,model)\n",
+    "        # dir_out = './ner_result/PsychClinical/{}shot/{}_api/task{}'.format(nshot,model,task)\n",
+    "\n",
+    "        ans_path = 'G:/code/CMB_wuhu/result-refined/API/{}shot/task{}_{}.json'.format(nshot,task,model)\n",
+    "        dir_out = 'G:/code/CMB_wuhu/src/ner_result/PsychClinical/{}shot/{}_api/task{}'.format(nshot,model,task)\n",
+    "\n",
+    "        # ans_path = 'G:/code/CMB_dali/result-refined/API/{}shot/task{}_{}.json'.format(nshot,task,model)\n",
+    "        # dir_out = 'G:/code/CMB_dali/src/ner_result/PsychClinical/{}shot/{}_api/task{}'.format(nshot,model,task)\n",
+    "\n",
+    "        \n",
+    "\n",
+    "        \n",
+    "        ner_path = dir_out +'/ner_result.npy'\n",
+    "\n",
+    "        if not os.path.exists(ner_path):\n",
+    "            print('Error:',ner_path,'not exist!!!')\n",
+    "            continue\n",
+    "        ner_result = np.load(ner_path,allow_pickle=True)\n",
+    "        ner_scores = []\n",
+    "        for tgt,out in ner_result:\n",
+    "            similarity_matrix = calculate_similarity_matrix(tgt, out)\n",
+    "\n",
+    "            # 打印相似性矩阵\n",
+    "            # print(similarity_matrix)\n",
+    "            ner_score = np.max(np.array(similarity_matrix),axis=1).mean()\n",
+    "            ner_scores.append(ner_score)\n",
+    "        ner_scores_mean = np.mean(ner_scores)\n",
+    "        ner_scores_std = np.std(ner_scores)\n",
+    "        print('ner score:{}±{}'.format(ner_scores_mean,ner_scores_std))\n",
+    "        import json\n",
+    "\n",
+    "        # Load the uploaded JSON file\n",
+    "        file_path = dir_out +'/metrics.json'\n",
+    "\n",
+    "        # Read the content of the file\n",
+    "        with open(file_path, 'r') as file:\n",
+    "            metrics = json.load(file)\n",
+    "\n",
+    "        # Display the content of the JSON file to understand its structure\n",
+    "        metrics['NER-score'] = {'avg':float(ner_scores_mean),'std':float(ner_scores_std)}\n",
+    "        with open(file_path, 'w') as file:\n",
+    "            file.write(json.dumps(metrics))\n",
+    "            "
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "py310",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.13"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

chinese_medical_ner/ccksyidu4k-ner-roformer/config.py ADDED Viewed

	@@ -0,0 +1,9 @@

+maxlen = 300
+epochs = 999
+batch_size = 16
+bert_layers = 12
+crf_lr_multiplier = 1000  # 必要时扩大CRF层的学习率
+model_type = 'roformer_v2'
+dropout_rate = 0.1
+max_lr = 1e-5
+lstm_hidden_units = 128

chinese_medical_ner/ccksyidu4k-ner-roformer/cudnn-7.6.5-cuda10.0_0.conda ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:291587fe1bbbff0dc3154f3f5cf9e011b8264d124dedad5f257efa39726a4557
+size 172137578

chinese_medical_ner/ccksyidu4k-ner-roformer/data/chip.train ADDED Viewed