Instructions to use LiquidAI/LFM2-350M-PII-Extract-JP with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use LiquidAI/LFM2-350M-PII-Extract-JP with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-generation", model="LiquidAI/LFM2-350M-PII-Extract-JP") messages = [ {"role": "user", "content": "Who are you?"}, ] pipe(messages)# Load model directly from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("LiquidAI/LFM2-350M-PII-Extract-JP") model = AutoModelForCausalLM.from_pretrained("LiquidAI/LFM2-350M-PII-Extract-JP") messages = [ {"role": "user", "content": "Who are you?"}, ] inputs = tokenizer.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt", ).to(model.device) outputs = model.generate(**inputs, max_new_tokens=40) print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:])) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- vLLM
How to use LiquidAI/LFM2-350M-PII-Extract-JP with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "LiquidAI/LFM2-350M-PII-Extract-JP" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "LiquidAI/LFM2-350M-PII-Extract-JP", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker
docker model run hf.co/LiquidAI/LFM2-350M-PII-Extract-JP
- SGLang
How to use LiquidAI/LFM2-350M-PII-Extract-JP with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "LiquidAI/LFM2-350M-PII-Extract-JP" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "LiquidAI/LFM2-350M-PII-Extract-JP", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "LiquidAI/LFM2-350M-PII-Extract-JP" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "LiquidAI/LFM2-350M-PII-Extract-JP", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }' - Docker Model Runner
How to use LiquidAI/LFM2-350M-PII-Extract-JP with Docker Model Runner:
docker model run hf.co/LiquidAI/LFM2-350M-PII-Extract-JP
Update README.md
#1
by kohsei - opened
README.md
CHANGED
|
@@ -60,7 +60,7 @@ license_link: LICENSE
|
|
| 60 |
</div>
|
| 61 |
</center>
|
| 62 |
|
| 63 |
-
([_日本語はこちら
|
| 64 |
|
| 65 |
# LFM2-350M-PII-Extract-JP
|
| 66 |
|
|
@@ -148,17 +148,17 @@ If you are interested in custom solutions with edge deployment, please contact [
|
|
| 148 |
|
| 149 |
# LFM2-350M-PII-Extract-JP (日本語)
|
| 150 |
|
| 151 |
-
[**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語
|
| 152 |
-
|
| 153 |
|
| 154 |
-
特に以下の情報を抽出するように訓練されています
|
| 155 |
* 住所/所在地(JSON key: `address`)
|
| 156 |
* 企業/研究機関/組織名(JSON key: `company_name`)
|
| 157 |
* メールアドレス(JSON key: `email_address`)
|
| 158 |
* 人名(JSON key: `human_name`)
|
| 159 |
* 電話番号(JSON key: `phone_number`)
|
| 160 |
|
| 161 |
-
これらを日本語の文書
|
| 162 |
|
| 163 |
---
|
| 164 |
|
|
@@ -168,24 +168,24 @@ If you are interested in custom solutions with edge deployment, please contact [
|
|
| 168 |
|
| 169 |
---
|
| 170 |
|
| 171 |
-
##
|
| 172 |
|
| 173 |
-
[**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) から
|
| 174 |
-
**LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をデバイス上で実現します!
|
| 175 |
|
| 176 |

|
| 177 |
|
| 178 |
> [!NOTE]
|
| 179 |
-
> 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII
|
| 180 |
-
> こ
|
| 181 |
>
|
| 182 |
-
> ただし、ベースモデルとして今後さらなる
|
| 183 |
> - 組織固有の識別番号の抽出対応
|
| 184 |
> - 生年月日、パスポート番号などの追加カテゴリへの拡張
|
| 185 |
-
> - 特定カテゴリにおける抽出性能のさらなる
|
| 186 |
>
|
| 187 |
> これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
|
| 188 |
-
>
|
| 189 |
|
| 190 |
---
|
| 191 |
|
|
@@ -201,12 +201,12 @@ Extract , <company_name>, <email_address>, <human_name>, <phone_number>
|
|
| 201 |
例: `Extract <human_name>` と設定した場合、人名のみを出力します。
|
| 202 |
|
| 203 |
> [!WARNING]
|
| 204 |
-
> ⚠️
|
| 205 |
|
| 206 |
---
|
| 207 |
|
| 208 |
**チャットテンプレート**
|
| 209 |
-
LFM2-PII-Extract-JP は以下のような ChatML 風テンプレートを使用します
|
| 210 |
|
| 211 |
<|startoftext|><|im_start|>system
|
| 212 |
Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
|
|
@@ -218,18 +218,18 @@ Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|
|
|
| 218 |
このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
|
| 219 |
|
| 220 |
> [!WARNING]
|
| 221 |
-
> ⚠️ このモデルは **単一ターンの会話** に最適化されています。
|
| 222 |
|
| 223 |
---
|
| 224 |
|
| 225 |
**出力形式**
|
| 226 |
|
| 227 |
-
モデルは、指定されたエンティティを含
|
| 228 |
各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
|
| 229 |
-
該当する場合は、そのカテゴリごとに抽出された文字列のリストを返します。
|
| 230 |
|
| 231 |
-
モデルは、**テキスト中に現れる形で正確にエンティティを出力**するように訓練されています。
|
| 232 |
-
同じエンティティが複数回
|
| 233 |
|
| 234 |
---
|
| 235 |
|
|
|
|
| 60 |
</div>
|
| 61 |
</center>
|
| 62 |
|
| 63 |
+
([_日本語はこちらから_](#lfm2-350m-pii-extract-jp-日本語))
|
| 64 |
|
| 65 |
# LFM2-350M-PII-Extract-JP
|
| 66 |
|
|
|
|
| 148 |
|
| 149 |
# LFM2-350M-PII-Extract-JP (日本語)
|
| 150 |
|
| 151 |
+
[**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語文書から個人を特定できる情報(PII)を抽出し、JSON 形式で出力します**。
|
| 152 |
+
契約書、電子メール、個人の医療報告書、並びに保険請求書などの機密情報を、デバイス上で直接マスキングできます。
|
| 153 |
|
| 154 |
+
特に以下の情報を抽出するように訓練されています。
|
| 155 |
* 住所/所在地(JSON key: `address`)
|
| 156 |
* 企業/研究機関/組織名(JSON key: `company_name`)
|
| 157 |
* メールアドレス(JSON key: `email_address`)
|
| 158 |
* 人名(JSON key: `human_name`)
|
| 159 |
* 電話番号(JSON key: `phone_number`)
|
| 160 |
|
| 161 |
+
これらの情報を日本語の文書から抽出します。
|
| 162 |
|
| 163 |
---
|
| 164 |
|
|
|
|
| 168 |
|
| 169 |
---
|
| 170 |
|
| 171 |
+
## 性能
|
| 172 |
|
| 173 |
+
[**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) から無作為に抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル(思考モードあり)など、複数のモデルとの比較評価を行いました。
|
| 174 |
+
**LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をあなたのデバイス上で実現します!
|
| 175 |
|
| 176 |

|
| 177 |
|
| 178 |
> [!NOTE]
|
| 179 |
+
> 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII 抽出性能を有しますが、私たちの主な目的は、**コミュニティによって継続的に改良される柔軟な基盤モデルを提供すること**です。
|
| 180 |
+
> このモデルで、誰でもプライバシー重視の高品質なマスキングシステムを容易に構築できます。
|
| 181 |
>
|
| 182 |
+
> ただし、ベースモデルとして今後さらなる改善の余地があります。特に以下のような専門的な利用用途が想定されます。
|
| 183 |
> - 組織固有の識別番号の抽出対応
|
| 184 |
> - 生年月日、パスポート番号などの追加カテゴリへの拡張
|
| 185 |
+
> - 特定カテゴリにおける抽出性能のさらなる改善
|
| 186 |
>
|
| 187 |
> これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
|
| 188 |
+
> LFM2-350M-PII-Extract-JP は完成形ではなく、**実運用ニーズに応じた多様な PII 抽出モデル群を生み出す出発点**であると位置づけています。
|
| 189 |
|
| 190 |
---
|
| 191 |
|
|
|
|
| 201 |
例: `Extract <human_name>` と設定した場合、人名のみを出力します。
|
| 202 |
|
| 203 |
> [!WARNING]
|
| 204 |
+
> ⚠️ モデルの性能を最大限発揮させるには、上記のように **エンティティカテゴリをアルファベット順** に並べてください。
|
| 205 |
|
| 206 |
---
|
| 207 |
|
| 208 |
**チャットテンプレート**
|
| 209 |
+
LFM2-PII-Extract-JP は以下のような ChatML 風テンプレートを使用します。
|
| 210 |
|
| 211 |
<|startoftext|><|im_start|>system
|
| 212 |
Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
|
|
|
|
| 218 |
このテンプレートは、Hugging Face Transformers の専用関数 [`.apply_chat_template()`](https://huggingface.co/docs/transformers/en/chat_templating#applychattemplate) を使用して自動的に適用できます。
|
| 219 |
|
| 220 |
> [!WARNING]
|
| 221 |
+
> ⚠️ このモデルは **一問一答形式 (単一ターン) の会話** に最適化されています。
|
| 222 |
|
| 223 |
---
|
| 224 |
|
| 225 |
**出力形式**
|
| 226 |
|
| 227 |
+
モデルは、指定されたエンティティを含んだ JSON 形式で出力します。
|
| 228 |
各カテゴリに該当するエンティティが見つからない場合は、空のリストを返します。
|
| 229 |
+
該当するエンティティが存在する場合は、そのカテゴリごとに抽出された文字列のリストを返します。
|
| 230 |
|
| 231 |
+
モデルは、**テキスト中に現れる形式で正確にエンティティを出力**するように訓練されています。
|
| 232 |
+
同じエンティティが複数回登場し表記に揺れがある場合でも、すべての表記バリエーションを出力し、マスキング時に完全一致で対応できるようになっています。
|
| 233 |
|
| 234 |
---
|
| 235 |
|