modeling_patent.py · yushize/patent-classifier-personal at main

patent-classifier-personal / modeling_patent.py

Upload folder using huggingface_hub

6eb6b2e verified 5 months ago

2.94 kB

	# modeling_patent.py
	import torch
	import torch.nn as nn
	from transformers import AutoModel, AutoTokenizer, AutoModelForCausalLM
	from transformers import PreTrainedModel, PretrainedConfig


	class PatentClassifierConfig(PretrainedConfig):
	model_type = "patent_classifier" # 必须与config.json中的model_type一致

	def __init__(self,
	model_name="Qwen/Qwen3-0.6B",
	hidden_dims=[512, 256],
	output_dim=9,
	dropout_rate=0.1,
	max_length=256,** kwargs):
	super().__init__(**kwargs)
	self.model_name = model_name
	self.hidden_dims = hidden_dims
	self.output_dim = output_dim
	self.dropout_rate = dropout_rate
	self.max_length = max_length


	class PatentClassifier(PreTrainedModel):
	config_class = PatentClassifierConfig

	def __init__(self, config):
	super().__init__(config)
	self.config = config
	# 加载基础模型
	if "qwen" in config.model_name.lower():
	self.base_llm_model = AutoModelForCausalLM.from_pretrained(
	config.model_name,
	trust_remote_code=True
	)
	else:
	self.base_llm_model = AutoModel.from_pretrained(config.model_name)
	# 固定预训练模型参数
	for param in self.base_llm_model.parameters():
	param.requires_grad = False

	# 添加MLP分类头
	self.hidden_size = self.base_llm_model.config.hidden_size
	layers = []
	input_dim = self.hidden_size
	for dim in config.hidden_dims:
	layers.append(nn.Linear(input_dim, dim))
	layers.append(nn.ReLU())
	layers.append(nn.Dropout(config.dropout_rate))
	input_dim = dim
	layers.append(nn.Linear(input_dim, config.output_dim))
	self.classifier = nn.Sequential(*layers)

	# 加载分词器
	self.tokenizer = AutoTokenizer.from_pretrained(config.model_name)

	def forward(self, input_ids, attention_mask):
	with torch.no_grad():
	outputs = self.base_llm_model(
	input_ids=input_ids,
	attention_mask=attention_mask,
	output_hidden_states=True
	)
	last_hidden_state = outputs.hidden_states[-1]
	attention_mask = attention_mask.unsqueeze(-1)
	weighted_hidden = last_hidden_state * attention_mask
	cls_embedding = weighted_hidden.sum(dim=1) / attention_mask.sum(dim=1).clamp(min=1e-9)
	return self.classifier(cls_embedding)

	def tokenize(self, texts, max_length=None):
	max_length = max_length or self.config.max_length
	return self.tokenizer(
	texts,
	max_length=max_length,
	padding="max_length",
	truncation=True,
	return_tensors="pt"
	)