Upload folder using huggingface_hub

5000658 verified over 1 year ago

13.3 kB

	from dataclasses import dataclass
	from enum import Enum
	from typing import Dict, List, Set

	import numpy as np
	import tensorrt as trt
	import torch

	from tensorrt_llm._common import _is_building
	from tensorrt_llm._utils import (trt_dtype_to_np, trt_dtype_to_str,
	trt_dtype_to_torch)
	from tensorrt_llm.logger import logger

	from .pipeline_graph import PipelineGraph
	from .utils import (get_builder_flags, get_cache_key, get_sorted_layer_ids,
	set_trt_network, to_base_class_layer, to_subclass_layer,
	to_trt_weights)


	class ShapeType(Enum):
	MIN = 0
	OPT = 1
	MAX = 2


	_trt_to_type_dict = {
	trt.int64: int,
	trt.bool: bool,
	}


	def get_shape_layers(trt_network):
	shape_layers = set()
	for i in range(trt_network.num_layers):
	layer = trt_network.get_layer(i)
	if (layer.num_inputs > 0 and np.all([
	layer.get_input(j).is_shape_tensor
	for j in range(layer.num_inputs)
	if layer.get_input(j) is not None
	])) or (layer.num_outputs > 0 and np.all([
	layer.get_output(j).is_shape_tensor
	for j in range(layer.num_outputs)
	])):
	shape_layers.add(layer.name)
	return shape_layers


	def get_layers_in_shape_network(trt_network, shape_layers, sorted_layer_ids):
	layers = set()
	shape_tensors = set()
	for layer_id in reversed(sorted_layer_ids):
	layer = trt_network.get_layer(layer_id)
	in_shape_network = False
	if layer.name in shape_layers:
	in_shape_network = True
	else:
	for j in range(layer.num_outputs):
	output = layer.get_output(j)
	if output.name in shape_tensors:
	in_shape_network = True
	break
	if in_shape_network:
	layers.add(layer.name)
	for j in range(layer.num_inputs):
	input = layer.get_input(j)
	if input is not None:
	shape_tensors.add(input.name)
	return layers


	def get_shape_network(trt_network,
	shapes,
	values,
	sorted_layer_ids,
	profile=None,
	shape_type: ShapeType = ShapeType.OPT):
	shape_layers = get_shape_layers(trt_network)
	layers_in_shape_network = get_layers_in_shape_network(
	trt_network, shape_layers, sorted_layer_ids)
	shape_graph = PipelineGraph.create_graph()
	shape_network = shape_graph.as_trt()
	shape_builder = shape_network.builder
	shape_profile = shape_builder.create_optimization_profile()
	for i in range(trt_network.num_inputs):
	input = trt_network.get_input(i)
	shapes[input.name] = input.shape
	new_input = shape_graph.add_input(input)
	if profile is not None:
	if -1 in input.shape:
	shape = profile.get_shape(input.name)
	shape = shape[shape_type.value]
	shapes[input.name] = shape
	new_input.raw_shape = shape
	if input.is_shape_tensor:
	shape_values = profile.get_shape_input(input.name)
	value = shape_values[shape_type.value]
	values[input.name] = value
	shape_profile.set_shape_input(input.name, value, value, value)
	output_mapping = {}
	for layer_id in sorted_layer_ids:
	layer = trt_network.get_layer(layer_id)
	if layer.name in shape_layers:
	new_layer = shape_graph.add_layer(layer)
	for i in range(layer.num_outputs):
	output = layer.get_output(i)
	if output.dtype == trt.DataType.BOOL:
	proxy_layer = shape_network.add_cast(
	new_layer.as_trt().get_output(i),
	trt.DataType.INT32,
	)
	proxy_output = proxy_layer.get_output(0)
	shape_graph.register_layer(proxy_layer)
	shape_graph.add_output_shape(proxy_output)
	output_mapping[proxy_output.name] = (output.name,
	output.dtype)
	else:
	shape_graph.add_output_shape(output)
	elif layer.name in layers_in_shape_network:
	if layer.type == trt.LayerType.CONSTANT:
	shape_graph.add_input(layer.get_output(0))
	else:
	shape_graph.add_layer(layer)
	return shape_network, shape_profile, shape_layers, output_mapping


	def get_per_layer_graph(
	layer,
	shapes,
	values,
	updated_attrs=None,
	is_shape_io: bool = None,
	):
	graph = PipelineGraph.create_graph()
	network = graph.as_trt()
	is_shape_layer = layer.num_inputs != 0
	for i in range(layer.num_inputs):
	input = layer.get_input(i)
	if input is not None:
	shape = shapes[input.name]
	if (values.get(input.name) is not None
	and not isinstance(values[input.name], torch.Tensor)):
	value = values[input.name]
	weights = np.asarray(value, dtype=trt_dtype_to_np(input.dtype))
	weights = to_trt_weights(weights)
	input_layer = network.add_constant(shape, weights)
	new_input = input_layer.get_output(0)
	new_input.name = input.name
	graph.register_layer(input_layer)
	elif graph.get_input(input.name) is None:
	new_input = graph.add_input(input)
	new_input.raw_shape = shapes[input.name]
	is_shape_layer = False
	new_layer = graph.add_layer(
	layer,
	updated_attrs=updated_attrs,
	)
	output_mapping = {}
	if layer.type == trt.LayerType.SHAPE:
	is_shape_layer = True
	if layer.num_inputs == 0:
	is_shape_layer = False
	if is_shape_io is not None:
	is_shape_layer = is_shape_io
	for i in range(layer.num_outputs):
	output = layer.get_output(i)
	value = values.get(output.name)
	if value is not None and isinstance(value, torch.Tensor):
	is_output_shape = False
	elif is_shape_layer:
	is_output_shape = True
	else:
	is_output_shape = False
	if is_output_shape:
	if output.dtype == trt.DataType.BOOL:
	proxy_layer = network.add_cast(
	new_layer.as_trt().get_output(i),
	trt.DataType.INT32,
	)
	proxy_output = proxy_layer.get_output(0)
	graph.register_layer(proxy_layer)
	output_mapping[proxy_output.name] = (output.name, output.dtype)
	output = proxy_output
	graph.add_output_shape(output)
	else:
	graph.add_output(output)
	return graph, output_mapping


	@_is_building
	def infer_shapes(network, shapes, values, profile=None):
	if network.num_outputs == 0:
	return
	builder = network.builder
	config = builder.create_builder_config()
	config.builder_optimization_level = 0
	config.flags = get_builder_flags()
	profile = profile or builder.create_optimization_profile()
	config.add_optimization_profile(profile)
	plan = builder.build_serialized_network(network, config)
	if plan is None:
	raise RuntimeError(
	'Engine building failed when inferring shapes, please check the error log.'
	)
	runtime = trt.Runtime(logger.trt_logger)
	engine = runtime.deserialize_cuda_engine(plan)
	context = engine.create_execution_context()
	for i in range(network.num_inputs):
	input = network.get_input(i)
	if input.is_shape_tensor:
	value = values[input.name]
	context.set_shape_input(engine[input.name], value)
	for i in range(network.num_outputs):
	output = network.get_output(i)
	shape = context.get_tensor_shape(output.name)
	shapes[output.name] = shape
	if output.is_shape_tensor:
	if shape == [0]:
	values[output.name] = []
	else:
	if shape == []:
	shape = [1]
	value = torch.empty(
	list(shape),
	dtype=trt_dtype_to_torch(output.dtype),
	device="cpu",
	)
	values[output.name] = value
	context.set_tensor_address(output.name, value.data_ptr())
	context.infer_shapes()
	assert context.all_binding_shapes_specified
	for i in range(network.num_outputs):
	output = network.get_output(i)
	if isinstance(values.get(output.name), torch.Tensor):
	values[output.name] = values[output.name].tolist()


	@dataclass
	class ShapeInfo:
	shapes: Dict[str, trt.Dims]
	values: Dict[str, List[int]]
	shape_layers: Set[str]
	max_shapes: Dict[str, trt.Dims] = None


	def set_constant_value(layer, values):
	to_subclass_layer(layer)
	output_name = layer.get_output(0).name
	weights = layer.weights
	if isinstance(weights, trt.Weights):
	weights = weights.numpy()
	values[output_name] = list(weights)
	to_base_class_layer(layer)


	def infer_per_layer_shapes(
	layer: trt.ILayer,
	shapes,
	values,
	cache=None,
	is_shape_io=False,
	):
	if layer.type == trt.LayerType.CONSTANT:
	to_subclass_layer(layer)
	output_name = layer.get_output(0).name
	shape = layer.shape
	shapes[output_name] = shape
	if is_shape_io:
	set_constant_value(layer, values)
	to_base_class_layer(layer)
	return
	elif layer.type == trt.LayerType.SHAPE:
	input_name = layer.get_input(0).name
	output_name = layer.get_output(0).name
	shape = [*shapes[input_name]]
	shapes[output_name] = trt.Dims([len(shape)])
	values[output_name] = shape
	return
	if cache is not None:
	cache_key = get_cache_key(layer, shapes, values)
	if cache_key in cache:
	output_shapes, output_values = cache[cache_key]
	for i in range(layer.num_outputs):
	output = layer.get_output(i)
	shapes[output.name] = output_shapes[i]
	if output_values[i] is not None:
	values[output.name] = output_values[i]
	return
	graph, output_mapping = get_per_layer_graph(layer, shapes, values)
	dtypes = [
	trt_dtype_to_str(layer.get_input(i).dtype)
	for i in range(layer.num_inputs)
	]
	layer_info = (f"type={cache_key[0]}, "
	f"attrs={dict(cache_key[1])}, "
	f"dtypes={dtypes}, "
	f"shapes={list(cache_key[2])}, "
	f"values={list(cache_key[3])}")
	logger.debug(f"infer shapes for layer {layer.name} ({layer_info})")
	try:
	infer_shapes(graph.as_trt(), shapes, values)
	except RuntimeError as e:
	raise RuntimeError(
	f"infer shapes failed for layer {layer.name} ({layer_info})") from e
	for proxy_output, (output, dtype) in output_mapping.items():
	shapes[output] = shapes[proxy_output]
	del shapes[proxy_output]
	if proxy_output in values:
	values[output] = [
	*map(_trt_to_type_dict[dtype], values[proxy_output])
	]
	del values[proxy_output]
	if cache is not None:
	logger.debug(
	f"shape inference cache miss, layer: {layer.name}, cache key: {cache_key}"
	)
	output_shapes = []
	output_values = []
	for i in range(layer.num_outputs):
	output = layer.get_output(i)
	output_shapes.append(shapes[output.name])
	output_values.append(values.get(output.name))
	cache[cache_key] = (output_shapes, output_values)


	def get_shape_info(trt_network, profile, shape_type: ShapeType = ShapeType.OPT):
	shapes = {}
	values = {}
	sorted_layer_ids = get_sorted_layer_ids(trt_network)
	infer_shape_layers = False

	shape_network, shape_profile, shape_layers, output_mapping = get_shape_network(
	trt_network,
	shapes,
	values,
	sorted_layer_ids,
	profile=profile,
	shape_type=shape_type)
	try:
	infer_shapes(shape_network, shapes, values, shape_profile)
	for proxy_output, (output, dtype) in output_mapping.items():
	shapes[output] = shapes[proxy_output]
	values[output] = [
	*map(_trt_to_type_dict[dtype], values[proxy_output])
	]
	del shapes[proxy_output]
	del values[proxy_output]
	except RuntimeError:
	infer_shape_layers = True

	cache = {}
	for layer_id in sorted_layer_ids:
	layer = trt_network.get_layer(layer_id)
	is_shape_io = layer.name in shape_layers
	if is_shape_io and not infer_shape_layers:
	continue
	set_trt_network(layer, trt_network)
	infer_per_layer_shapes(layer,
	shapes,
	values,
	cache,
	is_shape_io=is_shape_io)
	return ShapeInfo(shapes, values, shape_layers)