Duplicate from GuiminHu/HapticLLaMA

4b26fbb 23 days ago

9.23 kB

	---
	license: apache-2.0
	datasets:
	- GuiminHu/HapticCap
	- GuiminHu/VibRate
	language:
	- en
	metrics:
	- bleu
	- meteor
	- rouge
	base_model:
	- meta-llama/Llama-3.1-8B
	tags:
	- code
	---

	# 📌 HapticLLaMA: A Multimodal Sensory Language Model for Haptic Captioning

	Arxiv: https://arxiv.org/pdf/2508.06475?

	Codes: https://github.com/LeMei/HapticLLaMA

	---

	## 📖 Introduction
	HapticLLaMA is a multimodal sensory language model that interprets vibration signals into descriptions in a given sensory, emotional, or associative category.
	HapticLLaMA is trained in two stages: (1) supervised fine-tuning using the LLaMA architecture with LoRA-based adaptation, and (2) fine-tuning via reinforcement
	learning from human feedback (RLHF).

	---

	## 🧩 Tasks
	Given a vibration signal S and a target category c ∈ {sensory, emotional, associative}, where sensory refers to physical attributes (e.g.,intensity of tapping), emotional denotes affective
	impressions (e.g., the mood of a scene), and associative indicates real-world familiar experiences (e.g., buzzing of a bee, a heartbeat), the goal is to generate a caption corresponding to the specified category of haptic experience.

	---

	## 📂 Training
	HapticLLaMA training is consist of (1) supervised fine-tuning with LoRA adaptation and (2) subsequent fine-tuning based on human feedback on generated captions.

	<img width="925" height="557" alt="image" src="https://github.com/user-attachments/assets/28a0aa75-d011-4870-b9ec-b9b3607eb8d8" />

	---

	## 📂 Haptic Tokenizer
	- Frequency-based Tokenizer:

	<img width="361" height="211" alt="image" src="https://github.com/user-attachments/assets/ca848d0b-18d5-4ad5-89e4-268399aad801" />

	Frequency-based Tokenizer divides the frequency range into logarithmically spaced bins that correspond to just-noticeable ifferences in human frequency perception. Similarly, the amplitude range is segmented into normalized levels. The tokenizer then assigns a unique
	token (e.g., FREQ_3_AMP_2) to each frequencyamplitude pair, encoding the signal’s spectral content into a form interpretable by LLMs.
	```python
	import librosa

	def steps_binning(frequencies, amplitudes, freq_bins=10, amp_levels=5):

	freq_min, freq_max = np.min(frequencies), np.max(frequencies)
	freq_min = freq_max / (1.2**(freq_bins-1))
	freq_edges = np.geomspace(freq_min, freq_min * 1.2**(freq_bins-1), num=freq_bins)
	freq_labels = [f"FREQ_{i+1}" for i in range(freq_bins)]
	amp_min, amp_max = np.min(amplitudes), np.max(amplitudes)
	if amp_min == amp_max:
	# breakpoint()
	amplitudes = np.zeros_like(frequencies)
	amp_edges = np.linspace(0, 1, amp_levels + 1)
	else:
	amplitudes = (amplitudes - amp_min) / (amp_max - amp_min)
	amp_min = amp_max / (1.2**(amp_levels-1))
	amp_edges = np.geomspace(amp_min, amp_max, num=amp_levels)

	amp_labels = [f"AMP_{i+1}" for i in range(amp_levels)]

	tokens = []
	for f, a in zip(frequencies, amplitudes):
	freq_bin = np.digitize(f, freq_edges) - 1
	freq_bin = min(freq_bin, freq_bins - 1)
	freq_token = freq_labels[freq_bin]

	amp_bin = np.digitize(a, amp_edges) - 1
	amp_bin = min(amp_bin, amp_levels - 1)
	amp_token = amp_labels[amp_bin]

	tokens.append(f"{freq_token}_{amp_token}")
	return tokens

	### start load .wav file and tokenize
	y, sr = librosa.load(wav_file, sr=None)

	D = librosa.stft(y, n_fft=n_fft, hop_length=hop_length)
	frequencies = librosa.fft_frequencies(sr=sr, n_fft=n_fft)
	magnitudes = np.abs(D)
	magnitudes = magnitudes / np.max(magnitudes)
	frame_idx = 10
	amplitudes = magnitudes[:, frame_idx]
	mask = frequencies < 500
	frequencies_filtered = frequencies[mask]
	amplitudes_filtered = amplitudes[mask]
	###haptic tokens based on Frequency-base haptic tokenizer
	tokens = steps_binning(frequencies_filtered, amplitudes_filtered, freq_bins=freq_bins,amp_levels=amp_levels)

	```
	---
	- EnCodec-based Tokenizer:

	<img width="317" height="172" alt="image" src="https://github.com/user-attachments/assets/35e50d2e-c21f-4fc1-8953-74305a752ee0" />

	EnCodec is a neural audio codec that compresses audio using deep learning (Défossez et al., 2023). It consists of three
	main components: (1) an encoder that transforms raw audio into a lower-dimensional latent representation, (2) a quantizer that discretizes the latent features via residual vector quantization, and (3) a decoder that reconstructs the waveform from the quantized codes. EnCodec-based tokenizer extract the codes from residual vector quantization in the audio compression architecture.

	```python
	from transformers import AutoTokenizer,AutoProcessor,EncodecModel

	encodec_model = EncodecModel.from_pretrained("facebook/encodec_24khz")
	processor = AutoProcessor.from_pretrained("facebook/encodec_24khz")

	### EnCodec-based Tokenizer
	def encodec_token(wav_file):
	data_dict = {"audio": [wav_file]}
	data_dataset = Dataset.from_dict(data_dict).cast_column("audio", Audio())
	audio_sample = data_dataset[-1]["audio"]["array"]
	inputs = processor(raw_audio=audio_sample, sampling_rate=24000, return_tensors="pt")
	with torch.no_grad():
	encoded_frames = encodec_model.encode(inputs["input_values"], inputs["padding_mask"])
	tokens = encoded_frames.audio_codes[0][0]
	tokens_list = [str(token) for token in tokens[0].tolist()]

	return tokens_list
	```
	---
	## 📂 Inference

	Given a haptic signal, we prompt HapticLLaMA to generate captions from sensory, emotional, and associative perspectives.

	<img width="448" height="329" alt="image" src="https://github.com/user-attachments/assets/2ea17083-5da3-47f2-9781-7f17912d08cc" />

	```python
	import torch
	from torch import nn
	import librosa

	#load model--HapticLLaMA
	def load_model(stage, device, mode, model_file_url):
	if os.path.exists(model_file_url):
	model = Model(args, mode=mode)
	lora_state_dict = torch.load(model_file_url)
	state_name, model_name = [], []
	for name, param in model.named_parameters():
	model_name.append(name)
	for name in lora_state_dict.keys():
	state_name.append(name)
	missing_keys, unexpected_keys = model.load_state_dict(lora_state_dict, strict=False)
	model.to(device)
	else:
	print('invalid model url!')
	model = None
	return model

	###load pretrained haptic tokenizer

	frequency_tokenizer = AutoTokenizer.from_pretrained(r"./updated_llama_tokenizer_steps_binning.pt/")
	encodec_tokenizer = AutoTokenizer.from_pretrained(r"./updated_llama_tokenizer_encodec.pt/")

	#formalize input for inference
	def tokenizer_haptic(haptic, prompt, mode):

	def formalize_input(haptic_tokens, tokenizer, prompt):
	tokenizer.pad_token = tokenizer.eos_token

	inputs = tokenizer(haptic_tokens, padding=True, truncation=True, return_tensors="pt")
	input_ids = inputs.input_ids
	input_atts = inputs.attention_mask

	prompt_enc = tokenizer(prompt, padding=True, truncation=True, return_tensors="pt")
	prompt_ids = prompt_enc.input_ids
	prompt_atts = prompt_enc.attention_mask

	prompt_ids = torch.cat((input_ids,prompt_ids),dim=1)
	prompt_atts = torch.cat((input_atts,prompt_atts),dim=1)


	return input_ids,input_atts, prompt_ids, prompt_atts

	###Frequency-based token formalization
	if mode == 'frequency':
	freq_haptic_tokens = frequency_tokenizer(haptic, mode='frequency)
	freq_haptic_tokens = [' '.join(freq_haptic_tokens)]
	freq_input_ids,freq_input_atts, freq_prompt_ids, freq_prompt_atts = formalize_input(freq_haptic_tokens, frequency_tokenizer, prompt=prompt)
	return freq_input_ids, freq_input_atts, freq_prompt_ids, freq_prompt_atts
	elif mode == 'encodec':
	###Encodec-based token formalization
	encodec_haptic_tokens = encodec_token(haptic, mode='encodec')
	encodec_haptic_tokens = [' '.join(encodec_haptic_tokens)]
	encodec_input_ids, encodec_input_atts, encodec_prompt_ids, prompt_atts = formalize_input(encodec_haptic_tokens, encodec_tokenizer, prompt=prompt)
	return encodec_input_ids, encodec_input_atts, encodec_prompt_ids, prompt_atts

	```
	Inference for one sample

	```python
	haptic_signal = r'./F211_loop.wav'
	sensory_prompt = 'its sensory description is'
	##for emotional and associative
	##emotional_prompt = 'its emotional description is'
	##associative_prompt = 'its associative description is'
	input_ids, input_atts, prompt_ids, prompt_atts = tokenizer_haptic(haptic_signal, sensory_prompt, mode='encodec')
	hapticllama = load_model(stage=1, device='cuda', mode='encodec', model_file_url=encodec_model_file_url)
	caption = hapticllama.generate(inputs = prompt_ids,input_atts=prompt_atts)
	print(caption)
	```
	---

	## 🚀 Citation
	If you find this dataset useful for your research, please cite our paper:

	```bibtex
	@article{hu2025hapticllama,
	title={HapticLLaMA: A Multimodal Sensory Language Model for Haptic Captioning},
	author={Hu, Guimin and Hershcovich, Daniel and Seifi, Hasti},
	journal={arXiv preprint arXiv:2508.06475},
	year={2025}
	}
	```