Spaces:

jackmouse
/

videoNote

Running

videoNote / backend /app /utils /note_helper.py

zhoujiaangyao

deploy videomemo backend to HF Space

6cfe55f 14 days ago

4.69 kB

	import re


	def prepend_source_link(markdown: str \| None, source_url: str) -> str \| None:
	"""
	在笔记开头添加来源链接；若首个非空行已包含来源链接，则更新该行并避免重复。
	"""
	if markdown is None:
	return None

	source = (source_url or "").strip()
	if not source:
	return markdown

	header = f"> 来源链接：{source}"
	lines = markdown.splitlines()
	first_non_empty_idx = None
	for idx, line in enumerate(lines):
	if line.strip():
	first_non_empty_idx = idx
	break

	if first_non_empty_idx is not None:
	first_line = lines[first_non_empty_idx].strip()
	if first_line.startswith("> 来源链接：") or first_line.startswith("来源链接："):
	lines[first_non_empty_idx] = header
	return "\n".join(lines)

	if markdown.strip():
	return f"{header}\n\n{markdown}"
	return header


	def normalize_toc(markdown: str \| None) -> str \| None:
	"""规范化「## 目录」区块：剥掉目录条目里误带的 `#`/`##` 标题标记。

	LLM 有时把章节标题的 `##` 标记原样抄进目录列表（`- ## 1. xxx`），
	渲染出来和正文标题一样大。这里只做一件事：把目录区块内所有列表条目
	（含缩进子项）开头的标题标记剥掉——嵌套子项、加粗、链接等都允许，
	原样保留。没有目录区块时原样返回。
	"""
	if not markdown:
	return markdown

	lines = markdown.split('\n')
	out = []
	in_toc = False
	for line in lines:
	stripped = line.strip()
	# 目录区块开始（容忍 #/##/### 任意级别写法，统一归一为 ##）
	if re.match(r'^#{1,6}\s目录\s$', stripped):
	in_toc = True
	out.append('## 目录')
	continue
	if in_toc:
	# 下一个标题出现，目录区块结束
	if re.match(r'^#{1,6}\s', stripped):
	in_toc = False
	out.append(line)
	continue
	m = re.match(r'^(\s[-+]\s+)(.*)$', line)
	if m:
	prefix, item = m.group(1), m.group(2)
	# 只剥条目开头的标题标记；兼容加粗包裹的写法（## xxx → xxx），
	# 缩进/加粗/其余内容全部原样保留
	item = re.sub(r'^(\{0,2})\s#{1,6}\s+', r'\1', item)
	out.append(prefix + item)
	continue
	# 目录区块内的空行 / 其他杂行原样保留
	out.append(line)
	continue
	out.append(line)
	return '\n'.join(out)


	def build_timestamp_url(platform: str, video_id: str, total_seconds: int) -> str \| None:
	"""按平台拼接「跳转到第 total_seconds 秒」的视频链接。

	仅 B 站 / YouTube 支持可靠的时间戳跳转；抖音 / 快手 / 小红书等只能给出
	视频本身的链接（无时间参数）；无法识别的平台返回 None（调用方降级为纯文本）。
	"""
	if platform == 'bilibili':
	# video_id 形如 BV1xxx 或 BV1xxx_p2（多 P）；_p 段转成查询参数
	if "_p" in video_id:
	bvid, _, page = video_id.partition("_p")
	return f"https://www.bilibili.com/video/{bvid}?p={page}&t={total_seconds}"
	return f"https://www.bilibili.com/video/{video_id}?t={total_seconds}"
	if platform == 'youtube':
	return f"https://www.youtube.com/watch?v={video_id}&t={total_seconds}s"
	if platform == 'douyin':
	return f"https://www.douyin.com/video/{video_id}"
	if platform == 'kuaishou':
	return f"https://www.kuaishou.com/short-video/{video_id}"
	if platform == 'xiaohongshu':
	return f"https://www.xiaohongshu.com/explore/{video_id}"
	return None


	def replace_content_markers(markdown: str, video_id: str, platform: str = 'bilibili') -> str:
	"""
	替换 Content-04:16、Content-04:16 或 Content-[04:16] 为超链接，跳转到对应平台视频的时间位置
	"""
	# 匹配三种形式：Content-04:16、Content-04:16、Content-[04:16]
	pattern = r"(?:\*?)Content-(?:\[(\d{2}):(\d{2})\]\|(\d{2}):(\d{2}))"

	def replacer(match):
	mm = match.group(1) or match.group(3)
	ss = match.group(2) or match.group(4)
	total_seconds = int(mm) * 60 + int(ss)

	url = build_timestamp_url(platform, video_id, total_seconds)
	if not url:
	# 平台无法拼出链接：降级为纯文本时间，不留下死链
	return f"({mm}:{ss})"
	return f"[原片 @ {mm}:{ss}]({url})"

	return re.sub(pattern, replacer, markdown)