Spaces:

jackmouse
/

videoNote

Running

File size: 4,694 Bytes

6cfe55f

import re


def prepend_source_link(markdown: str | None, source_url: str) -> str | None:
    """
    在笔记开头添加来源链接；若首个非空行已包含来源链接，则更新该行并避免重复。
    """
    if markdown is None:
        return None

    source = (source_url or "").strip()
    if not source:
        return markdown

    header = f"> 来源链接：{source}"
    lines = markdown.splitlines()
    first_non_empty_idx = None
    for idx, line in enumerate(lines):
        if line.strip():
            first_non_empty_idx = idx
            break

    if first_non_empty_idx is not None:
        first_line = lines[first_non_empty_idx].strip()
        if first_line.startswith("> 来源链接：") or first_line.startswith("来源链接："):
            lines[first_non_empty_idx] = header
            return "\n".join(lines)

    if markdown.strip():
        return f"{header}\n\n{markdown}"
    return header


def normalize_toc(markdown: str | None) -> str | None:
    """规范化「## 目录」区块：剥掉目录条目里误带的 `#`/`##` 标题标记。

    LLM 有时把章节标题的 `##` 标记原样抄进目录列表（`- ## 1. xxx`），
    渲染出来和正文标题一样大。这里只做一件事：把目录区块内所有列表条目
    （含缩进子项）开头的标题标记剥掉——嵌套子项、加粗、链接等都允许，
    原样保留。没有目录区块时原样返回。
    """
    if not markdown:
        return markdown

    lines = markdown.split('\n')
    out = []
    in_toc = False
    for line in lines:
        stripped = line.strip()
        # 目录区块开始（容忍 #/##/### 任意级别写法，统一归一为 ##）
        if re.match(r'^#{1,6}\s*目录\s*$', stripped):
            in_toc = True
            out.append('## 目录')
            continue
        if in_toc:
            # 下一个标题出现，目录区块结束
            if re.match(r'^#{1,6}\s', stripped):
                in_toc = False
                out.append(line)
                continue
            m = re.match(r'^(\s*[-*+]\s+)(.*)$', line)
            if m:
                prefix, item = m.group(1), m.group(2)
                # 只剥条目开头的标题标记；兼容加粗包裹的写法（**## xxx** → **xxx**），
                # 缩进/加粗/其余内容全部原样保留
                item = re.sub(r'^(\*{0,2})\s*#{1,6}\s+', r'\1', item)
                out.append(prefix + item)
                continue
            # 目录区块内的空行 / 其他杂行原样保留
            out.append(line)
            continue
        out.append(line)
    return '\n'.join(out)


def build_timestamp_url(platform: str, video_id: str, total_seconds: int) -> str | None:
    """按平台拼接「跳转到第 total_seconds 秒」的视频链接。

    仅 B 站 / YouTube 支持可靠的时间戳跳转；抖音 / 快手 / 小红书等只能给出
    视频本身的链接（无时间参数）；无法识别的平台返回 None（调用方降级为纯文本）。
    """
    if platform == 'bilibili':
        # video_id 形如 BV1xxx 或 BV1xxx_p2（多 P）；_p 段转成查询参数
        if "_p" in video_id:
            bvid, _, page = video_id.partition("_p")
            return f"https://www.bilibili.com/video/{bvid}?p={page}&t={total_seconds}"
        return f"https://www.bilibili.com/video/{video_id}?t={total_seconds}"
    if platform == 'youtube':
        return f"https://www.youtube.com/watch?v={video_id}&t={total_seconds}s"
    if platform == 'douyin':
        return f"https://www.douyin.com/video/{video_id}"
    if platform == 'kuaishou':
        return f"https://www.kuaishou.com/short-video/{video_id}"
    if platform == 'xiaohongshu':
        return f"https://www.xiaohongshu.com/explore/{video_id}"
    return None


def replace_content_markers(markdown: str, video_id: str, platform: str = 'bilibili') -> str:
    """
    替换 *Content-04:16*、Content-04:16 或 Content-[04:16] 为超链接，跳转到对应平台视频的时间位置
    """
    # 匹配三种形式：*Content-04:16*、Content-04:16、Content-[04:16]
    pattern = r"(?:\*?)Content-(?:\[(\d{2}):(\d{2})\]|(\d{2}):(\d{2}))"

    def replacer(match):
        mm = match.group(1) or match.group(3)
        ss = match.group(2) or match.group(4)
        total_seconds = int(mm) * 60 + int(ss)

        url = build_timestamp_url(platform, video_id, total_seconds)
        if not url:
            # 平台无法拼出链接：降级为纯文本时间，不留下死链
            return f"({mm}:{ss})"
        return f"[原片 @ {mm}:{ss}]({url})"

    return re.sub(pattern, replacer, markdown)