Yuque Exporter使用说明

1652 words

8 minutes

Yuque Exporter使用说明

2025-03-03

朝花夕拾

No Tags

这个脚本的核心任务是：

遍历你指定的 Markdown 文件。
查找文件中所有符合语雀图片格式的 URL。
下载这些 URL 指向的图片。
将图片保存到本地（最好是与 Markdown 文件放在一起，利用 Hugo 的页面捆绑功能）。
替换 Markdown 文件中原来的网络 URL 为新的本地路径。

下面，我将为你提供一个开箱即用的 Python 脚本，并详细解释如何使用它来完美解决你的问题。

方案：使用 Python 脚本自动化处理#

这个方案是目前最灵活、最一劳永逸的。我们将编写一个 Python 脚本，它会自动将你的 Markdown 文件转换为 Hugo 推荐的 页面捆绑（Page Bundle） 结构，并将所有图片下载到文章对应的文件夹内。

准备工作#

安装 Python: 如果你的电脑还没有安装 Python，请先从 python.org 下载并安装。
安装 requests 库: 这是一个用来发送网络请求（如下载图片）的库。在你的终端或命令行中运行：

1
pip install requests

Python 脚本 (`yuque_to_hugo.py`)#

请将以下代码保存为一个名为 yuque_to_hugo.py 的文件，并将它放在你 Hugo 项目的根目录（与 config.toml 和 content 文件夹同级）。

1
import os
2
import re
3
import requests
4
import hashlib
5
from urllib.parse import urlparse
6
import shutil
7

8
# --- 配置区 ---
9
# 你从语雀导出的 Markdown 文件存放的目录
10
# 假设你把它们都放在了 content/posts/yuque-import 目录下
11
MARKDOWN_DIR = "content/posts/yuque-import"
12
# 语雀图片链接的特征，用于正则匹配
13
# 修正点: 使用了非捕获分组 (?:...) 来避免产生额外的捕获结果
14
YUQUE_CDN_PATTERN = r"https?://(?:cdn\.nlark\.com|aliyuncs\.com)/yuque"
15
# --- 配置区结束 ---
16

17
# 正则表达式，用于匹配 Markdown 中的图片链接
18
# 现在它会正确地只捕获两个部分：1.alt文本, 2.图片URL
19
IMG_REGEX = re.compile(r"!\[(.*?)\]\((%s.*?)\)" % YUQUE_CDN_PATTERN)
20

21
def process_markdown_file(md_file_path):
22
    """处理单个 Markdown 文件"""
23
    print(f"--- 开始处理文件: {md_file_path} ---")
24

25
    # 1. 将普通 .md 文件转换为 Page Bundle 结构
26
    dir_path, file_name = os.path.split(md_file_path)
27
    base_name, ext = os.path.splitext(file_name)
28

29
    # 如果已经是 index.md 或 _index.md，则直接使用其所在目录
30
    if file_name.lower() in ["index.md", "_index.md"]:
31
        bundle_dir = dir_path
32
        # 如果是这种情况，md_file_path 已经是正确的路径，不需要移动
33
    else:
34
        bundle_dir = os.path.join(dir_path, base_name)
35
        new_md_path = os.path.join(bundle_dir, "index.md")
36

37
        if not os.path.exists(bundle_dir):
38
            os.makedirs(bundle_dir)
39
            print(f"创建页面捆绑目录: {bundle_dir}")
40

41
        # 移动并重命名 md 文件
42
        shutil.move(md_file_path, new_md_path)
43
        md_file_path = new_md_path
44
        print(f"已将 {file_name} 移动到 {new_md_path}")
45

46
    # 2. 读取新的 md 文件内容
47
    with open(md_file_path, "r", encoding="utf-8") as f:
48
        content = f.read()
49

50
    # 3. 查找所有匹配的图片链接
51
    # 修正后的 findall 将只返回 (alt_text, url) 这样的二元组
52
    images = IMG_REGEX.findall(content)
53
    if not images:
54
        print("未找到需要处理的语雀图片。\n")
55
        return
56

57
    print(f"找到 {len(images)} 张语雀图片，开始下载和替换...")
58

59
    # 4. 遍历所有找到的图片链接
60
    for alt_text, url in images:
61
        try:
62
            # 清理 URL，移除 # 后面的参数
63
            clean_url = url.split('#')[0]
64

65
            # 生成一个简短且唯一的文件名，避免中文或特殊字符问题
66
            # 使用 URL 的 MD5 哈希值前8位作为文件名
67
            file_ext = os.path.splitext(urlparse(clean_url).path)[1] or '.png' # 如果没有后缀，默认为.png
68
            file_hash = hashlib.md5(clean_url.encode()).hexdigest()[:8]
69
            new_filename = f"{file_hash}{file_ext}"
70

71
            # 图片要保存的本地路径
72
            local_image_path = os.path.join(bundle_dir, new_filename)
73

74
            # 下载图片
75
            if not os.path.exists(local_image_path):
76
                print(f"  -> 正在下载: {clean_url}")
77
                headers = {'User-Agent': 'Mozilla/5.0'} # 模拟浏览器，防止被禁
78
                response = requests.get(clean_url, headers=headers, stream=True)
79
                response.raise_for_status() # 如果下载失败则抛出异常
80

81
                with open(local_image_path, "wb") as f:
82
                    for chunk in response.iter_content(chunk_size=8192):
83
                        f.write(chunk)
84
                print(f"     保存成功: {local_image_path}")
85
            else:
86
                print(f"  -> 图片已存在，跳过下载: {new_filename}")
87

88
            # 替换 Markdown 内容中的旧 URL 为新本地路径
89
            # 注意：这里我们只替换文件名，因为图片和md文件在同一目录
90
            original_markdown_link = f"![{alt_text}](/images/posts/{url})"
91
            new_markdown_link = f"![{alt_text}](/images/posts/{new_filename})"
92
            content = content.replace(original_markdown_link, new_markdown_link)
93

94
        except requests.exceptions.RequestException as e:
95
            print(f"     下载失败: {url}, 错误: {e}")
96
        except Exception as e:
97
            print(f"     处理失败: {url}, 错误: {e}")
98

99
    # 5. 将修改后的内容写回文件
100
    with open(md_file_path, "w", encoding="utf-8") as f:
101
        f.write(content)
102

103
    print(f"文件 {md_file_path} 处理完成。\n")
104

105

106
if __name__ == "__main__":
107
    if not os.path.isdir(MARKDOWN_DIR):
108
        print(f"错误: 目录 '{MARKDOWN_DIR}' 不存在。请检查配置。")
109
    else:
110
        # 遍历目录下的所有 .md 文件
111
        for root, _, files in os.walk(MARKDOWN_DIR):
112
            # 创建一个文件列表的副本进行迭代，因为我们可能会在循环中重命名文件
113
            for file in list(files):
114
                if file.endswith(".md"):
115
                    process_markdown_file(os.path.join(root, file))
116
        print("所有 Markdown 文件处理完毕！")

如何使用这个脚本？#

导出并放置文件:
- 从语雀批量导出你的文章为 Markdown 格式。
- 在你的 Hugo 项目的 content/posts/ 目录下，创建一个新文件夹，比如 yuque-import。
- 将所有导出的 .md 文件复制到 content/posts/yuque-import/ 目录中。
配置脚本:
- 打开 yuque_to_hugo.py 文件。
- 确认 MARKDOWN_DIR 变量的值与你上一步创建的文件夹路径一致。默认是 content/posts/yuque-import，如果你的路径不同，请修改它。
运行脚本:
- 打开你的终端（命令行工具）。
- 确保你当前位于 Hugo 项目的根目录。
- 运行脚本：

1
python yuque_to_hugo.py

查看结果:
- 脚本运行后，你会看到一系列处理日志。
- 完成后，检查你的 content/posts/yuque-import/ 文件夹。你会发现原来的 文章名.md 文件都变成了 文章名/index.md 的结构，并且每个文件夹里都包含了该文章下载好的图片。
- 打开任意一个 index.md 文件，你会看到图片链接 [...](https://cdn.nlark.com/...) 已经被替换成了 [...](abcdef12.png) 这样的本地链接。

脚本工作流程详解#

转换为页面捆绑: 脚本首先将 文章A.md 这样的文件，转换成 文章A/index.md 的目录结构。这是 Hugo 的最佳实践，便于管理与文章相关的资源。
正则匹配: 使用正则表达式精准地找出所有语雀的图片链接。
生成唯一文件名: 直接使用 URL 中的文件名可能很长或包含特殊字符。脚本通过计算 URL 的 MD5 哈希值来生成一个简短、唯一且安全的新文件名，如 abcdef12.png。
下载与保存: 模拟浏览器下载图片，并将其保存在与 index.md 同一个文件夹下。
路径替换: 将 Markdown 中的长 URL 替换为新的、简单的本地文件名。因为图片和 index.md 在同一目录，所以可以直接引用文件名，非常简洁。

现在，你只需要 hugo server 启动本地预览，或者直接 git add ., git commit, git push 部署，你的博客就会完美地显示所有图片，并且这些图片已经成为了你博客项目的一部分，不再依赖语雀的服务器。这个脚本可以反复运行，以后每次从语雀导出新文章，只需重复上述步骤即可。