PDF目录工具:删除多余字符、优化格式

输入文本
0 字符
0
输出结果
0 字符
0
文本处理逻辑说明
  1. 预处理
    移除所有只包含空白字符的空行。
  2. 行拼接
    若当前行满足以下任一条件,则将其拼接到上一行末尾(中间不加空格):
    • 当前行开头是字母/汉字,上一行末尾是字母/汉字,且当前行不以“第”开头
    • 当前行仅包含一个数字(可为负数),且上一行末尾是字母/汉字。
  3. 行尾处理
    对每一行(包括拼接后的行)进行处理:
    • 移除行尾所有空白字符。
    • 若行变为空,则添加两个空格并结束处理。
    • 若行尾不是数字(包括负数),则添加两个空格并结束处理。
    • 若行尾是数字(包括负数):
      • 从行尾向前查找最后一个非数字字符(考虑负号)。
      • 从该位置继续向前查找第一个目标字符(汉字/字母/数字)。
      • 将该字符与页码之间的内容替换为两个空格。
    • 若未找到目标字符,则在行首和页码之间添加两个空格。