我要投稿

AI批量处理TXT文档换行符

发布日期：2025-01-22 14:30:25 浏览次数： 2421

作者：Dance with GenAI

微信搜一搜，关注“Dance with GenAI”

有很多个TXT文档，里面有很多换行，要全部去掉：

在deepseek中输入提示词：

写一个Python脚本，完成任务如下：

读取文件："F:\OneDrive\桌面\新建文本文档 (3).txt"

识别所有的换行符，

如果换行符前面是文字，那么就删掉这个换行符；

如果换行符前面是句号、问号、感叹号等标点符号，那么就保留这个换行符。

注意：每一步都要输出信息到屏幕上

文件中包含了一些无法被UTF-8编码解析的字符。为了处理这种情况，我们可以尝试使用不同的编码方式来读取文件，例如 'gbk' 或 'latin1'。如果这些编码方式仍然无法解析文件内容，我们可以尝试忽略无法解析的字符

Deepseek生成的源代码：

import re

def process_file(input_file):

try:

with open(input_file, 'r', encoding='utf-8') as infile:

content = infile.read()

except UnicodeDecodeError:

try:

with open(input_file, 'r', encoding='gbk') as infile:

content = infile.read()

except UnicodeDecodeError:

with open(input_file, 'r', encoding='latin1') as infile:

content = infile.read()

print(f"读取文件: {input_file}")

print("原始内容:")

print(content)

print("-" * 40)

# 使用正则表达式匹配换行符，并根据前面的字符决定是否删除换行符

processed_content = re.sub(r'(?<![\.!?。！？])\n', '', content)

print("处理后的内容:")

print(processed_content)

print("-" * 40)

# 将处理后的内容写回文件

with open(input_file, 'w', encoding='utf-8') as outfile:

outfile.write(processed_content)

print(f"处理后的内容已写回文件: {input_file}")

# 示例用法

input_file = r"F:\OneDrive\桌面\新建文本文档 (3).txt" # 输入文件路径

process_file(input_file)

代码解释：

try...except 块: 尝试使用 utf-8 编码读取文件，如果失败则尝试使用 gbk 编码，如果仍然失败则尝试使用 latin1 编码。

re.sub(r'(?<![\.!?。！？])\n', '', content): 这个正则表达式会匹配换行符，并检查换行符前面是否不是句号、问号、感叹号等标点符号。如果是，则删除换行符；如果不是，则保留换行符。

with open(input_file, 'w', encoding='utf-8') as outfile:: 将处理后的内容写回文件，使用 utf-8 编码。

使用方法：

将你的文本内容保存到 F:\OneDrive\桌面\新建文本文档 (3).txt 文件中。

运行上述代码，脚本会读取文件内容，处理换行符，并将处理后的内容写回文件。每一步都会输出信息到屏幕上。

注意事项：

如果文件中包含无法解析的字符，脚本会尝试使用不同的编码方式来读取文件。如果所有编码方式都无法解析文件内容，可能需要手动检查文件内容并修复编码问题。

运行程序，txt文档处理好了：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-30

他们用悟空重写了内容生产这件事

2026-03-27

了解 CreawAI RGB 模式

2026-03-24

陶哲轩：AI 已经把想法成本降到几乎为0了...

2026-03-23

我提议，放开AI做作业的限制

2026-03-23

我把 Dan Koe 的写作工业化流程，做成了分身写作系统，爆款文章频出

2026-03-21

设计师慌了：Google Stitch 一出，Figma 两天跌了 12%

2026-03-21

Anthropic 产品经理：PRD 已死，原型万岁

2026-03-19

一部5分钟短剧让你惊出冷汗，它的成功却不在于此

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

发现了 4 个好玩 SKills，已经在 GitHub 上开源了。

2026-01-23

AI对全球白领就业冲击有多大？

2026-01-06

打破传统，Pencil UI设计工具引领前端UI设计新潮流！

2026-01-28

万字长文讲解：团队落地 AI 辅助编程和 Specs 实战

2026-01-12

98.4K Star！OpenCode+Agent Browser 重构自动化测试流程

2026-02-11

OpenAI发布的新科研工具Prism，相比起Overleaf如何？值得入手吗？

2026-01-29

字流 2.0 发布：我把 14 个平台的发布流程压到 10 分钟

2026-01-18

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

字节错过 Manus 后，推出的 AnyGen 不是竞争是互补

2026-01-20

Anthropic 产品经理：PRD 已死，原型万岁

2026-03-21

大家都在问

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

AI内容工程化：为什么你的团队用了AI，内容还是做不出来?

2026-02-07

OpenAI发布的新科研工具Prism，相比起Overleaf如何？值得入手吗？

2026-01-29

当A++成为新的“紧箍咒”：我们是否忘记了测试的初衷？

2026-01-21

AI对全球白领就业冲击有多大？

2026-01-06

警惕！AI创业的三重“陷阱”你避开了吗？

2025-12-22

NotebookLM+Nano Banana Pro：你的下一个PPT，何必是PPT？

2025-12-15

你用AI做的应用，是在挠自己的痒痒吗？

2025-12-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw