这个脚本的设计目的是为了简化对指定目录内文本文件的批量扫描和清理过程。
当我们处理大量采集的文章或语料时,尽管已经应用了大部分的替换和删除规则,但仍然可能有一些未被处理干净的内容。
这时手动逐个检查和删除显然是不现实的,因此使用这个脚本可以批量检测并删除那些漏网之鱼。
脚本的主要功能包括:
- 扫描指定目录中的所有
.txt
文件。 - 检查每个文件中是否包含特定的词语或短语。
- 删除包含这些词语或短语的行,并重新保存文件。
- 记录并输出脚本的执行时间。
这个脚本可以大大提高处理大量文本文件的效率,避免手动检查的繁琐和低效。
代码:
import os
import time
start_time = time.time()
directory = r'检测路径'
for filename in os.listdir(directory):
if filename.endswith('.txt'):
file_path = os.path.join(directory, filename)
with open(file_path, 'r', encoding='utf-8') as file:
lines = file.readlines()
lines = [line for line in lines if '检测词1' not in line and '检测词2' not in line]
with open(file_path, 'w', encoding='utf-8') as file:
file.writelines(lines)
end_time = time.time()
execution_time = end_time - start_time
print(f'执行时间: {execution_time:.2f} 秒')
3265 个文件,执行时间: 94.30 秒
发表回复