两个txt文档间词语匹配假如有2个txt文档,A文档是词典文档,B文档是需要匹配的文档.A文档的内容为(每行一词) 昂扬斗志迎来改革B文档的内容为 (第一行)我们即将以昂扬的斗志迎来新的一年.(第
来源:学生作业帮助网 编辑:作业帮 时间:2024/08/01 14:56:26
![两个txt文档间词语匹配假如有2个txt文档,A文档是词典文档,B文档是需要匹配的文档.A文档的内容为(每行一词) 昂扬斗志迎来改革B文档的内容为 (第一行)我们即将以昂扬的斗志迎来新的一年.(第](/uploads/image/z/12574838-38-8.jpg?t=%E4%B8%A4%E4%B8%AAtxt%E6%96%87%E6%A1%A3%E9%97%B4%E8%AF%8D%E8%AF%AD%E5%8C%B9%E9%85%8D%E5%81%87%E5%A6%82%E6%9C%892%E4%B8%AAtxt%E6%96%87%E6%A1%A3%2CA%E6%96%87%E6%A1%A3%E6%98%AF%E8%AF%8D%E5%85%B8%E6%96%87%E6%A1%A3%2CB%E6%96%87%E6%A1%A3%E6%98%AF%E9%9C%80%E8%A6%81%E5%8C%B9%E9%85%8D%E7%9A%84%E6%96%87%E6%A1%A3.A%E6%96%87%E6%A1%A3%E7%9A%84%E5%86%85%E5%AE%B9%E4%B8%BA%28%E6%AF%8F%E8%A1%8C%E4%B8%80%E8%AF%8D%29+%E6%98%82%E6%89%AC%E6%96%97%E5%BF%97%E8%BF%8E%E6%9D%A5%E6%94%B9%E9%9D%A9B%E6%96%87%E6%A1%A3%E7%9A%84%E5%86%85%E5%AE%B9%E4%B8%BA+%28%E7%AC%AC%E4%B8%80%E8%A1%8C%29%E6%88%91%E4%BB%AC%E5%8D%B3%E5%B0%86%E4%BB%A5%E6%98%82%E6%89%AC%E7%9A%84%E6%96%97%E5%BF%97%E8%BF%8E%E6%9D%A5%E6%96%B0%E7%9A%84%E4%B8%80%E5%B9%B4.%28%E7%AC%AC)
两个txt文档间词语匹配假如有2个txt文档,A文档是词典文档,B文档是需要匹配的文档.A文档的内容为(每行一词) 昂扬斗志迎来改革B文档的内容为 (第一行)我们即将以昂扬的斗志迎来新的一年.(第
两个txt文档间词语匹配
假如有2个txt文档,A文档是词典文档,B文档是需要匹配的文档.
A文档的内容为(每行一词) 昂扬
斗志
迎来
改革
B文档的内容为 (第一行)我们即将以昂扬的斗志迎来新的一年.
(第二行)国内专家学者40余人参加研讨会.
那么能否匹配到C文档,把句子里包含词典内词的句子提取出来,没有的不提取
C文档内容为
我们即将以昂扬的斗志迎来新的一年.如果是批量处理,用什么方法比较好,因为B文件有很多个.
两个txt文档间词语匹配假如有2个txt文档,A文档是词典文档,B文档是需要匹配的文档.A文档的内容为(每行一词) 昂扬斗志迎来改革B文档的内容为 (第一行)我们即将以昂扬的斗志迎来新的一年.(第
#!/usr/bin/env python
# coding: utf-8
#
# filename: pygrep.py
# author: Tim Wang
# date: Mar., 2014
"""本脚本相当于grep命令:
$ grep -f "userdict.txt" contextfile1.txt
"""
import re
def userdictfile2regex(filename):
return re.compile(
"|".join(open(filename, 'rt').readlines()),
re.I|re.U|re.X
)
patt = userdictfile2regex("userdict.txt")
for ln in open("contextfile1.txt", 'rt'):
if patt.search(ln):
print ln,
tim@ubtim:/workspace/baidu$ cat userdict.txt
昂扬
斗志
迎来
历史
改革tim@ubtim:/workspace/baidu$ cat contextfile1.txt
我们即将以昂扬的斗志迎来新的一年.
国内专家学者40余人参加研讨会.
tim@ubtim:/workspace/baidu$ python pygrep.py
我们即将以昂扬的斗志迎来新的一年.
tim@ubtim:/workspace/baidu$