pdfbox+lucene做一个pdf的搜索引擎

来源:学生作业帮助网 编辑:作业帮 时间:2024/07/17 13:11:11
pdfbox+lucene做一个pdf的搜索引擎
xRN@ G jcA\X 墢@Vh)qgvNYBM;{nsj*NojI 2 )ol;]eEMcRqXOBʂVMP@ l`@` @:` oX,ʡPöz;G{ zzXKkFzWKs 3z]Gf eBS(&xCě> '$^FȅE1uhWi^[aK'*/xe0!wT~-OP4Rvx*e(ՠ;bTQH2-qUbڃnE^°Uny\o(N6h?GgюQcd|ac],vzv 

pdfbox+lucene做一个pdf的搜索引擎
pdfbox+lucene做一个pdf的搜索引擎

pdfbox+lucene做一个pdf的搜索引擎
既然做到了提取内容,那么应该提取内容的同时就把内容转化静态的html,比如用FreeMarker生成html.
然后再建立索引,搜寻到相关内容要显示关键字时也可以用上这个html,是如果需要下载才用到pdf.
至于提取内容,可以是用户第一次使用到这个pdf的时候进行提取,也可以是上传到服务器的时候就处理,
或者就像爬虫一样,另外开服务器不断的处理新pdf

很难做出来的。