麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁(yè) > 學(xué)院 > 開(kāi)發(fā)設(shè)計(jì) > 正文

Java抽取Office、PDF的四件兵器

2019-11-18 14:07:49
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

  很多人問(wèn)到如何抽取WordExcel、pdf等文件,在這里我總結(jié)一下抽取word、pdf的幾種方法。

  1、用jacob.

  其實(shí)jacob是一個(gè)bridage,連接java和com或者win32函數(shù)的一個(gè)中間件,jacob并不能直接抽取word,excel等文件,需要自己寫(xiě)dll哦,不過(guò)已經(jīng)有為你寫(xiě)好的了,就是jacob的作者一并提供了。

  jacob下載:http://www.matrix.org.cn/down_view.asp?id=13

  下載了jacob并放到指定的路徑之后(dll放到path,jar文件放到classpath),就可以寫(xiě)你自己的抽取程序了,下面是一個(gè)例子:

import java.io.File;
import com.jacob.com.*;
import com.jacob.activeX.*;
public class FileExtracter{

public static void main(String[] args) {

ActiveXComponent app = new ActiveXComponent("Word.application");
String inFile = "c://test.doc";
String tpFile = "c://temp.htm";
String otFile = "c://temp.xml";
boolean flag = false;
try {
app.setObject docs = app.getProperty("document.").toDispatch();
Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1]).toDispatch();
Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
Variant f = new Variant(false);
Dispatch.call(doc, "Close", f);
flag = true;
} catch (Exception e) {
e.printStackTrace();
} finally {
app.invoke("Quit", new Variant[] {});
}

}
}
  2、用apache的poi來(lái)抽取word,excel

  poi是apache的一個(gè)項(xiàng)目,不過(guò)就算用poi你可能都覺(jué)得很煩,不過(guò)不要緊,這里提供了更加簡(jiǎn)單的一個(gè)接口給你:

  下載經(jīng)過(guò)封裝后的poi包:http://www.matrix.org.cn/down_view.asp?id=14

  下載之后,放到你的classpath就可以了,下面是如何使用它的一個(gè)例子:

import java.io.*;
import org.textmining.text.extraction.WordExtractor;
/**
* <p>Title: pdf extraction</p>
* <p>Descr
iption: email:[email protected]</p>
* <p>Copyright: Matrix Copyright (c) 2003</p>
* <p>Company: Matrix.org.cn</p>
* @author chris
* @version 1.0,who use this example pls remain the declare
*/

public class PdfExtractor {
public PdfExtractor() {
}
public static void main(String args[]) throws Exception
{
FileInputStream in = new FileInputStream ("c://a.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
System.out.println("the result length is"+str.length());
System.out.println("the result is"+str);
}
}
  3、pdfbox-用來(lái)抽取pdf文件

  但是pdfbox對(duì)中文支持還不好,先下載pdfbox:http://www.matrix.org.cn/down_view.asp?id=12

  下面是一個(gè)如何使用pdfbox抽取pdf文件的例子:

import org.pdfbox.pdmodel.PDdocument.
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
* <p>

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 精品国产一区三区 | 美女扒开腿让男生桶爽网站 | 免费黄色在线电影 | 免费专区 - 91爱爱 | 欧美精品亚洲人成在线观看 | 成人羞羞视频在线观看免费 | 国产无限资源在线观看 | 国产手机国产手机在线 | 国产一级伦理片 | 久久久久久亚洲综合影院红桃 | 中文区中文字幕免费看 | 福利在线免费 | 美国一级免费视频 | 欧美福利视频一区二区三区 | 欧美一级黄色网 | 作爱在线观看 | 国产精品色综合 | 成熟女人特级毛片www免费 | 成人一级毛片 | 极品销魂一区二区三区 | 91麻豆精品国产91久久久点播时间 | 久久久久久久.comav | 暴力肉体进入hdxxxx古装 | 91一区二区三区久久久久国产乱 | 国产精品美女久久久久久网站 | 国产成视频在线观看 | 久久艹综合 | 噜噜色av| 国产又粗又爽又深的免费视频 | 国产毛片在线看 | 羞羞视频免费网站含羞草 | 91精品国产综合久久婷婷香蕉 | 人禽l交免费视频观看 视频 | 欧美精品久久久久久久多人混战 | 亚洲视频欧美 | 一级毛片手机在线观看 | 国产午夜精品久久久久久久蜜臀 | 永久免费毛片 | gogo全球大胆高清人露出91 | 激情视频免费看 | 黄色大片网 |