麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 學院 > 開發設計 > 正文

java抽取word,pdf的四種武器

2019-11-18 13:23:55
字體:
來源:轉載
供稿:網友

  chris ([email protected])
  畢業于中國人民大學信息學院
  2003 年 6 月
  
  很多人用java進行文檔操作時經常會碰到一個問題,就是如何獲得WordExcel,pdf等文檔的內容?我研究了一下,在這里總結一下抽取word,pdf的幾種方法。
  1 .用jacob
  其實jacob是一個bridage,連接java和com或者win32函數的一個中間件,jacob并不能直接抽取word,excel等文件,需要自己寫dll哦,不過已經有為你寫好的了,就是jacob的作者一并提供了。
  
  jacob jar與dll文件下載: http://www.matrix.org.cn/down_view.asp?id=13
  
  下載了jacob并放到指定的路徑之后(dll放到path,jar文件放到classpath),就可以寫你自己的抽取程序了,下面是一個簡單的例子:
  
  
  import java.io.File;
  import com.jacob.com.*;
  import com.jacob.activeX.*;
  /**
   * Title: pdf extraction
   * Description: email:[email protected]
   * Copyright: Matrix Copyright (c) 2003
   * Company: Matrix.org.cn
   * @author chris
   * @version 1.0,who use this example pls remain the declare
   */
  public class FileExtracter{
   public static void main(String[] args) {
   ActiveXComponent component = new ActiveXComponent("Word.application");
   String inFile = "c://test.doc";
   String tpFile = "c://temp.htm";
   String otFile = "c://temp.xml";
   boolean flag = false;
   try {
   component.set   Object wordacc = component.getProperty("document.").toDispatch();
   Object wordfile = Dispatch.invoke(wordacc,"Open", Dispatch.Method,
   new Object[]{inFile,new Variant(false), new Variant(true)},
   new int[1] ).toDispatch();
   Dispatch.invoke(wordfile,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
   Variant f = new Variant(false);
   Dispatch.call(wordfile, "Close", f);
   flag = true;
   } catch (Exception e) {
   e.printStackTrace();
   } finally {
   component.invoke("Quit", new Variant[] {});
   }
   }
  }
  
  
  
  
  2. 用apache的poi來抽取word,excel。
  poi是apache的一個項目,不過就算用poi你可能都覺得很煩,不過不要緊,這里提供了更加簡單的一個接口給你:
  
  下載經過封裝后的poi包: http://www.matrix.org.cn/down_view.asp?id=14
  
  下載之后,放到你的classpath就可以了,下面是如何使用它的一個例子:
  
  
  import java.io.*;
  import org.textmining.text.extraction.WordExtractor;
  /**
   *

Title: word extraction


   *

Description: email:[email protected]


   *

Copyright: Matrix Copyright (c) 2003


   *

Company: Matrix.org.cn


   * @author chris
   * @version 1.0,who use this example pls remain the declare
   */
  
  public class PdfExtractor {
   public PdfExtractor() {
   }
   public static void main(String args[]) throws Exception
   {
   FileInputStream in = new FileInputStream ("c://a.doc");
   WordExtractor extractor = new WordExtractor();
   String str = extractor.extractText(in);
   System.out.println("the result length is"+str.length());
   System.out.println("the result is"+str);
  }
  }
  
  
  
  
  3. pdfbox-用來抽取pdf文件
  但是pdfbox對中文支持還不好,先下載pdfbox: http://www.matrix.org.cn/down_view.asp?id=12
  
  下面是一個如何使用pdfbox抽取pdf文件的例子:
  
  
  import org.pdfbox.pdmodel.PDdocument.
  import org.pdfbox.pdfparser.PDFParser;
  import java.io.*;
  import org.pdfbox.util.PDFTextStripper;
  import java.util.Date;
  /**
   *



發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 日韩av电影免费看 | 一级国产精品一级国产精品片 | h视频在线免费观看 | 久久免费视频精品 | 欧美一级淫片免费播放口 | av在线电影网站 | 九九热九九 | 56av国产精品久久久久久久 | 成人情欲视频在线看免费 | japan护士性xxxⅹhd | 欧洲精品久久久久69精品 | 精品中文字幕久久久久四十五十骆 | 欧美在线 | 亚洲 | av成人在线电影 | 国产欧美亚洲精品 | 狠狠操电影 | 一区二区三区视频在线 | 精品久久久久久国产三级 | 激情小视频在线观看 | 国产乱free国语对白 | 国产亚洲精品成人a | 免费观看黄色一级视频 | 在线观看免费毛片视频 | 国产91在线免费 | 国产91一区| 欧美精品一区二区三区久久久 | 思思久而久而蕉人 | 日产精品久久久一区二区福利 | 精国品产一区二区三区有限公司 | 欧美乱论| 色骚综合| 亚洲国产一区二区三区 | 亚洲午夜1000理论片aa | 爽爽淫人综合网网站 | 欧洲成人一区二区 | 激情宗合网 | 国产亚洲在线 | 最新一区二区三区 | 免费观看的毛片手机视频 | 看黄在线观看 | 狠狠干最新网址 |