博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[转].NET下读取PDF文本
阅读量:6889 次
发布时间:2019-06-27

本文共 2084 字,大约阅读时间需要 6 分钟。

本文转自:

在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp。

先说PDFBox,这个类库据说功能很强大,本人在这只是简单介绍一下:

1、下载PDFBox

下载地址:

2、引用动态链接库

解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有: IKVM.GNU.Classpath.dll PDFBox-0.7.3.dll FontBox-0.1.0-dev.dll IKVM.Runtime.dll 将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间: using org.pdfbox.pdmodel; using org.pdfbox.util;

3、API的使用方法看代码:

[csharp]
  1. using org.pdfbox.pdmodel;  
  2. using org.pdfbox.util;  
  3. public void pdf2txt(FileInfo file,FileInfo txtfile)  
  4. {  
  5.         PDDocument doc = PDDocument.load(file.FullName);  
  6.         PDFTextStripper pdfStripper = new PDFTextStripper();  
  7.         string text = pdfStripper.getText(doc);  
  8.         StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));  
  9.         swPdfChange.Write(text);  
  10.         swPdfChange.Close();  
  11. }  
using org.pdfbox.pdmodel;using org.pdfbox.util;public void pdf2txt(FileInfo file,FileInfo txtfile){        PDDocument doc = PDDocument.load(file.FullName);        PDFTextStripper pdfStripper = new PDFTextStripper();        string text = pdfStripper.getText(doc);        StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));        swPdfChange.Write(text);        swPdfChange.Close();}

iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差,使用如下:

 

1、下载iTextSharp

下载地址:

2、引用动态链接库

解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可 在文件中需要引入以下3个命名空间: using iTextSharp; using iTextSharp.text; using iTextSharp.text.pdf;

3、API的使用方法看代码:

[csharp]
  1. private string OnCreated(string filepath)  
  2. {  
  3.     try  
  4.     {  
  5.         string pdffilename = filepath;  
  6.         PdfReader pdfReader = new PdfReader(pdffilename);  
  7.         int numberOfPages = pdfReader.NumberOfPages;  
  8.         string text = string.Empty;  
  9.   
  10.         for (int i = 1; i <= numberOfPages; ++i)  
  11.         {  
  12.             byte[] bufferOfPageContent = pdfReader.GetPageContent(i);  
  13.             text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);  
  14.         }  
  15.         pdfReader.Close();  
  16.   
  17.         return text;  
  18.     }  
  19.     catch (Exception ex)  
  20.     {  
  21.         StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");  
  22.         wlog.WriteLine("出错文件:" + e.FullPath + "原因:" + ex.ToString());  
  23.         wlog.Flush();  
  24.         wlog.Close();return null;  
  25.     }  
  26.   
  27. }  

 

转载地址:http://petbl.baihongyu.com/

你可能感兴趣的文章
字体随着ProgressBar的加载而滚动
查看>>
Handler 机制再了解
查看>>
如果你是前端工程师,把你的网站或者你知道的网站加进来吧
查看>>
阿里云产品头条(2017年12月刊)
查看>>
探究SQL添加非聚集索引,性能提高几十倍之谜
查看>>
Java 如何不使用 volatile 和锁实现共享变量的同步操作
查看>>
追踪解析 Disruptor 源码
查看>>
【剑指offer】让抽象问题具体化
查看>>
聊聊flink的AbstractNonHaServices
查看>>
搭建一个通用的脚手架
查看>>
PAT A1071
查看>>
【笔记】重学前端-winter
查看>>
windows下重装xampp并做mysql数据迁移的步骤
查看>>
Java日志组件间关系
查看>>
聊聊前端国际化文案该如何处理
查看>>
JS难点之hoist
查看>>
“独角兽”企业都爱选择腾讯云,背后原因值得考究
查看>>
浅析 Vue 2.6 中的 nextTick 方法
查看>>
199. Binary Tree Right Side View
查看>>
配置SpringBoot方便的切换jar和war
查看>>