Java ライブラリ Apache PDFBox で PDF を操作しよう (第１回:概要と簡単な操作) |

　本連載では Java で PDF を操作できる Apache PDFBox について解説します。第一回の本稿では、PDFBox の概要と簡単な操作を示したいと思います。本稿では、2016年にリリースされた Version 2 を対象に解説していきます。

Apache PDFBox について

　Apache PDFBox は比較的新しいライブラリで、Version 1.0.0 は2010年にリリースされ、2017年01月現在の最新は 2.0.4 です。 Version 1 は、日本語などのマルチバイト文字に対応していませんでしたが、2016年にリリースされた Version 2 から日本語にも対応しましたので、日本国内の開発での選択肢となるかと思います。名前の通り、The Apache Software Foundation のもとで開発が行われており、ライセンスは Apache License, Version 2.0 です。
　PDFBox には、PDF の作成、PDF からテキストを抽出、暗号化/復号化, イメージのPDF変換、イメージの抽出などの機能が実装されています。

ダウンロード

　Apache PDFBox は、公式サイトのダウンロードページからダウンロードすることができます。または Maven を利用して開発を行っている場合は、pom.xml につぎのように依存関係を追加してあげることで利用することができます。


<dependency>

  <groupId>org.apache.pdfbox</groupId>

  <artifactId>pdfbox</artifactId>

  <version>2.0.4</version>

</dependency>

簡単なサンプルプログラム

　それではさっそくサンプルプログラムをしてみようと思います。最初ですので、まずは何も記述がない空のPDFファイルを出力してみようと思います。


package sample.pdfbox;



import java.io.IOException;



import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.pdmodel.PDPage;



public class Main {

  public static void main(String args[]) {

    try {

      // 空のドキュメントオブジェクトを作成します

      PDDocument document = new PDDocument();



      // 新しいページのオブジェクトを作成します

      PDPage page = new PDPage();

      document.addPage(page);



      // ドキュメントを保存します

      document.save("sample.pdf");

      document.close();

    }

    catch (IOException e) {

      e.printStackTrace();

    }

  }

}