「MonoでPDFからテキストを抽出する」を編集中

[[PDF]]からテキストを抽出したい。

==実装例1==
iTextSharpでテキストの抽出も出来るようだ。
新規にPDFを生成するだけだと思っていたよ。
すごいぞiTextSharp。

[[Mac]]上の[[Xamarin Studio]]で[[NuGet]]から[[iTextSharp]]を入れて試してみたが[[Mono]]でも問題なく動くようだ。
今のところ互換性問題やプラットフォーム依存はないと思われるので[[MonoMac]]なんかでも大丈夫だと思う。

<source lang="csharp">
    using System;
    using System.IO;
    using System.Linq;

    using iTextSharp;
    using iTextSharp.text;
    using iTextSharp.text.pdf;
    using iTextSharp.text.pdf.parser;

    class MainClass
    {
        public static void Main(string[] args)
        {
            var filename = "test.pdf";

            using (var pdfReader = new PdfReader(filename))
            {
                var strategy = new SimpleTextExtractionStrategy();

                for (int pageNum = 1; pageNum <= pdfReader.NumberOfPages; pageNum++)
                {
                    // １ページまるごとテキスト化
                    var text = PdfTextExtractor.GetTextFromPage(pdfReader, pageNum, strategy);

                    // 行単位に分割
                    var lines = text.Split('\n');
                    for (int lineNum = 1; lineNum <= lines.Length; lineNum++)
                    {
                        var line = lines[lineNum - 1];
                        Console.WriteLine("{0:D2}:{1:D2}|{2}", pageNum, lineNum, line);
                    }
                }
            }
        }
    }
</source>

[[category:Mono]]