コンテンツにスキップ
メインメニュー
メインメニュー
サイドバーに移動
非表示
案内
メインページ
最近の更新
未作成ページ
おまかせ表示
ヘルプ
MonoBook
検索
検索
ログイン
個人用ツール
ログイン
ログアウトした編集者のページ
もっと詳しく
投稿記録
トーク
「
MonoでPDFからテキストを抽出する
」を編集中
ページ
議論
日本語
閲覧
編集
ソースを編集
履歴表示
ツール
ツール
サイドバーに移動
非表示
操作
閲覧
編集
ソースを編集
履歴表示
全般
リンク元
関連ページの更新状況
特別ページ
ページ情報
警告:
ログインしていません。編集を行うと、あなたの IP アドレスが公開されます。
ログイン
または
アカウントを作成
すれば、あなたの編集はその利用者名とともに表示されるほか、その他の利点もあります。
スパム攻撃防止用のチェックです。 けっして、ここには、値の入力は
しない
でください!
[[PDF]]からテキストを抽出したい。 ==実装例1== iTextSharpでテキストの抽出も出来るようだ。 新規にPDFを生成するだけだと思っていたよ。 すごいぞiTextSharp。 [[Mac]]上の[[Xamarin Studio]]で[[NuGet]]から[[iTextSharp]]を入れて試してみたが[[Mono]]でも問題なく動くようだ。 今のところ互換性問題やプラットフォーム依存はないと思われるので[[MonoMac]]なんかでも大丈夫だと思う。 <source lang="csharp"> using System; using System.IO; using System.Linq; using iTextSharp; using iTextSharp.text; using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; class MainClass { public static void Main(string[] args) { var filename = "test.pdf"; using (var pdfReader = new PdfReader(filename)) { var strategy = new SimpleTextExtractionStrategy(); for (int pageNum = 1; pageNum <= pdfReader.NumberOfPages; pageNum++) { // 1ページまるごとテキスト化 var text = PdfTextExtractor.GetTextFromPage(pdfReader, pageNum, strategy); // 行単位に分割 var lines = text.Split('\n'); for (int lineNum = 1; lineNum <= lines.Length; lineNum++) { var line = lines[lineNum - 1]; Console.WriteLine("{0:D2}:{1:D2}|{2}", pageNum, lineNum, line); } } } } } </source> [[category:Mono]]
編集内容の要約:
MonoBookへの投稿はすべて、他の投稿者によって編集、変更、除去される場合があります。 自分が書いたものが他の人に容赦なく編集されるのを望まない場合は、ここに投稿しないでください。
また、投稿するのは、自分で書いたものか、パブリック ドメインまたはそれに類するフリーな資料からの複製であることを約束してください(詳細は
MonoBook:著作権
を参照)。
著作権保護されている作品は、許諾なしに投稿しないでください!
このページを編集するには、下記の確認用の質問に回答してください (
詳細
):
1たす1は?(全角で入力してください)
キャンセル
編集の仕方
(新しいウィンドウで開きます)
本文の横幅制限を有効化/無効化