Linuxユーザの立場から、役立つ情報や困ったときの解決方法を分かりやすく、かつ簡潔に記事にまとめています。主に、Ubuntu 8.04(→9.04)やCentOS 5.2(→5.3)で確認したことですが、他のディストリビューションでも応用できると思います。内容は(1)設定ファイルの書き方(2)役立つソフトウェア紹介やインストール方法(3)便利なコマンドの使い方や活用例(4)困ったときの解決方法です。このページの末尾にキーワード別で記事を分類してあります。また、真上の「ブログ検索」フォームからブログ内の記事を検索できます。

2010年4月6日火曜日

pdfファイルの管理 このエントリーを含むはてなブックマーク

大量にpdfファイルを保存していると、どこに置いたか忘れたりして必要なときに見つけれないことがある。そこで、pdf ファイルをテキストに変換して、grep で検索する方法をまとめる。

はじめに、pdf用のディレクトリ(mypdf)を作成し、その下に項目毎にpdfファイルを整理しておくことにする。下の例では、red, blue, yellow の3つのディレクトリを作成している。私は作成した人の名前で整理しているが、場合によって異なってくると思う。

$ cd
$ mkdir mypdf
$ cd mypdf
$ mkdir red blue yellow

次に、作成したディレクトリの中にpdfファイルを溜め込んでいく。そのあと、あらかじめ作成しておいたディレクトリtextallに、pdfファイルをテキスト化したものを入れる。以下の方法は名前の衝突など考慮していないシンプルな方法なので、大切なファイルを誤って消してしまわないように注意すること。

$ mkdir textall
$ ls
red blue yellow textall
$ find . -name \*.pdf -exec pdftotext {} \;
$ find . -name \*.txt -exec mv {} textall/ \;

テキストから検索する。以下の例は、keywordに合致する箇所の前後1行を抜き出して、それが含まれているファイル名を添えて表示させている。

$ grep -C1 -H 'keyword' textall/*.txt | less

キーワード

キーワード別に記事を分類してあります。クリックすると各キーワードに該当する記事たちが表示されます。

過去の記事

筆者について

自分の写真
趣味はコンピュータ、音楽、写真などです。