全文検索ツール Pokuda Search
機能概要
HTMLなどのテキストファイル、Microsoft Office、PDFなどのドキュメントファイル、MP3、MP4などのメディアファイルのメタデータを対象に全文検索するソフトです。
類似文書の検索も行うことができ、 貯まったファイルを整理しなくとも目的のファイルに素早くアクセスできます。
機能一覧
機能 説明 全文検索 Luceneによる全文検索を行います。 テキスト抽出 Apach Tikaを使ったテキスト抽出を行います。抽出可能ファイル一覧はこちら インデックス作成 日本語形態素解析エンジンkuromojiを使って、文章を単語に分割し、転置インデックスを作成します。 プレビュー機能 選択したドキュメントの内容をプレビュー表示します。 もしかして検索 入力された検索キーワードに近い別の検索キーワードを提案します。 類似文書の検索 インデックス内の類似文書を検索します。類似度はBM25で計測します。(BM25についの解説はこちら) 文書の差分表示 WinMergeを差分ツールに指定することにより、選択した2つのドキュメントを差分表示できます。
- 「NAS上のドキュメントのインデックスをメンバ内で共有して利用する。」
- 「ファイラ機能を利用する。」
等々、強化されたPokuda Searchをご利用する場合は、「Pokuda Search Pro」をご利用ください。
リリースノート
- 2021/05/30 v1.3.2.0リリース
- もしかして検索機能を追加。
- 検索条件の更新日(インデックス作成時点)が効いていない不具合を修正。
- 2020/04/28 v1.0.0.3リリース
- インデックス更新機能を追加。
- プレビュー画面の表示/非表示/拡大をショートカットキーで操作できるようにした。
- 2020/04/05 v1.0.0.2リリース
インストール
1.ダウンロードした自己解凍ファイルを任意の場所に解凍して下さい。(インデックスフォルダも作成しますので、空き容量のあるドライブに解凍して下さい。)
2.「インストール実行.vbs」を実行して下さい。以下の処理が行われます。
2-1.カレントフォルダにショートカットを作成。
2-2.Visual Studio 2015 の Visual C++ 再頒布可能パッケージがインストールされていない場合は、当該インストーラーを起動。
3.同じフォルダにショートカットが作成されているので、そこから起動して下さい。
| バージョン | リリース日 | 動作OS |
|---|---|---|
| Pokuda Search v1.3.2.0 (163MB) | 2020.05.30 Latest Version | Windows 10/8.1 (32/64bit) |
| Pokuda Search v1.0.0.3 (144MB) | 2020.04.28 | Windows 10/8.1 (32/64bit) |
| Pokuda Search v1.0.0.2 (139MB) | 2020.04.05 | Windows 10/8.1 (32/64bit) |
アンインストール
1.配置したフォルダを削除するだけです。
マニュアル
インデックス作成
1.メインメニューの「インデックス作成」ボタンをクリックして下さい。
2.「参照」ボタンをクリックしてインデックス対象フォルダをしてくして下さい。
3.「インデックス作成」ボタンをクリックして下さい。
4.「中断」ボタンをクリックすればインデックス作成処理を取り止めます。
ファイル検索
1.「キーワード」を入力して下さい。
2.「検索対象インデックス」にチェックを入れて下さい。
3.「検索」ボタンをクリックして下さい。
4.検索結果で以下のようなリンク切れのアイコンが表示される場合があります。
このファイルは、インデックス作成時には存在したが、検索時点では削除されてしまい、開くことができないことを意味しています。
インデックスを更新して最新化することで解消することができます。
プレビュー表示
1.検索結果の行を選択して下さい。
2.テキストプレビューパネルには、マッチしたキーワードと前後の文章が表示されます。
3.ページプレビューパネルには、そのドキュメントの外観が表示されます。
4.また、検索結果の行をダブルクリックすることにより、対象のファイルを開くことができます。
Windows標準プレビューの有効化
1.Microsoft Officeのページプレビューを表示させるには、ドキュメント保存時に「縮小版を保存する」にチェックを入れておく必要があります。
類似文書の検索
1.検索結果の行を選択して下さい。
2.右クリック「類似文書を検索」をクリックして下さい。
文書の差分表示
1.比較する検索結果の行を選択して下さい。
2.右クリック「差分」をクリックして下さい。
3.WinMergeで「差分」表示されます。(※予めWinMergeをインストールし、そのパスを設定画面で指定しておく必要があります。)
設定
1.「検索結果最大件数」:検索結果の最大表示件数です。
2.「差分ツール」:差分ツールの実行ファイルへのパスです。WinMergeでは動作することを検証しております。
3.「最大ファイルサイズ」:インデックス対象ファイルのサイズの上限です。これを超えるファイルのインデックスは作成されません。(※MP4ファイルは対象外)
4.「メモリ使用量」:インデックス作成時の最大利用メモリ量です。インデックス作成が遅い場合は、この数値を上げると効果がある場合があります。
テキスト抽出可能ファイル一覧
| カテゴリ | 拡張子 | 備考 |
| HTML | .html | HTML |
| .htm | HTML | |
| .xhtml | Extensible HyperText Markup Language | |
| XML | .xml | XML |
| Microsoft Office | .ppt | PowerPoint97 - 2003 |
| .pptx | PowerPoint | |
| .pptm | マクロ有効PowerPoint | |
| .xls | Excel 97 - 2003 | |
| .xlsx | Excelブック | |
| .xlsm | マクロ有効Excelブック | |
| .xlsb | Excelバイナリブック | |
| .doc | Word97 - 2003 | |
| .docx | Wordドキュメント | |
| Open Document Format | .odt | ワープロ |
| .ods | 表計算 | |
| .odp | プレゼンテーション | |
| .odb | データベース | |
| .odg | 図形 | |
| .odf | 数式 | |
| iWorks Documet | .pages | ワープロ |
| .numbers | 表計算 | |
| .key | プレゼンテーション | |
| リッチテキストファイル | .rtf | Rich Text Format |
| Portable Document Format | ||
| 電子書籍 | .epub | Electronic Publication Format |
| 圧縮ファイル | .tar | |
| .rar | ||
| .zip | ||
| .7z | ||
| .gzip | ||
| テキストファイル | .txt | Textファイル |
| .bat | Windowsバッチファイル | |
| .log | Logファイル | |
| .csv | CSVファイル | |
| .sql | SQL | |
| .js | JavaScript | |
| .cs | C# | |
| .md | Markdown | |
| .mdown | Markdown | |
| .cpp | C++ソースファイル | |
| .java | Javaソースファイル | |
| Helpファイル | .chm | Microsoft Compiled HTML Help |
| Audioファイル | .mp3 | |
| Imageファイル | .jpg | |
| Videoファイル | .mp4 | |
| Java class files and archives | .class | |
| .jar | ||
| メール | .pst | Microsoft Outlook PST email |
| CADファイル | .dwg | DWG |
| Fontファイル | .ttf | TrueType font |
| Databaseファイル | .db | SQLite3 files |
インデックス作成時間/サイズ【参考値】
- CPU:Intel Corei7-5500U 2.4GHz
- メモリ:8GB
| 対象ファイル数 | 新規作成時間 | 更新時間(3%変更) | インデックスサイズ |
|---|---|---|---|
| 300 | 約1分 | 約10秒 | 60MB |
| 3,000 | 約10分 | 約2分 | 500MB |
| 3万 | 約2時間 | 約30分 | 6GB |
| 30万 | 約5時間 | 約90分 | 16GB |
ライセンス
PokudaSearchには、以下のライセンス規約が適用されるソフトウェアが含まれています。
Pokuda Searchを使い始めたのですが、更新日時のフィルターが動作していないように思います。使用しているバージョンは、Ver.1.0.0.3です。
返信削除よろしくお願いします。
ご報告、ありがとうございます。
返信削除修正版(v1.3.2.0)をリーリスしましたので、ページ上部のダウンロードリンクから再インストールください。
Vectorの方にも、近日中に最新版をリリースいたします。
早速の対応、ありがとうございます。最新版をインストールして、インデックスを作り直したところ、更新日時のフィルターが動作することを確認しました。
返信削除今回のソフトウェアアップデートで気が付いたのですが、Pokuda Searchのソフトウェアを更新する際、作成済みのインデックスをそのまま使えるようにはならないでしょうか。ソフトウェアの更新がインデックスに影響する場合は致し方ありませんが、インデックス作成には時間がかかりますので、ご検討頂ければ幸いです。
よろしくお願いします。
ご意見、ありがとうございます。
返信削除今後の製品改善に取り入れさせて頂きます。
以下メッセージが表示されて、検索ができませんでした。
返信削除「xxxxへのインデックスが参照できないため検索を中断します。」
※xxxxはインデックス作成で指定したフォルダ名
当方の環境では、この問題が発生しないので、詳細を確認させてください。
削除・作成したインデックスの検索対象は、ネットワークドライブ上のものでしょうか?
・問題のあるインデックスを一旦削除し、新たにインデックスを作成しても同じ問題が発生するのでしょうか?
昨日から使い始めました。インターフェイスがわかりやすくとても使いやすいです。
返信削除1つ質問があります。
OneDriveを利用していますが、そこにインデックスファイルを置いて複数台で共有できますか?
アプリはそれぞれのPCにインストールいたします。
よろしくご指導ください。
ご利用ありがとうございます。ご質問に回答いたします。
削除無償版では、インデックスを共有する機能を設けていません。
有償のPro版であれば、ネットワークドライブ上に
インデックスファイルを配置して複数のクライアントで共有することができます。
ただ、今回のご質問の「OneDrive上のインデックスを共有できるか?」
については、申し訳ありませんが、 現段階では未検証ですので、
回答としましては、「できない。」となります。
将来バージョンでOneDrive対応も考えたいと思います。
やっとPDFがまともに全文検索できるツールにたどり着きました!他のフリーの物だとなぜか駄目で(ーー;)
返信削除これは要望になるかもですが、検索結果リストの「フォントの種類」と「フォントのサイズ」を指定できるように成れば最高だなぁと! ちと老眼が始まってまして目に厳しいフォント種別&フォントサイズでして・・