全文検索ツール Pokuda Search

 

全文検索ツール Pokuda Search


機能概要

HTMLなどのテキストファイル、Microsoft Office、PDFなどのドキュメントファイル、MP3、MP4などのメディアファイルのメタデータを対象に全文検索するソフトです。
類似文書の検索も行うことができ、 貯まったファイルを整理しなくとも目的のファイルに素早くアクセスできます。

機能一覧

機能説明
全文検索Luceneによる全文検索を行います。
テキスト抽出Apach Tikaを使ったテキスト抽出を行います。抽出可能ファイル一覧はこちら
インデックス作成日本語形態素解析エンジンkuromojiを使って、文章を単語に分割し、転置インデックスを作成します。
プレビュー機能選択したドキュメントの内容をプレビュー表示します。
もしかして検索入力された検索キーワードに近い別の検索キーワードを提案します。
類似文書の検索インデックス内の類似文書を検索します。類似度はBM25で計測します。(BM25についの解説はこちら
文書の差分表示WinMergeを差分ツールに指定することにより、選択した2つのドキュメントを差分表示できます。
  • 「NAS上のドキュメントのインデックスをメンバ内で共有して利用する。」
  • 「ファイラ機能を利用する。」
    等々、強化されたPokuda Searchをご利用する場合は、「Pokuda Search Pro」をご利用ください。

リリースノート

  • 2021/05/30 v1.3.2.0リリース
  • もしかして検索機能を追加。
  • 検索条件の更新日(インデックス作成時点)が効いていない不具合を修正。
  • 2020/04/28 v1.0.0.3リリース
  • インデックス更新機能を追加。
  • プレビュー画面の表示/非表示/拡大をショートカットキーで操作できるようにした。
  • 2020/04/05 v1.0.0.2リリース

インストール

1.ダウンロードした自己解凍ファイルを任意の場所に解凍して下さい。(インデックスフォルダも作成しますので、空き容量のあるドライブに解凍して下さい。)

2.「インストール実行.vbs」を実行して下さい。以下の処理が行われます。

2-1.カレントフォルダにショートカットを作成。

2-2.Visual Studio 2015 の Visual C++ 再頒布可能パッケージがインストールされていない場合は、当該インストーラーを起動。

3.同じフォルダにショートカットが作成されているので、そこから起動して下さい。

バージョンリリース日動作OS
Pokuda Search v1.3.2.0 (163MB)2020.05.30 Latest VersionWindows 10/8.1 (32/64bit)
Pokuda Search v1.0.0.3 (144MB)2020.04.28Windows 10/8.1 (32/64bit)
Pokuda Search v1.0.0.2 (139MB)2020.04.05Windows 10/8.1 (32/64bit)

アンインストール

1.配置したフォルダを削除するだけです。


マニュアル

インデックス作成

1.メインメニューの「インデックス作成」ボタンをクリックして下さい。

2.「参照」ボタンをクリックしてインデックス対象フォルダをしてくして下さい。

3.「インデックス作成」ボタンをクリックして下さい。

4.「中断」ボタンをクリックすればインデックス作成処理を取り止めます。

ファイル検索

1.「キーワード」を入力して下さい。

2.「検索対象インデックス」にチェックを入れて下さい。

3.「検索」ボタンをクリックして下さい。

4.検索結果で以下のようなリンク切れのアイコンが表示される場合があります。
このファイルは、インデックス作成時には存在したが、検索時点では削除されてしまい、開くことができないことを意味しています。
インデックスを更新して最新化することで解消することができます。

プレビュー表示

1.検索結果の行を選択して下さい。

2.テキストプレビューパネルには、マッチしたキーワードと前後の文章が表示されます。

3.ページプレビューパネルには、そのドキュメントの外観が表示されます。

4.また、検索結果の行をダブルクリックすることにより、対象のファイルを開くことができます。

Windows標準プレビューの有効化

1.Microsoft Officeのページプレビューを表示させるには、ドキュメント保存時に「縮小版を保存する」にチェックを入れておく必要があります。

類似文書の検索

1.検索結果の行を選択して下さい。

2.右クリック「類似文書を検索」をクリックして下さい。

文書の差分表示

1.比較する検索結果の行を選択して下さい。

2.右クリック「差分」をクリックして下さい。

3.WinMergeで「差分」表示されます。(※予めWinMergeをインストールし、そのパスを設定画面で指定しておく必要があります。)

設定

1.「検索結果最大件数」:検索結果の最大表示件数です。

2.「差分ツール」:差分ツールの実行ファイルへのパスです。WinMergeでは動作することを検証しております。

3.「最大ファイルサイズ」:インデックス対象ファイルのサイズの上限です。これを超えるファイルのインデックスは作成されません。(※MP4ファイルは対象外)

4.「メモリ使用量」:インデックス作成時の最大利用メモリ量です。インデックス作成が遅い場合は、この数値を上げると効果がある場合があります。

テキスト抽出可能ファイル一覧

カテゴリ拡張子備考
HTML.htmlHTML
.htmHTML
.xhtmlExtensible HyperText Markup Language
XML.xmlXML
Microsoft Office.pptPowerPoint97 - 2003
.pptxPowerPoint
.pptmマクロ有効PowerPoint
.xlsExcel 97 - 2003
.xlsxExcelブック
.xlsmマクロ有効Excelブック
.xlsbExcelバイナリブック
.docWord97 - 2003
.docxWordドキュメント
Open Document Format.odtワープロ
.ods表計算
.odpプレゼンテーション
.odbデータベース
.odg図形
.odf 数式
iWorks Documet.pagesワープロ
.numbers表計算
.keyプレゼンテーション
リッチテキストファイル.rtfRich Text Format
PDF.pdfPortable Document Format
電子書籍.epubElectronic Publication Format
圧縮ファイル.tar
.rar
.zip
.7z
.gzip
テキストファイル.txtTextファイル
.batWindowsバッチファイル
.logLogファイル
.csvCSVファイル
.sqlSQL
.jsJavaScript
.csC#
.mdMarkdown
.mdownMarkdown
.cppC++ソースファイル
.javaJavaソースファイル
Helpファイル.chmMicrosoft Compiled HTML Help
Audioファイル.mp3
Imageファイル.jpg
Videoファイル.mp4
Java class files and archives.class
.jar
メール.pstMicrosoft Outlook PST email
CADファイル.dwgDWG
Fontファイル.ttfTrueType font
Databaseファイル.dbSQLite3 files

インデックス作成時間/サイズ【参考値】

  • CPU:Intel Corei7-5500U 2.4GHz
  • メモリ:8GB
対象ファイル数新規作成時間更新時間(3%変更)インデックスサイズ
300約1分約10秒60MB
3,000約10分約2分500MB
3万約2時間約30分6GB
30万約5時間約90分16GB

ライセンス

PokudaSearchには、以下のライセンス規約が適用されるソフトウェアが含まれています。

TikaOnDotNet 1.17.1 (Apache License Version 2.0)

FlexLucene 6.3.0.0 (Apache License Version 2.0)

9 件のコメント:

  1. Pokuda Searchを使い始めたのですが、更新日時のフィルターが動作していないように思います。使用しているバージョンは、Ver.1.0.0.3です。
    よろしくお願いします。

    返信削除
  2. ご報告、ありがとうございます。
    修正版(v1.3.2.0)をリーリスしましたので、ページ上部のダウンロードリンクから再インストールください。
    Vectorの方にも、近日中に最新版をリリースいたします。

    返信削除
  3. 早速の対応、ありがとうございます。最新版をインストールして、インデックスを作り直したところ、更新日時のフィルターが動作することを確認しました。
    今回のソフトウェアアップデートで気が付いたのですが、Pokuda Searchのソフトウェアを更新する際、作成済みのインデックスをそのまま使えるようにはならないでしょうか。ソフトウェアの更新がインデックスに影響する場合は致し方ありませんが、インデックス作成には時間がかかりますので、ご検討頂ければ幸いです。
    よろしくお願いします。

    返信削除
  4. ご意見、ありがとうございます。
    今後の製品改善に取り入れさせて頂きます。

    返信削除
  5. 以下メッセージが表示されて、検索ができませんでした。
    「xxxxへのインデックスが参照できないため検索を中断します。」
    ※xxxxはインデックス作成で指定したフォルダ名

    返信削除
    返信
    1. 当方の環境では、この問題が発生しないので、詳細を確認させてください。
      ・作成したインデックスの検索対象は、ネットワークドライブ上のものでしょうか?
      ・問題のあるインデックスを一旦削除し、新たにインデックスを作成しても同じ問題が発生するのでしょうか?

      削除
  6. 昨日から使い始めました。インターフェイスがわかりやすくとても使いやすいです。
    1つ質問があります。
    OneDriveを利用していますが、そこにインデックスファイルを置いて複数台で共有できますか?
    アプリはそれぞれのPCにインストールいたします。
    よろしくご指導ください。

    返信削除
    返信
    1. ご利用ありがとうございます。ご質問に回答いたします。

      無償版では、インデックスを共有する機能を設けていません。
      有償のPro版であれば、ネットワークドライブ上に
      インデックスファイルを配置して複数のクライアントで共有することができます。

      ただ、今回のご質問の「OneDrive上のインデックスを共有できるか?」
      については、申し訳ありませんが、 現段階では未検証ですので、
      回答としましては、「できない。」となります。

      将来バージョンでOneDrive対応も考えたいと思います。

      削除
  7. やっとPDFがまともに全文検索できるツールにたどり着きました!他のフリーの物だとなぜか駄目で(ーー;)
    これは要望になるかもですが、検索結果リストの「フォントの種類」と「フォントのサイズ」を指定できるように成れば最高だなぁと! ちと老眼が始まってまして目に厳しいフォント種別&フォントサイズでして・・

    返信削除

厳選 Visual Studioの便利なショートカット

  エラー箇所にジャンプ 「Ctrl + Shift + F12」 ブレークポイント 設定/解除 「F9」 有効化/無効化 「Ctrl + F9」 ViEmu特有 「:ls」:バッファナンバーのリストを表示。 「:b2」:バッファ2のファイルを開く。 「:n」:次のバッファのファ...