デジタルアーカイブや長期保存を担当している方なら、「このファイル、本当に拡張子通りの形式なのか?」と疑問に思ったことがあるはずです。今回は、そんな疑問を解決してくれる強力なツール「DROID」について、実際の分析結果を交えながら紹介します。
DROIDとは?
DROID(Digital Record Object Identification)は、英国国立公文書館(The National Archives)が開発したファイル形式識別ツールです。ファイルの拡張子だけでなく、ファイルの内部構造(シグネチャ)を分析 して、真の形式を特定します。
DROIDの主な機能
- バイナリシグネチャによる識別 :ファイルの内容を直接分析
- PRONOMレジストリとの連携 :15,000以上のファイル形式データベースを活用
- 一括処理 :フォルダ単位での大量ファイル分析
- 拡張子ミスマッチの検出 :拡張子と実際の形式の不一致を発見
- CSV出力 :分析結果をデータとして活用可能
なぜDROIDが必要なのか?
デジタルファイルには、以下のような問題がよくあります:
- 意図的な拡張子変更 :ファイル形式を隠すため
- 誤った拡張子の付与 :人為的ミスやシステムエラー
- 形式変換時の拡張子未更新 :変換後に拡張子が古いまま
- 拡張子のない/不明なファイル :古いシステムからの移行時など
これらの問題は、長期保存計画や移行戦略に深刻な影響 を与える可能性があります。
実例で見るDROIDの威力
実際にDROIDで分析したデジタル保存ワークショップのサンプルファイルから、興味深い問題が複数見つかりました。

🚨 発見された主な問題
1. 音声ファイルが画像ファイルを装っている
問題点 :画像として扱われる可能性があり、適切な音声再生ツールでアクセスできない恐れがあります。
2. 新形式なのに古い拡張子
問題点 :古いWordバージョンでは開けない可能性があり、互換性の問題が発生します。
3. MP3ではなくMP4だった
問題点 :音声専用プレイヤーでは正しく再生できない可能性があります。また、動画コンテナとしての追加情報(映像トラック等)が見落とされる恐れがあります。
4. カスタム拡張子による混乱
問題点 :バックアップや元ファイルを示す意図があったと思われますが、標準的な画像ビューアでは開けません。
5. 形式が特定できないファイル
問題点 :比較的大きなファイルですが、DROIDでも形式を特定できませんでした。破損しているか、非常に珍しい形式の可能性があります。
DROIDの分析結果から学べること
デジタル保存における実践的教訓
拡張子は信頼できない
- ファイルの拡張子だけで判断するのは危険
- 内部構造の検証が不可欠
早期発見が重要
- 問題を早く見つければ、対処コストが低い
- 定期的なファイル監査が推奨される
メタデータの正確性
- 正しいファイル形式情報が保存戦略の基盤
- 形式情報の検証プロセスが必要
移行計画への影響
- 誤った形式情報は移行ツールの選択を誤らせる
- リスク評価の精度に直結
DROIDの活用シーン
1. デジタルアーカイブの受入時
新規に受け入れるコレクションの品質チェックに使用。提供されたメタデータとファイルの実態を照合します。
2. 定期的な健全性チェック
既存コレクションの定期監査で、ファイル劣化や破損の早期発見に活用します。
3. 移行プロジェクトの準備
フォーマット移行の前に、対象ファイルの正確な形式を特定し、適切な変換ツールを選択します。
4. リスク評価
廃止予定のファイル形式や、サポートが終了した形式を特定し、優先順位をつけます。
DROIDの出力データの活用
DROIDはCSV形式で詳細なレポートを出力します。主な出力項目:
- PUID :PRONOMレジストリの一意識別子
- MIME_TYPE :標準的なMIMEタイプ
- FORMAT_NAME :形式の正式名称
- FORMAT_VERSION :形式のバージョン
- EXTENSION_MISMATCH :拡張子不一致フラグ
- MD5_HASH :ファイルのチェックサム
このデータを分析することで:
- コレクション全体の形式分布を把握
- リスクの高いファイルを優先的に処理
- 保存コストの見積もり
- 技術的メタデータの自動生成
実践:DROIDを使い始めるには
基本的なワークフロー
DROIDのダウンロードとインストール
- The National ArchivesのWebサイトから無料でダウンロード
- Java実行環境が必要
分析対象の選択
- 単一ファイルまたはフォルダ全体を選択
プロファイル実行
- DROIDがファイルをスキャンし、形式を識別
結果の確認
- GUI上で結果を確認
- 拡張子ミスマッチに注目
レポート出力
- CSV形式でエクスポート
- さらなる分析や記録保存に使用
注意すべきポイント
- PRONOMの定期更新 :新しいファイル形式に対応するため
- 複数形式の可能性 :一部のファイルは複数の形式として識別される場合がある
- コンテナ形式の理解 :ZIP、DOCX等のコンテナ形式は内部構造も分析される
まとめ
DROIDは、デジタル保存における「見えない問題」を可視化する強力なツールです。今回の実例から分かるように、予想以上に多くのファイルが正しくない拡張子を持っている ことがあります。
デジタルアーカイブの責任者として、以下を推奨します:
✅ 定期的なDROID分析の実施
✅ 拡張子ミスマッチファイルの優先的な修正
✅ ファイル形式情報の記録と管理
✅ 受入時の必須チェック項目に追加
正確なファイル形式情報は、デジタル資産の長期アクセス性を保証する基礎です。DROIDを活用して、あなたのコレクションの「真の姿」を明らかにしてみてはいかがでしょうか?
参考リソース
- DROID公式サイト : The National Archives (UK)
- PRONOMレジストリ : https://www.nationalarchives.gov.uk/PRONOM/
- ファイル形式レジストリ : 15,000以上の形式定義を参照可能
関連記事(今後の予定)
- PRONOMレジストリの深掘り解説
- Siegfried:DROIDの代替ツール比較
- デジタル保存ワークフローにおけるファイル形式識別の位置づけ
このブログ記事は、iPRES2025ワークショップのサンプルデータを基に作成されました。実際の分析結果を使用することで、DROIDの実践的な価値を示しています。