デジタルアーカイブや長期保存を担当している方なら、「このファイル、本当に拡張子通りの形式なのか?」と疑問に思ったことがあるはずです。今回は、そんな疑問を解決してくれる強力なツール「DROID」について、実際の分析結果を交えながら紹介します。

DROIDとは?

DROID(Digital Record Object Identification)は、英国国立公文書館(The National Archives)が開発したファイル形式識別ツールです。ファイルの拡張子だけでなく、ファイルの内部構造(シグネチャ)を分析 して、真の形式を特定します。

DROIDの主な機能

  • バイナリシグネチャによる識別 :ファイルの内容を直接分析
  • PRONOMレジストリとの連携 :15,000以上のファイル形式データベースを活用
  • 一括処理 :フォルダ単位での大量ファイル分析
  • 拡張子ミスマッチの検出 :拡張子と実際の形式の不一致を発見
  • CSV出力 :分析結果をデータとして活用可能

なぜDROIDが必要なのか?

デジタルファイルには、以下のような問題がよくあります:

  1. 意図的な拡張子変更 :ファイル形式を隠すため
  2. 誤った拡張子の付与 :人為的ミスやシステムエラー
  3. 形式変換時の拡張子未更新 :変換後に拡張子が古いまま
  4. 拡張子のない/不明なファイル :古いシステムからの移行時など

これらの問題は、長期保存計画や移行戦略に深刻な影響 を与える可能性があります。

実例で見るDROIDの威力

実際にDROIDで分析したデジタル保存ワークショップのサンプルファイルから、興味深い問題が複数見つかりました。

🚨 発見された主な問題

1. 音声ファイルが画像ファイルを装っている

PMUIIM::DE:E:.:TXtfyT4iWmpE1fateN2v/:S0Te1I1If4aO6Fo1uN_Frd__miMsoIkA/SyuxMmd-AaiwTroaCyvH_(_P=cCaMttWr-AupVeuErFrOiRnMgA-Ta)nd-meow.tif

問題点 :画像として扱われる可能性があり、適切な音声再生ツールでアクセスできない恐れがあります。

2. 新形式なのに古い拡張子

PMUIIM::DE:E:.:TXdfyTAoMmpEuciteNsc/:SPWr4Iroo1aOers2pNsdop_eflMr9tiIv7cSe-WaMs2otA-0riTC0doCo3nHdf/eov=ornfdtCW.roiounnpeddeuoncwxtsm_l22f00o10r87m1a1ot1ns5w-.aodrfodfcsice.ddooccuxm)ent.wordprocessingml.document

問題点 :古いWordバージョンでは開けない可能性があり、互換性の問題が発生します。

3. MP3ではなくMP4だった

PMUIIM::DE:E:.:TXmfyTApMmpEu3PteNsE/:StG1Ir-9aOa49pNlp_aMlMseiIidcSaiaMPatAriTeFoCsinHel/rem=vpe4ts,r_uivePiRdEeSo2/0m1p94.mp3

問題点 :音声専用プレイヤーでは正しく再生できない可能性があります。また、動画コンテナとしての追加情報(映像トラック等)が見落とされる恐れがあります。

4. カスタム拡張子による混乱

PUI::D:E:.:XtfTFiTmElfatNo_g/Spog3Ipre5Oyid3NDg_iiIMsnmIkaaSslgM.eAtTiFCfiH_loe=riFtgorirunmeaalt

問題点 :バックアップや元ファイルを示す意図があったと思われますが、標準的な画像ビューアでは開けません。

5. 形式が特定できないファイル

FOR::MA:5T6_A2Cu,Os3Ut9Nr3Ta:la0siaPreserves-modified.png

問題点 :比較的大きなファイルですが、DROIDでも形式を特定できませんでした。破損しているか、非常に珍しい形式の可能性があります。

DROIDの分析結果から学べること

デジタル保存における実践的教訓

  1. 拡張子は信頼できない

    • ファイルの拡張子だけで判断するのは危険
    • 内部構造の検証が不可欠
  2. 早期発見が重要

    • 問題を早く見つければ、対処コストが低い
    • 定期的なファイル監査が推奨される
  3. メタデータの正確性

    • 正しいファイル形式情報が保存戦略の基盤
    • 形式情報の検証プロセスが必要
  4. 移行計画への影響

    • 誤った形式情報は移行ツールの選択を誤らせる
    • リスク評価の精度に直結

DROIDの活用シーン

1. デジタルアーカイブの受入時

新規に受け入れるコレクションの品質チェックに使用。提供されたメタデータとファイルの実態を照合します。

2. 定期的な健全性チェック

既存コレクションの定期監査で、ファイル劣化や破損の早期発見に活用します。

3. 移行プロジェクトの準備

フォーマット移行の前に、対象ファイルの正確な形式を特定し、適切な変換ツールを選択します。

4. リスク評価

廃止予定のファイル形式や、サポートが終了した形式を特定し、優先順位をつけます。

DROIDの出力データの活用

DROIDはCSV形式で詳細なレポートを出力します。主な出力項目:

  • PUID :PRONOMレジストリの一意識別子
  • MIME_TYPE :標準的なMIMEタイプ
  • FORMAT_NAME :形式の正式名称
  • FORMAT_VERSION :形式のバージョン
  • EXTENSION_MISMATCH :拡張子不一致フラグ
  • MD5_HASH :ファイルのチェックサム

このデータを分析することで:

  • コレクション全体の形式分布を把握
  • リスクの高いファイルを優先的に処理
  • 保存コストの見積もり
  • 技術的メタデータの自動生成

実践:DROIDを使い始めるには

基本的なワークフロー

  1. DROIDのダウンロードとインストール

    • The National ArchivesのWebサイトから無料でダウンロード
    • Java実行環境が必要
  2. 分析対象の選択

    • 単一ファイルまたはフォルダ全体を選択
  3. プロファイル実行

    • DROIDがファイルをスキャンし、形式を識別
  4. 結果の確認

    • GUI上で結果を確認
    • 拡張子ミスマッチに注目
  5. レポート出力

    • CSV形式でエクスポート
    • さらなる分析や記録保存に使用

注意すべきポイント

  • PRONOMの定期更新 :新しいファイル形式に対応するため
  • 複数形式の可能性 :一部のファイルは複数の形式として識別される場合がある
  • コンテナ形式の理解 :ZIP、DOCX等のコンテナ形式は内部構造も分析される

まとめ

DROIDは、デジタル保存における「見えない問題」を可視化する強力なツールです。今回の実例から分かるように、予想以上に多くのファイルが正しくない拡張子を持っている ことがあります。

デジタルアーカイブの責任者として、以下を推奨します:

定期的なDROID分析の実施
拡張子ミスマッチファイルの優先的な修正
ファイル形式情報の記録と管理
受入時の必須チェック項目に追加

正確なファイル形式情報は、デジタル資産の長期アクセス性を保証する基礎です。DROIDを活用して、あなたのコレクションの「真の姿」を明らかにしてみてはいかがでしょうか?


参考リソース

関連記事(今後の予定)

  • PRONOMレジストリの深掘り解説
  • Siegfried:DROIDの代替ツール比較
  • デジタル保存ワークフローにおけるファイル形式識別の位置づけ

このブログ記事は、iPRES2025ワークショップのサンプルデータを基に作成されました。実際の分析結果を使用することで、DROIDの実践的な価値を示しています。