忍者ブログ
Webアーカイブについて気付いたことを。
[1] [2]
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

Edward A. Fox氏の提唱したディジタル・ライブラリのモデル。どっちかというとシステム全般用のものかもしれない。

↑より個別のものに対するもの

Stream:生のデータに対するもの
Structural:メタデータの構造
Spetial:どのようなUIで検索させるか
Scenarios:どのようにデータを提供するか
Societies:どんな組織がどんな人に行うか

↓アーカイブ全体に対するもの
PR
昔からあるモデルですね。

・概要
OAIS(Open Archival Information System)は、NASAなんかの膨大な観測データを保存している組織が、そのデータを長期間保存することを目的に策定したもの。
簡単に言うと、100年後にそのファイルを開くために、どんなソフトで作成されたのか、どこが作成したのか、責任者はだれか、ほかのファイルとの関連なんかを記録しているファイルを作ろうね、というもの。
そのために、内容(Content Information)、保存形式(Preservation Description Information)を一つの箱(Packaging Information)におさめて、札(Descriptive Information)をくっつけてある。
モデルなんで、決まっているのはここまで。これらをどんな形式で保存するか、なんてのは決まっていない。だいたいが組織ごとに決めたXMLスキーマで記述されているようですが。

・実際にやってみた機関の報告書
筑波大学:
http://www.tulips.tsukuba.ac.jp/pub/dlsympo/hobunshu/kuriyama.pdf
英国公文書館:
http://www.nationalarchives.gov.uk/news/stories/79.htm
ちょっと気になるプロジェクト。
Youtube等から動画のメタデータを収集するシステムです。

ContextMiner
http://www.contextminer.org/

ContextMiner: A Metadata Collection Tool
http://www.digitalpreservation.gov/news/2008/20081106news_article_contextminer.html

TubeKit
http://www.tubekit.org/

 IIPC

The International Internet Preservation Consortiumというもの。Webアーカイブの概念とかを整理して、規格を策定しようとしている。中心はフランスとIAっぽい。
主な成果物は「WARC」と「Heritrix」。2007年からあんまり進んでない?


Heritrix
http://wa.archive.org/blog/2007/03/17/heritrix-1120-crawling-smarter/

WARC File Format
http://archive-access.sourceforge.net/warc/warc_file_format-0.9.html

アジア
日本:WARP
国立国会図書館運用している。対象は国の機関が中心。

アメリカ大陸
アメリカ:Internet Archive
全世界のWebページを対象に収集を行っている、言わずと知れた巨人
アメリカ:ミネルバ
IAのデータを使って、テーマに会わせてWebページを収集し、公開している。博物館的

オセアニア
オーストラリア:PANDORA
様々な分野のWebページを、カテゴリごとに分類して収集している。収集対象のWebページを選択しているのは各カテゴリについての研究を行っている機関

ヨーロッパ
フランス:The european archive
ヨーロッパのWebページ、動画、音声をディジタルアーカイブしている。量は少ないけど、ながめてておもしろい


忍者ブログ [PR]
カレンダー
04 2025/05 06
S M T W T F S
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
フリーエリア
最新コメント
最新トラックバック
プロフィール
HN:
No Name Ninja
性別:
非公開
バーコード
ブログ内検索
P R