重複排除ストレージの圧縮率

ストレージ設計を行う際に暗号化と重複排除の実装は深刻な問題だと思います。
個人的な経験になりますが、参考までに基準値を記載します。

本稿はバックアップストレージについての記載になります。

重複排除については、雑に説明すると「ABCD」と記載されたファイルをバックアップする場合、まず「ABCD」の状態で初回バックアップが行われます。
「ABCD」が「ABCDE」と追記された場合、「ABCDE」のファイル単位のバックアップを行うのではなく、「E」のデータのみバックアップすることでディスク消費を抑えます。
「ABCD」+「E」=「ABCDE」のファイルを作成するテクノロジーが重複排除です。
これはすべてのファイルを統合して行われるので、「ACDEXYZ」と記載された別のファイルがあった場合、保管されるバックアップデータは「XTZ」部分だけになります。
リストアは「ABCDXYZ」でリストアされます。

重複排除はバックアップに使用するディスク容量は減りますが、重複排除ストレージや重複排除ソフトウェアに費用は安くないのでコスト低減というより数100TBのデータを100日以上、バックアップ保管しなければならないような要件に向いていると考えます。
向いてないケースは以下の通りで、いずれも重複排除の効果が期待できません。
・週1回、月2回などバックアップの頻度が低い
・ファイルレベルで暗号化している
・データベースを透過的暗号化している
・画像・音声関連のファイルの構成比率が高い

バックアップ用の重複排除ストレージの容量を計算する際には以下の式を使用しています。
初回のフルバックアップ容量の70%~75%」+「日単位容量の0.1%~0.5%」
100TBのバックアップ対象を30日保管したい場合、75TB+1.5TB=76.5TBのユーザ領域があるバックアップストレージで設計しています。
「パスワード付きzipファイルが無い」「映像(mp4等)画像(jpeg等)が無い」ファイルサーバ現在無いとため総容量に対して5%程度は重複排除の効果が期待できない環境を考慮しています。

あくまで経験上の式で論理的根拠は無いです。
ご参考まで。


De-duplicated storage compression ratio

I think the implementation of encryption and deduplication is a serious issue when designing storage.
This is my personal experience, but I will describe the standard values for your reference.

This paper is about backup storage.

To explain de-duplication in a crude manner, when a file marked “ABCD” is backed up, the first backup is performed with “ABCD” first.
If “ABCD” is appended as “ABCDE,” instead of backing up the “ABCDE” file unit, only the “E” data is backed up to reduce disk consumption.
Deduplication is a technology that creates a file “ABCD” + “E” = “ABCDE”.
This is done by merging all files together, so if there is another file listed as “ACDEXYZ,” the backup data stored will be only the “XTZ” portion.
Restores will be restored with “ABCDXYZ”.

Although deduplication reduces the amount of disk space used for backup, the cost of deduplication storage and deduplication software is not cheap, so it is more suited to requirements where several hundred terabytes of data must be backed up and stored for 100 days or more, rather than to reduce costs.
The following cases are not suitable for deduplication.
・Backups are performed infrequently, such as once a week or twice a month.
・Encryption is done at the file level.
・Transparent encryption of databases
・High ratio of image files or audio-related files.

The following formula is used to calculate deduplication storage capacity for backups
70%-75% of the initial full backup capacity + 0.1%-0.5% of the daily capacity.”
If you want to keep 100TB of backup targets for 30 days, we have designed in backup storage with 75TB + 1.5TB = 76.5TB of user space.
If there are no password-protected zip files, no video (e.g. mp4) or images (e.g. jpeg), and no file servers are present, we consider an environment where deduplication cannot be expected to be effective for about 5% of the total capacity.

It is only an empirical formula and has no logical basis.
For your reference only.

関連記事

TOP