ファイルシステム総合スレその20

[過去ﾛｸﾞ] ファイルシステム総合スレその20 (1002ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

921: 06/16(月)02:21 ID:upbk3sl3(1/2) AAS
リビルドは最初からあまり期待しない。
HDDがいかれたときは他のHDDも寿命間近で、リビルド中にお釈迦になった経験がある。

raidを使う利点はコントローラから警告音が盛大に出ることとバックアップの時間が稼げること。

ソフトウェアraidの利点も時間稼ぎかな。

922: 06/16(月)03:30 ID:V26EfEYC(1) AAS
業務用ストレージならスクラブが走るからリビルドあんま失敗しないけどね
最近は別の不具合でボリュームが全損するケースがちらほらある
ストレージも最近高いくせに品質悪いな

923: 06/16(月)05:44 ID:zRTb+SAk(1/2) AAS
RAID1ならリビルドするけどRAID5や6はやらないかなあ
時間かかりすぎるよ

924: 06/16(月)07:30 ID:7sPaAkac(1) AAS
> バックアップの時間が稼げる
これが大事だと思う

925: 06/16(月)07:45 ID:upbk3sl3(2/2) AAS
時間稼ぎだからデータ逃がせる環境ならraid5で十分だよ。

926(1): 06/16(月)12:57 ID:7WvLU0an(1) AAS
リビルドせずにバックアップ取得
ならRAID不要の環境だし普段からバックアップしとけよ
どれだけ踊らされているのか

927: 06/16(月)16:46 ID:zRTb+SAk(2/2) AAS
>>926
どういうこと？
リアルタイムバックアップしろってこと？

928: 06/17(火)03:11 ID:G5q8UCPD(1/8) AAS
バックアップは毎日取るものでしょ
差分だけなら時間もわずかなので

なんでRAID縮退時にバックアップを取る前提なの?
普段からとってないの?

929: 06/17(火)04:39 ID:Z0BbVoQp(1) AAS
日に一度のバックアップならやっぱりRAID必要やん
なぜそれでRAID不要になるのか

930: 875 06/17(火)09:00 ID:lZRqBMI7(1/4) AAS
「壊れた瞬間に使えなくなる」のか、「まだ使える/処理を継続
できる」のか、はかなり重要なファクターだと思うが？
流石にバックアップあればRAID不要は極論。

ハードウェアRAIDはスクラブやらSMART監視で部分的な故障まで
監視しているからリビルド失敗はない。
失敗した場合でもRAIDカード交換させたら治ったこともあるから
似たようなことがったらカード交換も検討するといいよ。

LVM,ファイルシステム,デバイスドライバーによるソフトウェアRAID
やらフェイクRAIDも「４～５年ごとにハードを買い替える」ことが
守れてば大丈夫だと思うけどねぇ。

931: 06/17(火)09:22 ID:G5q8UCPD(2/8) AAS
優先度について述べているだけ
バックアップを定期的に取らないのにRAID導入しているのが見受けられる

932: 06/17(火)10:22 ID:lZRqBMI7(2/4) AAS
バックアップに対する現場の意識が足りない、という意味で言いたいのは
わからんでもないが、データロストと(RAIDなし環境における)業務/納期
遅延のそれぞれリスクを発生確率を交えて考えると、やはりその意見には
賛同できないよ。

933(2): 06/17(火)10:29 ID:YcGRWNVI(1/4) AAS
一切の故障がなくてもURE(回復不可能な読み取りエラー)は確率的に起きるのでまず前提が間違ってる
もちろん製品のグレードによりけりで
エンタープライズ用HDDなら限りなく低い確率、具体的には10^15ビットに1回になるぐらいの品質で製造されてるけど
どのHDDにも起き得るし一般的な民生用だと10^14ビットに1回程度で更に確率が上がる

TB単位のストレージでRAID5が現実的じゃないってのは
読み取るサイズが増える分だけURE=リビルド失敗の可能性が高まるから
8TBだと仮定して民生用だと約60%、エンタープライズ用でも約6％ぐらいの確率で失敗する可能性がある

んでRAID1なら片肺でも読み出し出来るし
リトライも容易だけどRAID5じゃそうはいかねー事が多いからな

934(1): 06/17(火)11:49 ID:fFPZtW+I(1/2) AAS
RAID5,6は理論上の速度や容量効率は利点だけど、
データチャンク、XORパリティで細切れブロック配置したり複雑で
ディスク上のビット単位でのデータ信頼性という意味では
物理ヘッドガチャガチャするHDDではRAID0よりキツそう
(そんなに詳しくないから想像だけど)

実際には様々なレイヤーのパリティやビット訂正で
エラー回復してるんだろうけど、自分が使ってる
RAID1(Btrfs)でさえ3週に1度スクラブかけると
半分ぐらいの確率でエラー訂正しましたのログが残ってるのだわ

935: 06/17(火)12:00 ID:G5q8UCPD(3/8) AAS
URE(回復不可能な読み取りエラー)
というのは媒体mediumエラーでしょ?
HDD/SSDコントローラは生きていて
特定LBA(LogicalBlockAddress)でエラーがでる
局所的ブロック、媒体エラーだよね
HDD/SSD内部でソフトウェア的エラーの可能性はあるけど
カーネルから見たらハードウェアエラー(==故障)だよ
これ範

936: 06/17(火)12:02 ID:G5q8UCPD(4/8) AAS
あとRAID使っているわりには
ファンや電源の冗長化してないよね
これらも故障したら交換するまで停止でしょ

937: 06/17(火)12:12 ID:fFPZtW+I(2/2) AAS
>>933
言われてみればそうだなあ…
HDDだけダウンタイムなしまたは交換時間オンリーを想定してても、
HDDの故障率と比べて電源やファンとかM/B等パーツが
それより壊れないかと言うとうーんって思う…

自分の環境はファンは予備があってすぐ交換できるし、
電源はACアダプターのマザボ運用してるのでちょっとマシ
(ノート用のよくある19VでOK)

938(1): 06/17(火)12:57 ID:G5q8UCPD(5/8) AAS
>>933
は事実と異なる内容を記述している
あるHDD/SSDでURE(回復不可能な読み取りエラー)が出たら
RAIDレベルによらず全HDD/SSD稼働中なら他のHDD/SSDのデータから復元できる
(要は1台故障と同じ(切り離して故障にするかは別問題でコントローラの設計))
HDD/SSD故障があるのならRAIDレベルによらず多重故障でデータ復元できない
RAID6は2点故障でも復元できるけど

939(1): 06/17(火)13:27 ID:lZRqBMI7(3/4) AAS
現場的には6%はかなり盛り過ぎだと感じるわ。
RAID のチャンクサイズ考慮して計算されてないか、
スクラブとかSMART監視とかない前提？

940: 06/17(火)13:37 ID:1K0szjjx(1) AAS
>>938
だから「リビルドがUREで失敗する確率は決して低くない」という話だって言ってるじゃん
冗長性のあるRAIDレベルで通常稼働時に単一の障害が訂正出来るのは当たり前じゃねーかw

>>939
あくまで「リビルド中にUREに遭遇する確率」をカタログスペックから単純計算(概算)した数字の話なので
もちろん実際の障害の可能性はもう少し前後し得るよ

改めて補足しとくけどUREはSMARTとかからわかる形で
明確に「故障」せずとも読み取り時に偶発的に起きる確率的現象で
だから市販製品のデータシートにもちゃんと書いてあるんだ(Non-recoverable errors per bits readの項とかその辺り)
もちろん業務用途ならHDD/SSDにしろRAIDカードにしろソフトウェアRAIDにしろ
ずっと上等で堅牢な構成を採用してる事が多いから
破滅的な結果に至る確率はぐっと低いよ
あくまで典型的には個人がRAID5やるシナリオだと致命的になりがちって話ね

外部ﾘﾝｸ[pdf]:documents.westerndigital.com
外部ﾘﾝｸ[pdf]:www.seagate.com

941: 06/17(火)13:51 ID:G5q8UCPD(6/8) AAS
5分停止したら何億とか会社消滅ならRAIDでサービス継続は分かる

でも個人用途ではHDD故障して機能のバックアップで十分
データ書き戻しで半日くらい止まっても大丈夫
これらが大半
RAID不要だろって話
webや雑誌記事でのせられて使っているだけでしょ?

942: 06/17(火)13:52 ID:G5q8UCPD(7/8) AAS
昨日のバックアップデータで許容ね

943: 06/17(火)14:22 ID:89jEObby(1) AAS
linux板って個人と企業を混合して話をするからエスパー力を必要とされるね

944: 06/17(火)16:34 ID:TRstYWTQ(1) AAS
>>934
3週間間隔でエラー補正かかる、は流石にディスクの方を疑おうよ…

945(1): 06/17(火)19:12 ID:lZRqBMI7(4/4) AAS
以下チラ裏。

週１回スクラブ、週の書き込みが総容量の15%程度でディスクの
使用率90%、8TBx11本(10d1p)、エラー率1/10^15、と仮定して
自分で計算してみた。

10d1pでスクラブなしで１本故障時に残存HDDにエラーが乗って
いる率(任意の10本にエラーが乗っている確率)が8%。
スクラブで 0.00000000028% に低下(面倒なので0%とする)。
１週間分の書き込みで 1.2% に上昇、
未使用領域で事なきを得る確率 10% を差っ引くとリビルド失敗率は
1.08% だな。

個人だとHDD4本構成(3d1p)ぐらい？。
ディスク使用率70%、エラー率は1/10^14 で週の書込量は総容量の
3% で計算。

スクラブなしだと任意の３本にエラーが乗っている確率が24%、
こちらも週１回スクラブ(TeraStationとかがこれぐらいの頻度？)
でほぼゼロに。
週に３%(0.72TB)書込で 0.72%、未使用領域で事なきをえる確率
30% 差っ引いてリビルド失敗率は 0.5% ぐらいか。

946: 06/17(火)19:17 ID:526FSu8J(1) AAS
お前らいったん冷静になってスレタイ512回ほど音読しろ

947: 06/17(火)19:47 ID:YcGRWNVI(2/4) AAS
みんなbtrfsの話してるとばかり思ってたのに
あ、個人の趣味でbtrfsでRAID1してます

948: 06/17(火)19:48 ID:0tWlbWzs(1) AAS
まあまあ…
ファイルシステムを乗せるための
ファイルシステム/データストレージ関連技術として
RAIDとかLVMとかの話題もいいんじゃない？

専用スレも無いみたいだし(それまで過疎ってたし…)

949: 06/17(火)21:52 ID:YcGRWNVI(3/4) AAS
>>945
Unrecoverable Read Error (URE)は言葉の通り「回復不可能な読み出しエラー」、
つまり読み出しの時点で新たに起きるエラーの話で
URE rate (URE率)というのは読み出しの総量に対してエラーが起きる確率
つまり厳密には事前の書き込みで起きる破損(破損セクタ)じゃないよ
適切に定期scrubすれば現実の故障のリスクを減らせると思われるのはその通りだけど
それ踏まえても「リビルド時のURE 」は無くせないって話

でも先の60%/6%で失敗って言ったのはカタログスペックの保守的な見積もり(のはずの)保証値から全容量でざっくり概算したもので
実際のHDDのエラー率はもっと低いだろって指摘する人もいるし
もっと楽観的に見れるんじゃねと言えばそれはそうだと思う

繰り返しになるけど俺が言いたいのは「"RAID5は" URE考えるとヤバイ」って所ね
RAID1はじめscrubなど適切な運用ありきの多くが
現実的じゃないとはまったく思ってないし言ってもないからね
外部ﾘﾝｸ:www.enricobassetti.it

長々ほぼスレチ話しちゃったから無理やり話戻すけど
btrfsでRAID5だけは絶対やめとけ
地雷機能の地雷構成とか絶対死ぬでw
外部ﾘﾝｸ[html]:btrfs.readthedocs.io

950: 06/17(火)23:13 ID:G5q8UCPD(8/8) AAS
ひとのコメントを根拠とか示さず貼られても…
RAID5ではこれこれの機能が理論的には必要だけど
linux mdはこれこれが実装されていないとか
具体的に書けばよいのに

上下前次 1-新書関写板覧索設栞歴

あと 52 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.075s