Почему мои жесткие диски выходят из строя?

Вопрос или проблема

У меня дома есть небольшой сервер на Ubuntu с двумя жесткими дисками. На дисках настроены два программных RAID (raid1), управляемых mdadm, я считаю, что это несущественно, но все равно упомяну об этом.

Оба жестких диска – Western Digital, использовались около двух лет, когда один из них начал издавать щелкающие звуки и вышел из строя. Я подумал, что, возможно, это естественно после двух лет, поэтому купил новый и снова синхронизировал массивы RAID. Через около месяца другой диск также вышел из строя.

Я не заподозрил ничего подозрительного, поскольку оба диска были куплены в одно время, это не так уж и удивительно, что оба вышли из строя почти одновременно, поэтому я купил еще один.

Итак, на данный момент 2 старых диска вышли из строя и 2 совершенно новых в системе. После одного месяца один из новых дисков тоже сломался. Вот тогда началось подозрительное.

Поскольку ПК был собран из действительно старых частей (например, AthlonXP), я подумал, что, возможно, виноват контроллер SATA на материнской плате. Конечно, в старом ПК, как этот, нельзя легко переключать комплектующие, поэтому я купил целую систему: новую материнскую плату, новый процессор, новую оперативную память. Забрал только что вышедший из строя диск, так как он был на гарантии, и обменял его.

Итак, теперь у нас 2 старых неисправных диска и 1 новый. Никаких проблем, в течение 1 месяца. После этого ошибки снова начали появляться в /var/log/messages, и mdadm сообщал об ошибках массива RAID. Я начал рвать на себе волосы. Все новое в системе, это уже третий совершенно новый жесткий диск, просто невозможно, чтобы все новые диски, которые я купил, были бракованными.

Давайте подумаем, что еще общее… кабели. Ладно, рискнем, давайте заменим SATA-кабели. Забираю жесткий диск обратно, улыбаюсь парню на кассе и говорю, что мне действительно не везет. Он меняет жесткий диск. Приезжаю домой, проходит месяц, и один из жестких дисков снова выходит из строя. Я не шучу.

Два совершенно новых жестких диска вышли из строя. Может, это ошибка в ОС. Давайте посмотрим, что говорит инструмент тестирования от производителя. Скачиваем инструмент тестирования, записываем его на CD, перезагружаем, оставляем жесткий диск на тестирование на ночь. Тест говорит, что диск неисправен, и мне следует сделать резервную копию всего, если я еще могу. Я не знаю, что происходит, но все это не выглядит как проблема программного обеспечения, что-то однозначно повреждает жесткие диски.

Я должен упомянуть, что вся система находится в коробке от обуви. Поскольку имеется множество “собери свой собственный корпус ИКЕА”, я думал, что не должно быть никаких проблем просто бросить это в коробку и убрать куда-то. Коробка хорошо вентилируется, но мне подумалось, что, возможно, диски перегреваются. Других возможных ответов на это нет. Поэтому я забрал жесткий диск обратно, и обменял его (в третий раз), и купил охладители для жестких дисков.

И только что я услышал звук катастрофы. щелк щелк жужжжжжжжжжжж. SSH в коробку:

У вас новая почта!
mail
r 1
DegradedArrayEvent на /dev/md0 ...

dmesg вывод:

[47128.000051] ata3: потеряно прерывание (Статус 0x50)
[47128.000097] end_request: ошибка ввода-вывода, dev sda, сектор 58588863
[47128.000134] md: super_written вернул ошибку=-5, актуально=0
[48043.976054] ata3: потеряно прерывание (Статус 0x50)
[48043.976086] ata3.00: исключение Emask 0x0 SAct 0x0 SErr 0x0 действие 0x6 заморожено
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (таймаут)
[48043.976208] ata3.00: статус: { DRDY }
[48043.976241] ata3: мягкая перезагрузка канала
[48044.148446] ata3.00: настроен на UDMA/133
[48044.148457] ata3.00: устройство сообщило об недействительном CHS секторе 0
[48044.148477] ata3: EH завершен

Итак, в итоге:

  1. Нет возможности перегрева
  2. 6 дисков вышли из строя, 4 из них были совершенно новыми. Теперь я не уверен, что оригинальные два были бракованными или страдали от того же, чем и новые.
  3. Нет ничего общего в системе, кроме ОС, которая сейчас является Ubuntu Karmic (начинал с Jaunty). Новая материнская плата, новый процессор, новая оперативная память, новые SATA-кабели.
  4. Нет, маленькие отверстия на жестком диске не закрыты

Я плачу. Действительно. У меня нет смелости вернуться в магазин, невозможно, чтобы 4 диска вышли из строя за 4 месяца.

Несколько идей, которые я подумал: Возможно ли, что я что-то испортил, когда разбивал и синхронизировал диски? Может быть, это так плохо, что физически разрушает диск? (так как инструмент, предоставленный продавцом, говорит, что диск поврежден) Я разбиваю на разделы с помощью fdisk и использую один и тот же размер блока для разделов raid1 (я проверяю точные размеры блока с помощью fdisk -lu)

Возможно, что ядро Linux или mdadm, или что-то еще несовместимо с этой конкретной маркой жестких дисков и повреждает их?

Может быть, это дело в коробке от обуви? Попробовать разместить ее где-то еще? Она сейчас под полкой, поэтому влага тоже не проблема. Может быть, обычный корпус ПК решит мою проблему (тогда мне придется застрелиться)? Я завтра сделаю фотографию.

Мне просто не везет?

Любая помощь или спекуляции будут весьма актуальны.

Правка: Удлинитель защищен от перенапряжения.

Правка2: Я переехал за эти 4 месяца, поэтому вероятность того, что причиной является “грязное” электричество в обоих местах, очень мала.

Правка3: Я проверил напряжение в BIOS (не смог занять мультиметр), и все они кажутся корректными, наибольшие отклонения в 12В, так как он подает 11.3. Должен ли я об этом беспокоиться?

Правка4: Я поставил БП от своего настольного ПК в сервер. BIOS показал гораздо более точные показания напряжения, и также он успешно перестроил массив raid1, что заняло около 3-4 часов, так что я чувствую себя немного позитивно сейчас. Завтра куплю новый БП, чтобы протестировать его.

Также прикрепляю фотографию коробки: (не обращая внимания на третий диск)

фотография коробки с несчастьем

Ваш блок питания тоже старый? Возможно, он недо- или перепадает напряжение, что вызывает сбой. Если у вас есть мультиметр, я бы попробовал измерить напряжение, которое подается на ваши жесткие диски, и следить за ним в течение некоторого времени. Другой виновник может быть “грязное” электричество, поэтому может потребоваться ИБП, чтобы “очистить” электроэнергию, подаваемую на БП.

Я согласен с другими: проблема с электричеством.

Однако с оговоркой.

ВСЕ компоненты должны иметь ОБЩИЙ заземление – шасси типично, но в вашем случае, кто знает! “Дрейфующее заземление” может вызывать это, я уверен.

Вы хотите, чтобы все компоненты были соединены с единым заземлением И чтобы это заземление было связано с заземлением от электросети вашего facility. Это ВАЖНО.

Есть вероятность, что все ваши старые комплектующие все еще в порядке! Я обнаружил, что оборудование, работающие с непостоянным блоком питания, иногда хорошо справляется, когда предоставляется надлежащее питание.

Это старая запись, и оригинальный вопрос может больше не иметь значения для задающего вопрос. Однако для будущих справок для людей, собирающих бюджетный ПК, электричеству не является всеобъемлющей проблемой с дисками. Это, по моему профессиональному мнению, как сертифицированного инженера по внедрению EMC, вводящий в заблуждение ответ, винить блок питания как единственные ответственные, учитывая, что компьютер находится внутри картонной коробки.

Жесткие диски вибрируют, и хоть нет конкретной позиции, вертикальной или горизонтальной, которая увеличивает или уменьшает долговечность диска, однако существует фактор вибрации, который создает жесткий диск со шпинделями. Диски, показанные здесь, просто лежат в картонной коробке. Это пример бюджетной инженерии, а вибрирующие диски лежат на боку, тем самым увеличивая резонанс на пластине. Хотя это не ответ само по себе, неправильно установленные жесткие диски МОГУТ привести к сбою диска из-за вибрации пластины, disrupt head from touching the platter correctly.

Электричество, дешевый блок питания всегда плохо для компьютеров в целом, однако маловероятно, что этот БП убил жесткие диски, а не другие более чувствительные компоненты на плате. Эта система находится в картонной коробке, поэтому инженерия и электричество могли привести к более катастрофическим сбоям, но не обязательно к сбоям диска. Возможно, но не доказано в этом случае.

Тепло: тепло может уничтожить диск, однако, если в момент сбоя диск не был горячим на ощупь, то тепло не является виновником. Коробка из картона – это не хорошая конструкция для ПК или сервера. Вам будет лучше закрепить свои комплектующие на столе компьютера или рабочем столе, по крайней мере, они будут заземлены.

Программный RAID и дешевые диски. Учитывая картонную коробку и старые детали, видимые на фотографии, вы, похоже, используете стандартные настольные диски и программный RAID. Настольные диски могут быть подключены к контроллеру RAID, однако с увеличением ввода-вывода на диске шанс сбоя диска увеличивается. Диски, изображенные в этом случае, не находятся на контроллере RAID, а группируются с помощью программного компонента на материнской плате. Это не идеально для жестких дисков. Это увеличивает нагрузку на ваш ЦП, а программные RAID известны своей ошибкой и преждевременным выходом из строя жестких дисков. Вероятно, что программный RAID убил эти диски прежде всего.

Профилактика для будущих сборок: Если вы читаете это и видите этот старый пользовательский сценарий через вопрос в google или что-то подобное:

– убедитесь, что ваши диски правильно закреплены в стабильном шасси для жестких дисков. Закрепите диски как минимум 4 винтами для жестких дисков или используйте специальный слайд для диска, который идет с вашим шасси.

– Убедитесь, что у вас достаточная вентиляция в вашем корпусе, жесткие диски в RAID имеют тенденцию к большему ввод-вывод на диске и будут гораздо горячее, чем если физический объем установлен отдельно.

– Не используйте дешевый блок питания. Грязный ток – убийца дорогих компьютерных компонентов. Также убедитесь, что ваш блок питания обеспечивает достаточную мощность для обработки желаемой рабочей нагрузки.

– Используйте карту контроллера RAID! Никогда не используйте программный RAID на вашей материнской плате. Программные RAID уменьшают производительность диска и повышают вероятность сбоя дисков больше, чем это делает карта контроллера RAID.

– RAID в общем увеличивает вероятность сбоя диска из-за увеличенного ввода-вывода по всем вашим томам. Чем больше пул дисков соединяется, тем выше вероятность сбоя дисков. Если вы используете RAID для своих дисков, всегда используйте парные диски и горячие резервные диски. Вы можете потерять свои данные, если сделаете RAID 0 из 2-3 дисков. Если у вас 3 диска, используйте RAID 5! 6 дисков на RAID 5 (4+1) с горячим резервным диском – идеал, если ваши диски покрыты гарантией. Если вы не можете позволить себе больше дисков или ваши диски находятся вне гарантии, не используйте RAID.

– Настольные диски не являются корпоративными дисками. Настольные диски аналогичны корпоративным дискам, но не предназначены для обработки больших нагрузок, создаваемых контроллерами RAID. Если вы покупаете настольные диски на newegg и собираете их на вашей материнской плате, вы скорее всего встретите как минимум один сбой диска в первый год. Чем дольше вы эксплуатируете свою машину на RAID, тем больше ввод-вывод записывается на диск, и тем выше вероятность того, что ваш том будет иметь сбои. Совместите дешевые диски с программным RAID на дешевой материнской плате, и вам будет плохо.

Вероятно, что этот пользователь столкнулся со всеми этими факторами в своем сервере из коробки. Дешевое электричество, плохая вентиляция, старые дешевые диски, неправильно установленные в шасси, и программный RAID на материнской плате… все это увеличивает вероятность сбоя диска.

Не могу представить, как у вас хорошая вентиляция и охлаждение в коробке от обуви? Вам действительно стоит потратить 50 или 60 долларов на настоящий корпус для компьютера?

Удлинители защищают только от перепадов напряжения; распространенные проблемы с электронной техникой – это пониженное напряжение (коричневая ошибка) и повышенное напряжение (всплеск). Также распространенными являются помехи от ЭМИ – у нас была нестабильная компьютерная система некоторое время назад, и причиной оказался беговая дорожка на одном и том же схеме (я лично это проверял без сомнений). Это отключало модем и вызывало зависание системы время от времени.

Кроме того, постоянное воздействие шума и колебаний в источнике питания в конечном итоге повредит БП, со временем уменьшая качество питания, подаваемого на электронику.

ПРАВКА: Колебания электрической энергии могут быть изолированы в конкретные схемы. Что более важно, мощные устройства, такие как микроволновые печи, холодильники, беговые дорожки, плиты и подобные устройства могут оказать значительное влияние на качество электроэнергии в этой схеме. И такие вещи, как холодильники, также имеют непрерывный цикл включения/выключения, который, в свою очередь, “искажается” и “всплескивает” мощность на линии, когда двигатель вкл. и выкл.

Кроме того, если вам предоставляет одна и та же электросеть, могут возникнуть проблемы с подачей напряжения по всей сети. Периодическое колебание между 105V и 125V отрицательно сказывается на электронике (насколько я понимаю).

Действительно, похоже на проблемы с питанием.

Если у вас есть перепады напряжения, многие дешевые удлинители сработают только один раз – и обычно нет никаких указаний на то, что они больше не защищают.

Хороший ИБП может помочь – некоторые из более дорогих на самом деле генерируют мощность из батарей и постоянно подзаряжаются, обеспечивая полностью изолированное питание. Единственный недостаток – это может быть шумно.

На самом деле производители HDD не печатают информацию о рабочих позициях на своих дисках, но ставить жесткие диски на бок совершенно нормально. В последний раз, когда я проверял эту информацию, диски можно было располагать лежа горизонтально или на боку, и под углом до 5 или 10 градусов от этих позиций. Лежать вверх ногами или с подключениями вверх или вниз не допускается. Подключения вверх или вниз раньше считались лучшей позицией для транспортировки около 15 лет назад. Это последняя информация, которую я имею по этому поводу.

У меня такая же ошибка на совершенно новом жестком диске WD green на 500 ГБ, и ваши SATA-кабели выглядят точно как мои, и я подозреваю их очень сильно.

Проблема с заземлением, не обязательно плохая, компоненты должны быть заземлены правильной установкой в металлическом корпусе, но если это не сделано, это не должно быть проблемой, если все подключения и кабели в 100% порядке.

Конечно, плохой блок питания может создать множество проблем для всей системы, я бы протестировал с новым БП как можно скорее, желательно со всем установленным на достойном корпусе.

Удачи

Я согласен, что плохое заземление – вероятная причина. Однако рассмотрите возможность перегрева как возможную причину. Если диски горячие на ощупь, значит, они слишком горячие. Поставьте на них вентилятор.

Вы можете проверить, перегревались ли они, посмотрев на значения S.M.A.R.T. Заземление корпуса не обязательно, так как многие устройства для горячей замены пластиковые и не заземлены. Защита через SATA-кабель должна быть достаточной. Надежная установка МОЖЕТ помочь с проблемами вибрации. Голова не касается пластины, но колебания на пластине могут вызвать небольшие частицы, которые впоследствии могут привести к поломке головы.

Вам, вероятно, следует обновить вашу установку Ubuntu. Несколько месяцев (лет?) назад была обнаружена ошибка, которая вызывает увеличение износа жестких дисков в установках Ubuntu.

Проверьте эту ссылку по этой проблеме/ошибке: Высокая частота циклов загрузки/выгрузки на некоторых жестких дисках может сократить срок службы

Может быть, рядом с вашей (совершенно неэкранированной) коробкой есть большие колонки, холодильники, кондиционеры, электродвигатели или другие магнитные источники?

Я согласен, что плохое заземление может быть причиной вашей трагедии со存памятью. Однако я бы также “укрепил” жесткие диски более плотно, так как вибрации могут привести к постоянному повреждению.

Проверьте разветвители питания, которые разделяют питание для вентиляторов дисков. Непостоянный разъем может привести к тому, что ваш диск потеряет питание в критический момент и выйдет из строя. Точно нужно иметь корпус для надежного заземления между материнской платой, БП и жестким диском.

Ответ или решение

Ваши жесткие диски выходят из строя по нескольким причинам, и, судя по описанным вами симптомам и признакам, проблема может быть комплексной. Давайте разберемся в этом вопросе подробнее.

1. Проблемы с питанием

Проблемы с блоком питания (БП) могут быть одной из основных причин выхода из строя жестких дисков. Ваши наблюдения о числах напряжения в BIOS, особенно по 12 В (11.3 В), указывают на возможные проблемы с БП. Однако важно понимать, что как заниженное, так и завышенное напряжение может негативно сказываться на работе дисков, вызывая их перегрев, нестабильность работы и, в конечном итоге, выход из строя.

  • Рекомендации:
    • Проверьте БП с помощью мультиметра, если это возможно, чтобы убедиться в его надежности.
    • Используйте бесперебойный источник питания (ИБП) для стабилизации напряжения и защиты от скачков.

2. Вибрация и охлаждение

Ваше решение разместить систему в коробке (особенно в "шкафу"), где отсутствует надежный кожух и возможно, амортизирующее крепление для дисков, может повысить уровень вибрации. Жесткие диски чувствительны к механическим колебаниям, и любой (даже незначительный) стресс может привести к повреждению.

  • Рекомендации:
    • Приобретите подходящий корпус для ПК, который обеспечит надежное крепление дисков и хорошую вентиляцию.
    • Установите дополнительные вентиляторы для активного охлаждения.

3. Параметры окружения

Система в "картонной коробке" может не обеспечивать необходимую защиту от попадания пыли, влаги и других внешних факторов, что также может негативно сказаться на жестких дисках.

  • Рекомендации:
    • Переместите оборудование в контролируемое по влажности и температуре помещение с хорошей вентиляцией.
    • Убедитесь, что система правильно заземлена.

4. Программное обеспечение и RAID

Вы упомянули, что используете программный RAID на основе mdadm. Хотя программные RAID-массивы могут быть эффективными, они подвержены ошибкам конфигурации и перегрузкам, что может существенно увеличить нагрузку на жесткие диски, особенно если используются неподходящие или изношенные компоненты.

  • Рекомендации:
    • Рассмотрите возможность использования аппаратного RAID-контроллера, который будет обрабатывать данные более эффективно.
    • Следите за ошибками в логах, чтобы убедиться, что массив работает корректно.

5. Совместимость ОС и драйверов

Некоторые версии ОС могут иметь проблемы с драйверами, которые могут привести к неэффективной работе жестких дисков. Вы упомянули, что ваша версия Ubuntu относительно стара и может содержать известные ошибки.

  • Рекомендации:
    • Обновите вашу ОС до последней версии, чтобы устранить ошибки, которые могут усугублять состояние ваших дисков.

Заключение

Из всего вышесказанного видно, что ваша проблема действительно может быть комплексной и требует комплексного подхода к решению. Улучшение системы охлаждения, проверка блока питания, выбор надежного корпуса для ПК, а также обновление программного обеспечения могут сыграть важную роль в предотвращении дальнейших сбоев.

Если вы все же не выявите причины последствий, возможно, стоит проконсультироваться с профильным специалистом для дополнительной диагностики. Надеюсь, что эти рекомендации помогут вам избежать дальнейших проблем с жесткими дисками в будущем.

Оцените материал
Добавить комментарий

Капча загружается...