Как определить, какая видеокарта не работает в майнинг-ферме: полное руководство

Майнинг-ферма с десятком видеокарт — это как оркестр, где каждая GPU играет свою партию. Но стоит одной «заболеть», как производительность всей системы падает, а доходы майнера сокращаются. Главная проблема: в ферме из 6-8 карт визуально определить неисправную почти невозможно — все вентиляторы крутятся, подсветка горит, а хэшрейт проседает. Эта статья научит вас точечно диагностировать сбойную видеокарту без лишних затрат времени и нервов.

Мы разберём как программные методы (через HiveOS, RaveOS, Windows), так и аппаратные приёмы — от проверки питания до анализа температурных логов. Особое внимание уделим типичным «симптомам» неисправностей: почему карта может показывать хэшрейт в софте, но фактически не майнить, как распознать проблемы с памятью GDDR6X или деградировавшие конденсаторы на плате. Инструкции подойдут для ферм на NVIDIA (серии RTX 30xx/40xx) и AMD (RX 5700/6800).

1. Первичная диагностика: проверяем хэшрейт и ошибки в майнинг-ПО

Начните с самого очевидного — данных из программы для майнинга. В T-Rex Miner, GMiner или TeamRedMiner обратите внимание на:

  • 🔴 Нулевой хэшрейт у одной из карт (в графе GPU#X значение 0 MH/s или Rejected shares).
  • 🟡 Просадки производительности: карта выдаёт 50-70% от ожидаемого хэшрейта (например, RTX 3060 Ti вместо 60 MH/s показывает 25 MH/s).
  • 🟠 Частые рестарты: в логах майнера появляются строки вроде GPU 3: Device restarting... или CUDA error.
  • Отсутствие данных: карта вообще не отображается в списке устройств (драйвер не распознаёт её).

Если используете HiveOS или RaveOS, загляните в раздел Workers → [Имя рига] → GPU Stats. Здесь важны столбцы:

  • Hashrate — текущая производительность;
  • Temp — температура (слишком низкая, например 30°C при нагрузке, может указывать на отсутствие нагрузки);
  • Fan — скорость вентилятора (если 0 RPM, но карта «работает» — это тревожный знак);
  • Power — потребление энергии (если 0W, карта физически отключена).

⚠️ Внимание: Если все карты показывают хэшрейт, но общий Total Hashrate ниже ожидаемого, проблема может быть в неправильных настройках майнера (например, лишние параметры в батнике) или нехватке питания для всей фермы. Проверьте блок питания!

2. Анализ логов майнера: что искать в ошибках

Логи майнера — это «чёрный ящик» вашей фермы. Они фиксируют все сбои, которые не видны в графическом интерфейсе. Как их прочитать:

  1. В Windows: откройте папку с майнером (например, C:\Mining\gminer) и найдите файл log.txt или console.log.
  2. В HiveOS/RaveOS: перейдите в Workers → [Имя рига] → Logs.

Ищите следующие паттерны:

Тип ошибки Пример лога Вероятная причина
CUDA Error (NVIDIA) CUDA error 77: an illegal memory access was encountered Проблемы с памятью GDDR6/GDDR6X (часто на RTX 3080/3090), перегрев VRAM или битый драйвер.
OpenCL Error (AMD) OpenCL error -36: CL_MEMORY_OBJECT_ALLOCATION_FAILURE Нехватка виртуальной памяти, повреждённые тайминги памяти или деградировавшие чипы HBM2 (на RX Vega).
Device Hang GPU 2: device hang, restarting... Нестабильное питание, перегрев VRM или конфликт драйверов (особенно после обновления).
Share Rejected GPU 5: 10 rejected shares in a row Неправильные настройки разгона, нестабильный интернет или проблемы с пулом.

🔍 Ключевой признак аппаратной неисправности: если ошибка повторяется для одной и той же карты с интервалом в несколько минут (например, каждые 7-10 минут), скорее всего, проблема в физическом состоянии GPU — память, чип или цепи питания.

Что делать, если лог переполнен ошибками?

Если в логе сотни строк с ошибками для всех карт, сначала проверьте:

1. Стабильность интернет-соединения (ping до пула должен быть < 100 мс).

2. Версию майнера — некоторые сборки GMiner или T-Rex конфликтуют с новыми драйверами NVIDIA 550+.

3. Наличие вирусов (майнинговые вирусы могут блокировать легитимные процессы).

3. Визуальный осмотр: что может выдать неисправную карту

Отключите ферму от сети и внимательно осмотрите каждую видеокарту. Ищите:

  • 🔥 Потемневшие или вздутые конденсаторы на плате (особенно рядом с VRM и разъёмом питания). Типично для карт, которые долго работали на предельных настройках разгона.
  • 💡 Негорящие индикаторы: на некоторых моделях AMD (например, RX 5700 XT) светодиод должен мигать при нагрузке. Если он погас — карта не получает питание.
  • 🌡️ Пересохшую термопасту: если радиатор легко сдвигается рукой, термоинтерфейс потерял свойства. Критично для карт с hot spot (например, RTX 3080/3090).
  • 🔌 Окисленные контакты на PCIe-разъёме или разъёмах питания (особенно если ферма работает во влажном помещении).

⚠️ Внимание: Если на карте есть постгарантийные следы ремонта (припои, заменённые чипы памяти, перепаянные конденсаторы), её ресурс может быть значительно снижен. Такие GPU чаще выходят из строя при нагрузке и не подлежат официальной замене.

📌 Практический совет: Возьмите тепловизор (или смартфон с термокамерой) и проверьте температуру VRM и памяти на каждой карте под нагрузкой. Разница более 20°C между соседними картами одного модельного ряда — признак проблем.

Раз в неделю|Раз в месяц|Только при сбоях|Никогда-->

4. Проверка питания: почему карта может «отваливаться»

Нестабильное питание — причина №1 внезапных отключений GPU в фермах. Как диагностировать:

  1. Проверьте блок питания (БП):
    • Если используете серверный БП (например, HP DPS-1200FB), убедитесь, что он выдаёт достаточно ватт для всех карт. Формула: Суммарное потребление GPU + 20% запас.
    • Для нескольких БП проверьте синхронизацию по линии +12V (разница напряжений более 0.5V между блоками может вызывать сбои).
  • Тестируйте разъёмы питания:
    • На RTX 30xx/40xx используйте отдельные кабели для каждого PCIe 8-pin разъёма (не подключайте через сплиттеры!).
    • Проверьте контакт в разъёмах: часто окисление или плохая посадка приводит к микропрерываниям питания.
  • Измерьте напряжение мультиметром:
    • Под нагрузкой напряжение на линии +12V не должно проседать ниже 11.6V.
    • Если нет мультиметра, используйте программу HWInfo (вкладка Sensors+12V Rail).
  • 💡 Скрытая проблема: Дешёвые PCIe riser (особенно версии 006C и 007S) могут «проседать» под нагрузкой, вызывая ошибки CUDA error 999. Попробуйте подключить проблемную карту напрямую к материнской плате (без райзера) и проверьте стабильность.

    Проверить суммарную мощность БП|Измерить напряжение на +12V под нагрузкой|Заменить PCIe-кабели на сертифицированные|Протестировать карту без riser|Проверьте контакты на окисление-->

    5. Стресс-тестирование: как выявить нестабильную карту

    Если карта работает, но периодически «вылетает», её нужно протестировать под нагрузкой. Используйте:

    • 🖥️ FurMark (для Windows): запустите тест GPU Stress Test на 15-20 минут. Следите за:
      • Артефактами на экране (полосы, мерцания, «снег»).
      • Внезапным падением FPS или отключением карты.
    • 🐧 occt или Unigine Heaven (для Linux): эти инструменты помогут выявить проблемы с памятью и шейдерами.
    • 🔧 Команда в HiveOS:
      nvidia-smi -i [ID_карты] --auto-boost-default=0 --power-limit=100

      (сбрасывает разгон и ограничивает потребление, чтобы проверить стабильность на стоковых настройках).

    ⚠️ Внимание: Если карта отключается через 1-2 минуты после начала теста, это признак критического перегрева VRM или памяти. Немедленно остановите тест и проверьте систему охлаждения!

    📊 Анализ результатов:

    • Если карта прошла тест без ошибок, но в майнинге падает — проблема в настройках майнера или драйверах.
    • Если тест завершился с артефактами — виновата видеопамять или GPU-чип.
    • Если карта просто отключилась — проверьте питание и охлаждение.

    6. Проверка драйверов и конфликтов ПО

    Неправильные драйверы или их конфликты могут имитировать аппаратные сбои. Как проверить:

    1. В Windows:
      • Откройте Диспетчер устройств → Видеоадаптеры.
      • Если рядом с картой стоит восклицательный знак — драйвер не установлен или конфликтует.
      • Нажмите Свойства → События и проверьте коды ошибок (например, Код 43 — типичная проблема для NVIDIA при разгоне).
  • В HiveOS/RaveOS:
    • Выполните команду:
      nvidia-bug-report.sh

      (сгенерирует лог с информацией о драйверах и ошибках).

    • Проверьте версию драйвера:
      nvidia-smi

      (в строке Driver Version должна быть актуальная версия, например, 535.129.03 для NVIDIA).

  • 🔄 Как переустановить драйверы без риска:

    1. Удалите текущие драйверы через Display Driver Uninstaller (DDU)Windows).
    2. Для HiveOS выполните:
      apt purge nvidia-* && apt autoremove
    3. Установите рекомендуемую версию драйвера для майнинга (например, 525.85.12 для NVIDIA RTX 30xx).

    ⚠️ Внимание: После обновления драйверов в Windows обязательно перезагрузите ферму и дождитесь полной инициализации всех GPU (может занять до 5 минут). Некоторые майнеры (например, T-Rex) требуют перезапуска после смены драйверов.

    7. Аппаратная диагностика: что делать, если софт не помогает

    Если программные методы не выявили проблему, но карта явно не работает, приступайте к аппаратной проверке:

    • 🔌 Тест на другой ферме: Подключите проблемную GPU к другому ригу с заведомо рабочим БП и райзерами. Если карта заработала — проблема в исходной ферме (питание, материнская плата).
    • 🔧 Проверка памяти: Для карт NVIDIA используйте утилиту Nvidia MemTest:
      sudo ./memtestCL -d [ID_карты] -t 1

      (тестирует память на ошибки; если найдены — чипы GDDR6/GDDR6X деградировали).

    • 🔍 Диагностика BIOS: Если карта не определяется вообще, прошейте оригинальный BIOS через nvflash (для NVIDIA) или ATIWinflash (для AMD). Внимание: неверная прошивка может убить карту!
    • 🧪 Тест с другой ОС: Установите на флешку Ubuntu Live и проверьте карту в ней. Если она работает — проблема в настройках основной ОС.
    • 💰 Когда ремонт нецелесообразен:

      • Если карта RTX 3090/RX 6900 XT старше 3 лет и имеет проблемы с памятью — ремонт может стоить 30-50% от её цены.
      • На картах с повреждённым GPU-чипом (например, сгоревшие транзисторы рядом с ядром) ремонт часто превышает стоимость б/у аналога.

      FAQ: Частые вопросы о диагностике видеокарт в ферме

      🔹 Карта показывает хэшрейт в майнере, но на пуле shares не принимаются. В чём дело?

      Это типичный симптом «фейкового» хэшрейта. Причины:

      1. Карта физически не майнит (например, из-за ошибок CUDA, но майнер не успевает это отобразить).
      2. Неправильные настройки пула (проверьте stratum+tcp:// в батнике).
      3. Драйвер «эмулирует» работу (часто после некорректного разгона). Решение: сбросьте настройки карты до дефолтных.
    🔹 После обновления драйверов все карты кроме одной заработали. Что делать?

    Скорее всего, проблема в конфликте версий:

    • Для NVIDIA: удалите драйвер через nvidia-uninstall и установите версию, совместимую с этой картой (например, для RTX 20xx может не подойти драйвер для RTX 40xx).
    • Для AMD: проверьте, не блокируется ли карта в ROCm (актуально для Linux).
    • Если карта старая (например, GTX 1060), попробуйте драйвер версии 470.xx — новые версии могут не поддерживать устаревшие GPU.
    🔹 Карта греется, но хэшрейт низкий. Это проблема?

    Да, это признак неэффективной работы. Возможные причины:

    • Троттлинг: карта снижает частоты из-за перегрева (проверьте GPU Clock в HWInfo — если падает ниже 1000 MHz, это троттлинг).
    • Проблемы с памятью: на NVIDIA RTX 30xx при деградации GDDR6X хэшрейт может упасть на 30-40%, а температура вырасти.
    • Неправильный разгон: слишком высокий Memory Clock без увеличения напряжения приводит к ошибкам и просадкам.

    Решение: сбросьте разгон, проверьте термопасту и протестируйте карту в FurMark.

    🔹 Можно ли майнить на карте, если она иногда отваливается?

    Технически можно, но не рекомендуется:

    • Каждый сбой уменьшает ресурс карты (особенно если причина в питании или перегреве).
    • Нестабильная карта может «подвешивать» всю ферму, заставляя перезагружать риг.
    • На некоторых пулах (например, 2Miners) частые дисконнекты могут привести к бану аккаунта.

    Лучше временно отключить проблемную GPU и диагностировать её отдельно.

    🔹 Как понять, что карта умирает, а не просто требует настройки?

    Признаки аппаратной деградации (карта скоро выйдет из строя):

    • Хэшрейт падает даже на стоковых настройках.
    • Артефакты появляются не только в майнинге, но и в Windows/Linux (например, при просмотре видео).
    • Карта требует всё больше вольтажа для стабильной работы (например, Memory +1000 mV вместо стандартных +600 mV).
    • Температура VRAM растёт даже при низкой нагрузке (признак деградации термопасты или микротрещин на чипах памяти).
    • Если наблюдаете 2-3 пункта из списка — карту пора ремонтировать или списывать.