Майнинг-ферма с десятком видеокарт — это как оркестр, где каждая GPU играет свою партию. Но стоит одной «заболеть», как производительность всей системы падает, а доходы майнера сокращаются. Главная проблема: в ферме из 6-8 карт визуально определить неисправную почти невозможно — все вентиляторы крутятся, подсветка горит, а хэшрейт проседает. Эта статья научит вас точечно диагностировать сбойную видеокарту без лишних затрат времени и нервов.
Мы разберём как программные методы (через HiveOS, RaveOS, Windows), так и аппаратные приёмы — от проверки питания до анализа температурных логов. Особое внимание уделим типичным «симптомам» неисправностей: почему карта может показывать хэшрейт в софте, но фактически не майнить, как распознать проблемы с памятью GDDR6X или деградировавшие конденсаторы на плате. Инструкции подойдут для ферм на NVIDIA (серии RTX 30xx/40xx) и AMD (RX 5700/6800).
1. Первичная диагностика: проверяем хэшрейт и ошибки в майнинг-ПО
Начните с самого очевидного — данных из программы для майнинга. В T-Rex Miner, GMiner или TeamRedMiner обратите внимание на:
- 🔴 Нулевой хэшрейт у одной из карт (в графе
GPU#Xзначение0 MH/sилиRejected shares). - 🟡 Просадки производительности: карта выдаёт 50-70% от ожидаемого хэшрейта (например, RTX 3060 Ti вместо 60 MH/s показывает 25 MH/s).
- 🟠 Частые рестарты: в логах майнера появляются строки вроде
GPU 3: Device restarting...илиCUDA error. - ⚪ Отсутствие данных: карта вообще не отображается в списке устройств (драйвер не распознаёт её).
Если используете HiveOS или RaveOS, загляните в раздел Workers → [Имя рига] → GPU Stats. Здесь важны столбцы:
Hashrate— текущая производительность;Temp— температура (слишком низкая, например30°Cпри нагрузке, может указывать на отсутствие нагрузки);Fan— скорость вентилятора (если0 RPM, но карта «работает» — это тревожный знак);Power— потребление энергии (если0W, карта физически отключена).
⚠️ Внимание: Если все карты показывают хэшрейт, но общий Total Hashrate ниже ожидаемого, проблема может быть в неправильных настройках майнера (например, лишние параметры в батнике) или нехватке питания для всей фермы. Проверьте блок питания!
2. Анализ логов майнера: что искать в ошибках
Логи майнера — это «чёрный ящик» вашей фермы. Они фиксируют все сбои, которые не видны в графическом интерфейсе. Как их прочитать:
- В Windows: откройте папку с майнером (например,
C:\Mining\gminer) и найдите файлlog.txtилиconsole.log. - В HiveOS/RaveOS: перейдите в
Workers → [Имя рига] → Logs.
Ищите следующие паттерны:
| Тип ошибки | Пример лога | Вероятная причина |
|---|---|---|
| CUDA Error (NVIDIA) | CUDA error 77: an illegal memory access was encountered |
Проблемы с памятью GDDR6/GDDR6X (часто на RTX 3080/3090), перегрев VRAM или битый драйвер. |
| OpenCL Error (AMD) | OpenCL error -36: CL_MEMORY_OBJECT_ALLOCATION_FAILURE |
Нехватка виртуальной памяти, повреждённые тайминги памяти или деградировавшие чипы HBM2 (на RX Vega). |
| Device Hang | GPU 2: device hang, restarting... |
Нестабильное питание, перегрев VRM или конфликт драйверов (особенно после обновления). |
| Share Rejected | GPU 5: 10 rejected shares in a row |
Неправильные настройки разгона, нестабильный интернет или проблемы с пулом. |
🔍 Ключевой признак аппаратной неисправности: если ошибка повторяется для одной и той же карты с интервалом в несколько минут (например, каждые 7-10 минут), скорее всего, проблема в физическом состоянии GPU — память, чип или цепи питания.
Что делать, если лог переполнен ошибками?
Если в логе сотни строк с ошибками для всех карт, сначала проверьте:
1. Стабильность интернет-соединения (ping до пула должен быть < 100 мс).
2. Версию майнера — некоторые сборки GMiner или T-Rex конфликтуют с новыми драйверами NVIDIA 550+.
3. Наличие вирусов (майнинговые вирусы могут блокировать легитимные процессы).
3. Визуальный осмотр: что может выдать неисправную карту
Отключите ферму от сети и внимательно осмотрите каждую видеокарту. Ищите:
- 🔥 Потемневшие или вздутые конденсаторы на плате (особенно рядом с
VRMи разъёмом питания). Типично для карт, которые долго работали на предельных настройках разгона. - 💡 Негорящие индикаторы: на некоторых моделях AMD (например, RX 5700 XT) светодиод должен мигать при нагрузке. Если он погас — карта не получает питание.
- 🌡️ Пересохшую термопасту: если радиатор легко сдвигается рукой, термоинтерфейс потерял свойства. Критично для карт с hot spot (например, RTX 3080/3090).
- 🔌 Окисленные контакты на
PCIe-разъёме или разъёмах питания (особенно если ферма работает во влажном помещении).
⚠️ Внимание: Если на карте есть постгарантийные следы ремонта (припои, заменённые чипы памяти, перепаянные конденсаторы), её ресурс может быть значительно снижен. Такие GPU чаще выходят из строя при нагрузке и не подлежат официальной замене.
📌 Практический совет: Возьмите тепловизор (или смартфон с термокамерой) и проверьте температуру VRM и памяти на каждой карте под нагрузкой. Разница более 20°C между соседними картами одного модельного ряда — признак проблем.
Раз в неделю|Раз в месяц|Только при сбоях|Никогда-->
4. Проверка питания: почему карта может «отваливаться»
Нестабильное питание — причина №1 внезапных отключений GPU в фермах. Как диагностировать:
- Проверьте блок питания (БП):
- Если используете серверный БП (например, HP DPS-1200FB), убедитесь, что он выдаёт достаточно ватт для всех карт. Формула:
Суммарное потребление GPU + 20% запас. - Для нескольких БП проверьте синхронизацию по линии
+12V(разница напряжений более0.5Vмежду блоками может вызывать сбои).
- Если используете серверный БП (например, HP DPS-1200FB), убедитесь, что он выдаёт достаточно ватт для всех карт. Формула:
- На RTX 30xx/40xx используйте отдельные кабели для каждого
PCIe 8-pinразъёма (не подключайте через сплиттеры!). - Проверьте контакт в разъёмах: часто окисление или плохая посадка приводит к микропрерываниям питания.
- Под нагрузкой напряжение на линии
+12Vне должно проседать ниже11.6V. - Если нет мультиметра, используйте программу HWInfo (вкладка
Sensors→+12V Rail).
💡 Скрытая проблема: Дешёвые PCIe riser (особенно версии 006C и 007S) могут «проседать» под нагрузкой, вызывая ошибки CUDA error 999. Попробуйте подключить проблемную карту напрямую к материнской плате (без райзера) и проверьте стабильность.
Проверить суммарную мощность БП|Измерить напряжение на +12V под нагрузкой|Заменить PCIe-кабели на сертифицированные|Протестировать карту без riser|Проверьте контакты на окисление-->
5. Стресс-тестирование: как выявить нестабильную карту
Если карта работает, но периодически «вылетает», её нужно протестировать под нагрузкой. Используйте:
- 🖥️ FurMark (для Windows): запустите тест
GPU Stress Testна 15-20 минут. Следите за:- Артефактами на экране (полосы, мерцания, «снег»).
- Внезапным падением FPS или отключением карты.
- 🐧 occt или Unigine Heaven (для Linux): эти инструменты помогут выявить проблемы с памятью и шейдерами.
- 🔧 Команда в HiveOS:
nvidia-smi -i [ID_карты] --auto-boost-default=0 --power-limit=100(сбрасывает разгон и ограничивает потребление, чтобы проверить стабильность на стоковых настройках).
⚠️ Внимание: Если карта отключается через 1-2 минуты после начала теста, это признак критического перегрева VRM или памяти. Немедленно остановите тест и проверьте систему охлаждения!
📊 Анализ результатов:
- Если карта прошла тест без ошибок, но в майнинге падает — проблема в настройках майнера или драйверах.
- Если тест завершился с артефактами — виновата видеопамять или GPU-чип.
- Если карта просто отключилась — проверьте питание и охлаждение.
6. Проверка драйверов и конфликтов ПО
Неправильные драйверы или их конфликты могут имитировать аппаратные сбои. Как проверить:
- В Windows:
- Откройте
Диспетчер устройств → Видеоадаптеры. - Если рядом с картой стоит восклицательный знак — драйвер не установлен или конфликтует.
- Нажмите
Свойства → Событияи проверьте коды ошибок (например,Код 43— типичная проблема для NVIDIA при разгоне).
- Откройте
- Выполните команду:
nvidia-bug-report.sh(сгенерирует лог с информацией о драйверах и ошибках).
- Проверьте версию драйвера:
nvidia-smi(в строке
Driver Versionдолжна быть актуальная версия, например,535.129.03для NVIDIA).
🔄 Как переустановить драйверы без риска:
- Удалите текущие драйверы через Display Driver Uninstaller (DDU) (в Windows).
- Для HiveOS выполните:
apt purge nvidia-* && apt autoremove - Установите рекомендуемую версию драйвера для майнинга (например,
525.85.12для NVIDIA RTX 30xx).
⚠️ Внимание: После обновления драйверов в Windows обязательно перезагрузите ферму и дождитесь полной инициализации всех GPU (может занять до 5 минут). Некоторые майнеры (например, T-Rex) требуют перезапуска после смены драйверов.
7. Аппаратная диагностика: что делать, если софт не помогает
Если программные методы не выявили проблему, но карта явно не работает, приступайте к аппаратной проверке:
- 🔌 Тест на другой ферме: Подключите проблемную GPU к другому ригу с заведомо рабочим БП и райзерами. Если карта заработала — проблема в исходной ферме (питание, материнская плата).
- 🔧 Проверка памяти: Для карт NVIDIA используйте утилиту Nvidia MemTest:
sudo ./memtestCL -d [ID_карты] -t 1(тестирует память на ошибки; если найдены — чипы GDDR6/GDDR6X деградировали).
- 🔍 Диагностика BIOS: Если карта не определяется вообще, прошейте оригинальный BIOS через nvflash (для NVIDIA) или ATIWinflash (для AMD). Внимание: неверная прошивка может убить карту!
- 🧪 Тест с другой ОС: Установите на флешку Ubuntu Live и проверьте карту в ней. Если она работает — проблема в настройках основной ОС.
- Если карта RTX 3090/RX 6900 XT старше 3 лет и имеет проблемы с памятью — ремонт может стоить
30-50%от её цены. - На картах с повреждённым GPU-чипом (например, сгоревшие транзисторы рядом с ядром) ремонт часто превышает стоимость б/у аналога.
- Карта физически не майнит (например, из-за ошибок
CUDA, но майнер не успевает это отобразить). - Неправильные настройки пула (проверьте
stratum+tcp://в батнике). - Драйвер «эмулирует» работу (часто после некорректного разгона). Решение: сбросьте настройки карты до дефолтных.
💰 Когда ремонт нецелесообразен:
FAQ: Частые вопросы о диагностике видеокарт в ферме
🔹 Карта показывает хэшрейт в майнере, но на пуле shares не принимаются. В чём дело?
Это типичный симптом «фейкового» хэшрейта. Причины:
🔹 После обновления драйверов все карты кроме одной заработали. Что делать?
Скорее всего, проблема в конфликте версий:
- Для NVIDIA: удалите драйвер через
nvidia-uninstallи установите версию, совместимую с этой картой (например, для RTX 20xx может не подойти драйвер для RTX 40xx). - Для AMD: проверьте, не блокируется ли карта в
ROCm(актуально для Linux). - Если карта старая (например, GTX 1060), попробуйте драйвер версии
470.xx— новые версии могут не поддерживать устаревшие GPU.
🔹 Карта греется, но хэшрейт низкий. Это проблема?
Да, это признак неэффективной работы. Возможные причины:
- Троттлинг: карта снижает частоты из-за перегрева (проверьте
GPU Clockв HWInfo — если падает ниже1000 MHz, это троттлинг). - Проблемы с памятью: на NVIDIA RTX 30xx при деградации GDDR6X хэшрейт может упасть на
30-40%, а температура вырасти. - Неправильный разгон: слишком высокий
Memory Clockбез увеличения напряжения приводит к ошибкам и просадкам.
Решение: сбросьте разгон, проверьте термопасту и протестируйте карту в FurMark.
🔹 Можно ли майнить на карте, если она иногда отваливается?
Технически можно, но не рекомендуется:
- Каждый сбой уменьшает ресурс карты (особенно если причина в питании или перегреве).
- Нестабильная карта может «подвешивать» всю ферму, заставляя перезагружать риг.
- На некоторых пулах (например, 2Miners) частые дисконнекты могут привести к бану аккаунта.
Лучше временно отключить проблемную GPU и диагностировать её отдельно.
🔹 Как понять, что карта умирает, а не просто требует настройки?
Признаки аппаратной деградации (карта скоро выйдет из строя):
- Хэшрейт падает даже на стоковых настройках.
- Артефакты появляются не только в майнинге, но и в Windows/Linux (например, при просмотре видео).
- Карта требует всё больше вольтажа для стабильной работы (например,
Memory +1000 mVвместо стандартных+600 mV). - Температура
VRAMрастёт даже при низкой нагрузке (признак деградации термопасты или микротрещин на чипах памяти).
Если наблюдаете 2-3 пункта из списка — карту пора ремонтировать или списывать.