На каких видеокартах работает DeepSeek: требования, тесты и рекомендации по выбору GPU

DeepSeek — многозадачная языковая модель, требующая значительных вычислительных ресурсов для локального развёртывания. Если при запуске инференса через deepseek-llm вы видите ошибку Out of memory или CUDA error: no kernel image is available for execution, проблема в 90% случаев связана с несоответствием видеокарты минимальным требованиям. Модели серии DeepSeek 7B/67B официально поддерживают только GPU с архитектурой Ampere (NVIDIA) или RDNA 3 (AMD) и объёмом VRAM от 12 ГБ, но есть обходные пути для старых карт. Ниже разберём, какие видеокарты гарантированно работают с DeepSeek, как проверить совместимость вашего GPU и что делать, если ваша модель не входит в официальный список.

Ключевой параметр — поддержка FP16/FP8 (для квантизированных версий модели) и CUDA 12.x (для NVIDIA) или ROCm 5.6+ (для AMD). Например, RTX 3060 Ti с 8 ГБ VRAM технически способна запустить DeepSeek 7B в 4-битном квантовании, но потребует ручной настройки --low-vram в скрипте запуска. В то же время RX 6800 XT (16 ГБ) может не заработать из-за проблем с драйверами ROCm на Windows. Далее — детальный разбор по моделям, архитектурам и нюансам настройки.

Официальные требования DeepSeek к видеокартам

Разработчики DeepSeek публикуют минимальные требования для двух сценариев:

  • 🔹 Инференс (запуск модели): 12 ГБ VRAM для 7B-версии (FP16), 24 ГБ для 67B. Поддержка CUDA 12.1+ или ROCm 5.6+.
  • 🔹 Файн-тюнинг (обучение): 24 ГБ VRAM для 7B (FP32), 48+ ГБ для 67B. Только Linux + NVIDIA с NVLink для мульти-GPU.

Важно: требования зависят от разрядности модели:

  • 📊 FP32 (полная точность): ×2 к VRAM по сравнению с FP16.
  • 📊 FP16/bfloat16: базовый режим, требует CUDA-совместимый GPU.
  • 📊 INT8/INT4 (квантование): снижает потребление VRAM в 2–4 раза, но может ухудшить качество ответа.

Для проверки совместимости вашей видеокарты выполните в терминале:

nvidia-smi --query-gpu=name,compute_cap --format=csv  # Для NVIDIA

rocminfo | grep "Agent" # Для AMD

⚠️ Внимание: Видеокарты серий NVIDIA Maxwell (GTX 9xx) и AMD GCN 1–4 (RX 4xx/5xx) не поддерживаются даже для инференса из-за отсутствия аппаратной поддержки FP16.

Лучшие видеокарты для DeepSeek в 2026 году

На основе тестов сообщества и бенчмарков Hugging Face, оптимальные GPU для DeepSeek распределяются так:

КатегорияМодель GPUVRAMПроизводительность (токены/с)Цена/производительность
🥇 ПремиумRTX 409024 ГБ120–150⭐⭐⭐
🥈 Оптимальный выборRTX 3090 Ti24 ГБ90–110⭐⭐⭐⭐
💰 Бюджетный флагманRTX 4070 Ti12 ГБ60–75 (с квантованием)⭐⭐⭐⭐⭐
🔴 AMD альтернативаRX 7900 XTX24 ГБ80–95 (ROCm)⭐⭐⭐
⚠️ Условно рабочиеRTX 2080 Ti11 ГБ30–40 (только INT8)⭐⭐

Критическое замечание: Видеокарты AMD (RX 6000/7000) требуют ручной сборки ROCm под конкретную модель, так как официальные драйверы Windows не поддерживают FP16-вычисления для LLMs. Для RX 7900 XTX рекомендуется использовать дистрибутив ROCm 5.7 на Ubuntu 22.04.

📊 Какую видеокарту вы используете для DeepSeek?
NVIDIA RTX 40xx
NVIDIA RTX 30xx
AMD RX 7000
AMD RX 6000
Другая/не знаю

DeepSeek на видеокартах NVIDIA: совместимость по архитектурам

NVIDIA GPU делятся на 3 группы по поддержке DeepSeek:

  1. Полная поддержка (Ampere/Lovelace):
    • 🟢 RTX 4090/4080/4070 Ti — оптимизированы для FP8, поддерживают TensorRT-LLM.
    • 🟢 RTX 3090 Ti/3090/3080 Ti — требуют CUDA 12.1 и драйвер 535+.
  2. Ограниченная поддержка (Turing):
    • 🟡 RTX 2080 Ti/2080 Super — работают только с квантованием INT8 и VRAM ≥12 ГБ.
    • 🟡 Titan RTX — 24 ГБ VRAM, но низкая скорость из-за отсутствия FP8.
  • Не поддерживаются (Pascal/Maxwell):
    • GTX 1080 Ti — нет поддержки FP16 в тензорных ядрах.
    • Titan Xp — ошибка CUDA error: unsupported при запуске.
    • Для карт серии RTX 30xx обязательно обновление прошивки (VBios) до последней версии — это устраняет баги с cudaMalloc при загрузке больших моделей. Проверить версию прошивки можно командой:

      nvidia-smi --query-gpu=vbios_version --format=csv

      AMD GPU и DeepSeek: проблемы и решения

      Видеокарты AMD теоретически поддерживают DeepSeek через ROCm, но на практике сталкиваются с тремя ключевыми проблемами:

      1. Отсутствие официальной поддержки Windows: ROCm работает только на Linux (Ubuntu 20.04/22.04, RHEL).
      2. Ограниченный список совместимых GPU: Только RDNA 2/3 (RX 6700 XT и новее).
      3. Низкая производительность FP16: На 20–30% медленнее NVIDIA аналогичного класса.

    Инструкция по настройке ROCm для RX 7900 XTX:

    Установить Ubuntu 22.04|Добавить репозиторий ROCm: sudo apt update && sudo apt install rocm-opencl-runtime|Проверить обнаружение GPU: rocminfo | grep gfx90a|Установить PyTorch с поддержкой ROCm: pip install torch --index-url https://download.pytorch.org/whl/rocm5.6-->

    Для карт RX 6000 (например, RX 6800) требуется ядро Linux 6.2+ и ручная компиляция hipBLAS. Альтернатива — использование DirectML на Windows (экспериментальная поддержка через deepseek-cpp), но скорость будет в 3–5 раз ниже, чем на CUDA.

    ⚠️ Внимание: На видеокартах AMD RX 5000 (Navi 10) DeepSeek запустится только в режиме --cpu (без ускорения), так как ROCm не поддерживает FP16 на этой архитектуре.

    Как запустить DeepSeek на слабых видеокартах (8 ГБ VRAM и меньше)

    Если ваша видеокарта имеет <8 ГБ VRAM (например, RTX 3060 или RX 6600), есть 4 способа обойти ограничения:

    1. Квантование модели:
      • 🔹 --load-in-4bit — снижает потребление VRAM в 4 раза (поддерживается в bitsandbytes).
      • 🔹 --load-in-8bit — уменьшает VRAM в 2 раза, но требует CUDA 11.8+.
    2. Оффлоадинг на CPU:
      • 🔹 Запуск с флагом --offload-folder ./offload — часть тензоров хранится на диске.
    3. Оптимизация через vLLM:
      • 🔹 Библиотека vllm уменьшает использование VRAM на 20–30% за счёт PagedAttention.
  • Использование DeepSpeed:
    • 🔹 Режим ZeRO позволяет распределять модель между GPU и CPU.
    • Пример команды для запуска DeepSeek 7B на RTX 3060 12 ГБ:

      python -m deepseek.chat --model deepseek-ai/deepseek-llm-7b-chat --load-in-4bit --gpu-memory 10
      Подробности о квантовании в DeepSeek

      4-битное квантование (QLoRA) использует формат NF4 (NormalFloat4), который сохраняет 95% точности оригинальной FP16-модели. Однако на практике могут возникать артефакты в ответах при генерации длинных последовательностей (>1000 токенов). Для критичных задач рекомендуется тестировать качество на валидационном датасете.

      Частые ошибки и их решения

      Типичные проблемы при запуске DeepSeek на видеокартах и способы их устранения:

      ОшибкаПричинаРешение
      RuntimeError: CUDA out of memory Не хватает VRAM для загрузки модели. Использовать --load-in-4bit или уменьшить --max-length.
      Could not load dynamic library 'libcudart.so' Отсутствует CUDA Toolkit или неверная версия. Установить CUDA 12.1: conda install cudatoolkit=12.1.
      ROCm is not available for your GPU AMD GPU не поддерживается текущей версией ROCm. Обновить ROCm до 5.7 или использовать --device cpu.
      AttributeError: 'NoneType' object has no attribute 'numpy' Конфликт версий transformers и torch. Обновить пакеты: pip install -U transformers torch.

      Если после применения рекомендаций модель всё равно не запускается, проверьте логи с флагом --debug и обратите внимание на строки с CUDA_VISIBLE_DEVICES — они укажут, обнаруживает ли система вашу видеокарту.

      FAQ: Частые вопросы о совместимости DeepSeek и GPU

      Можно ли запустить DeepSeek на GTX 1660 Super (6 ГБ)?

      Технически да, но только в режиме --cpu или с экстремальным квантованием (--load-in-2bit, экспериментальная функция). Скорость будет крайне низкой (1–2 токена/с). Рекомендуем использовать колаб или облачные сервисы (например, RunPod с RTX 4090).

      Почему DeepSeek работает медленнее на RX 7900 XTX, чем на RTX 4080?

      Это связано с двумя факторами:

      1. ROCm не оптимизирован для LLMs так же хорошо, как CUDA + TensorRT.
      2. Архитектура RDNA 3 имеет меньшую пропускную способность памяти для FP16-операций (1.8 Тфлопс против 2.8 у Ada Lovelace).

    Частично проблему решает использование --tf32, но это может повлиять на стабильность ответов.

    Какие драйверы нужны для RTX 3090 под DeepSeek?

    Минимальные требования:

    • 🔹 Драйвер NVIDIA: 535.86.05 или новее.
    • 🔹 CUDA Toolkit: 12.1 (не 12.0!).
    • 🔹 cuDNN: 8.9.2.

    Проверить текущие версии можно командой nvcc --version.

    Можно ли использовать две видеокарты (например, RTX 3060 + RTX 4070) для ускорения DeepSeek?

    Да, но с оговорками:

    • 🔹 Поддерживается только в Linux с NCCL (библиотека для мульти-GPU).
    • 🔹 Видеокарты должны быть одной архитектуры (например, обе Ampere).
    • 🔹 Запуск через torchrun --nproc_per_node 2.

    На Windows мульти-GPU для LLMs не работает из-за ограничений PyTorch.

    Какой объём VRAM нужен для файн-тюнинга DeepSeek 67B?

    Для полноценного обучения (full fine-tuning) требуется:

    • 🔹 80 ГБ VRAM для FP16 (например, 4 × RTX 4090 с NVLink).
    • 🔹 48 ГБ VRAM для FP16 с gradient accumulation.
    • 🔹 24 ГБ VRAM для LoRA-обучения (ранг 8–16).
    • Альтернатива — использование DeepSpeed ZeRO-3, который распределяет модель между GPU и CPU.