На каких видеокартах работает DeepSeek: требования, тесты и рекомендации по выбору GPU

DeepSeek — многозадачная языковая модель, требующая значительных вычислительных ресурсов для локального развёртывания. Если при запуске инференса через deepseek-llm вы видите ошибку Out of memory или CUDA error: no kernel image is available for execution, проблема в 90% случаев связана с несоответствием видеокарты минимальным требованиям. Модели серии DeepSeek 7B/67B официально поддерживают только GPU с архитектурой Ampere (NVIDIA) или RDNA 3 (AMD) и объёмом VRAM от 12 ГБ, но есть обходные пути для старых карт. Ниже разберём, какие видеокарты гарантированно работают с DeepSeek, как проверить совместимость вашего GPU и что делать, если ваша модель не входит в официальный список.

Ключевой параметр — поддержка FP16/FP8 (для квантизированных версий модели) и CUDA 12.x (для NVIDIA) или ROCm 5.6+ (для AMD). Например, RTX 3060 Ti с 8 ГБ VRAM технически способна запустить DeepSeek 7B в 4-битном квантовании, но потребует ручной настройки --low-vram в скрипте запуска. В то же время RX 6800 XT (16 ГБ) может не заработать из-за проблем с драйверами ROCm на Windows. Далее — детальный разбор по моделям, архитектурам и нюансам настройки.

Официальные требования DeepSeek к видеокартам

Разработчики DeepSeek публикуют минимальные требования для двух сценариев:

🔹 Инференс (запуск модели): 12 ГБ VRAM для 7B-версии (FP16), 24 ГБ для 67B. Поддержка CUDA 12.1+ или ROCm 5.6+.
🔹 Файн-тюнинг (обучение): 24 ГБ VRAM для 7B (FP32), 48+ ГБ для 67B. Только Linux + NVIDIA с NVLink для мульти-GPU.

Важно: требования зависят от разрядности модели:

📊 FP32 (полная точность): ×2 к VRAM по сравнению с FP16.
📊 FP16/bfloat16: базовый режим, требует CUDA-совместимый GPU.
📊 INT8/INT4 (квантование): снижает потребление VRAM в 2–4 раза, но может ухудшить качество ответа.

Для проверки совместимости вашей видеокарты выполните в терминале:

nvidia-smi --query-gpu=name,compute_cap --format=csv # Для NVIDIA

rocminfo | grep "Agent" # Для AMD

⚠️ Внимание: Видеокарты серий NVIDIA Maxwell (GTX 9xx) и AMD GCN 1–4 (RX 4xx/5xx) не поддерживаются даже для инференса из-за отсутствия аппаратной поддержки FP16.

Лучшие видеокарты для DeepSeek в 2026 году

На основе тестов сообщества и бенчмарков Hugging Face, оптимальные GPU для DeepSeek распределяются так:

Категория	Модель GPU	VRAM	Производительность (токены/с)	Цена/производительность
🥇 Премиум	RTX 4090	24 ГБ	120–150	⭐⭐⭐
🥈 Оптимальный выбор	RTX 3090 Ti	24 ГБ	90–110	⭐⭐⭐⭐
💰 Бюджетный флагман	RTX 4070 Ti	12 ГБ	60–75 (с квантованием)	⭐⭐⭐⭐⭐
🔴 AMD альтернатива	RX 7900 XTX	24 ГБ	80–95 (ROCm)	⭐⭐⭐
⚠️ Условно рабочие	RTX 2080 Ti	11 ГБ	30–40 (только INT8)	⭐⭐

Критическое замечание: Видеокарты AMD (RX 6000/7000) требуют ручной сборки ROCm под конкретную модель, так как официальные драйверы Windows не поддерживают FP16-вычисления для LLMs. Для RX 7900 XTX рекомендуется использовать дистрибутив ROCm 5.7 на Ubuntu 22.04.

📊 Какую видеокарту вы используете для DeepSeek?

NVIDIA RTX 40xx

NVIDIA RTX 30xx

AMD RX 7000

AMD RX 6000

Другая/не знаю

DeepSeek на видеокартах NVIDIA: совместимость по архитектурам

NVIDIA GPU делятся на 3 группы по поддержке DeepSeek:

Полная поддержка (Ampere/Lovelace):
- 🟢 RTX 4090/4080/4070 Ti — оптимизированы для FP8, поддерживают TensorRT-LLM.
- 🟢 RTX 3090 Ti/3090/3080 Ti — требуют CUDA 12.1 и драйвер 535+.
Ограниченная поддержка (Turing):
- 🟡 RTX 2080 Ti/2080 Super — работают только с квантованием INT8 и VRAM ≥12 ГБ.
- 🟡 Titan RTX — 24 ГБ VRAM, но низкая скорость из-за отсутствия FP8.

Не поддерживаются (Pascal/Maxwell):

❌ GTX 1080 Ti — нет поддержки FP16 в тензорных ядрах.
❌ Titan Xp — ошибка CUDA error: unsupported при запуске.

Для карт серии RTX 30xx обязательно обновление прошивки (VBios) до последней версии — это устраняет баги с cudaMalloc при загрузке больших моделей. Проверить версию прошивки можно командой:

nvidia-smi --query-gpu=vbios_version --format=csv

AMD GPU и DeepSeek: проблемы и решения

Видеокарты AMD теоретически поддерживают DeepSeek через ROCm, но на практике сталкиваются с тремя ключевыми проблемами:

Отсутствие официальной поддержки Windows: ROCm работает только на Linux (Ubuntu 20.04/22.04, RHEL).
Ограниченный список совместимых GPU: Только RDNA 2/3 (RX 6700 XT и новее).
Низкая производительность FP16: На 20–30% медленнее NVIDIA аналогичного класса.

Инструкция по настройке ROCm для RX 7900 XTX:

Установить Ubuntu 22.04|Добавить репозиторий ROCm: sudo apt update && sudo apt install rocm-opencl-runtime|Проверить обнаружение GPU: rocminfo | grep gfx90a|Установить PyTorch с поддержкой ROCm: pip install torch --index-url https://download.pytorch.org/whl/rocm5.6-->

Для карт RX 6000 (например, RX 6800) требуется ядро Linux 6.2+ и ручная компиляция hipBLAS. Альтернатива — использование DirectML на Windows (экспериментальная поддержка через deepseek-cpp), но скорость будет в 3–5 раз ниже, чем на CUDA.

⚠️ Внимание: На видеокартах AMD RX 5000 (Navi 10) DeepSeek запустится только в режиме --cpu (без ускорения), так как ROCm не поддерживает FP16 на этой архитектуре.

Как запустить DeepSeek на слабых видеокартах (8 ГБ VRAM и меньше)

Если ваша видеокарта имеет <8 ГБ VRAM (например, RTX 3060 или RX 6600), есть 4 способа обойти ограничения:

Квантование модели:
- 🔹 --load-in-4bit — снижает потребление VRAM в 4 раза (поддерживается в bitsandbytes).
- 🔹 --load-in-8bit — уменьшает VRAM в 2 раза, но требует CUDA 11.8+.
Оффлоадинг на CPU:
- 🔹 Запуск с флагом --offload-folder ./offload — часть тензоров хранится на диске.
Оптимизация через vLLM:
- 🔹 Библиотека vllm уменьшает использование VRAM на 20–30% за счёт PagedAttention.

Использование DeepSpeed:

🔹 Режим ZeRO позволяет распределять модель между GPU и CPU.

Пример команды для запуска DeepSeek 7B на RTX 3060 12 ГБ:

python -m deepseek.chat --model deepseek-ai/deepseek-llm-7b-chat --load-in-4bit --gpu-memory 10

Подробности о квантовании в DeepSeek

4-битное квантование (QLoRA) использует формат NF4 (NormalFloat4), который сохраняет 95% точности оригинальной FP16-модели. Однако на практике могут возникать артефакты в ответах при генерации длинных последовательностей (>1000 токенов). Для критичных задач рекомендуется тестировать качество на валидационном датасете.

Частые ошибки и их решения

Типичные проблемы при запуске DeepSeek на видеокартах и способы их устранения:

Ошибка	Причина	Решение
`RuntimeError: CUDA out of memory`	Не хватает VRAM для загрузки модели.	Использовать `--load-in-4bit` или уменьшить `--max-length`.
`Could not load dynamic library 'libcudart.so'`	Отсутствует CUDA Toolkit или неверная версия.	Установить CUDA 12.1: `conda install cudatoolkit=12.1`.
`ROCm is not available for your GPU`	AMD GPU не поддерживается текущей версией ROCm.	Обновить ROCm до 5.7 или использовать `--device cpu`.
`AttributeError: 'NoneType' object has no attribute 'numpy'`	Конфликт версий `transformers` и `torch`.	Обновить пакеты: `pip install -U transformers torch`.

Если после применения рекомендаций модель всё равно не запускается, проверьте логи с флагом --debug и обратите внимание на строки с CUDA_VISIBLE_DEVICES — они укажут, обнаруживает ли система вашу видеокарту.

FAQ: Частые вопросы о совместимости DeepSeek и GPU

Можно ли запустить DeepSeek на GTX 1660 Super (6 ГБ)?

Технически да, но только в режиме --cpu или с экстремальным квантованием (--load-in-2bit, экспериментальная функция). Скорость будет крайне низкой (1–2 токена/с). Рекомендуем использовать колаб или облачные сервисы (например, RunPod с RTX 4090).

Почему DeepSeek работает медленнее на RX 7900 XTX, чем на RTX 4080?

Это связано с двумя факторами:

ROCm не оптимизирован для LLMs так же хорошо, как CUDA + TensorRT.
Архитектура RDNA 3 имеет меньшую пропускную способность памяти для FP16-операций (1.8 Тфлопс против 2.8 у Ada Lovelace).

Частично проблему решает использование --tf32, но это может повлиять на стабильность ответов.

Какие драйверы нужны для RTX 3090 под DeepSeek?

Минимальные требования:

🔹 Драйвер NVIDIA: 535.86.05 или новее.
🔹 CUDA Toolkit: 12.1 (не 12.0!).
🔹 cuDNN: 8.9.2.

Проверить текущие версии можно командой nvcc --version.

Можно ли использовать две видеокарты (например, RTX 3060 + RTX 4070) для ускорения DeepSeek?

Да, но с оговорками:

🔹 Поддерживается только в Linux с NCCL (библиотека для мульти-GPU).
🔹 Видеокарты должны быть одной архитектуры (например, обе Ampere).
🔹 Запуск через torchrun --nproc_per_node 2.

На Windows мульти-GPU для LLMs не работает из-за ограничений PyTorch.

Какой объём VRAM нужен для файн-тюнинга DeepSeek 67B?

Для полноценного обучения (full fine-tuning) требуется:

🔹 80 ГБ VRAM для FP16 (например, 4 × RTX 4090 с NVLink).
🔹 48 ГБ VRAM для FP16 с gradient accumulation.
🔹 24 ГБ VRAM для LoRA-обучения (ранг 8–16).

Альтернатива — использование DeepSpeed ZeRO-3, который распределяет модель между GPU и CPU.