TensorFlow 25.01 + CUDA 12.8 + RTX 5090 на WSL2: проблема “CUDA не удалось инициализировать” (Ошибка 500)

Question

Системная информация
GPU: NVIDIA RTX 5090 (Архитектура Blackwell)
Версия CUDA: 12.8 (WSL2 Ubuntu 24.04)
Версия драйвера NVIDIA: 572.16
Версия TensorFlow: 25.01 (TF 2.17.0)
Версия WSL: WSL2 (Ubuntu 24.04.2 LTS, Ядро 5.15.167.4-microsoft-standard-WSL2)
Версия Docker: 26.1.3 (Ubuntu 24.04)
NVIDIA Container Runtime: установлен и включен
**Вывод NVIDIA-SMI (Хост WSL2)
nvidia-smi
±—————————————————————————-+
| NVIDIA-SMI 570.86.16 Driver Version: 572.16 CUDA Version: 12.8 |
|——————————-±———————±———————+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce RTX 5090 | 00000000:01:00.0 Off | N/A |
| 54% 50C P8 33W / 575W | 2251MiB / 32607MiB | 1% Default |
±——————————±———————±———————+
Описание проблемы
Я пытаюсь запустить TensorFlow 25.01 в контейнере Docker на WSL2 (Ubuntu 24.04) с CUDA 12.8 и GPU RTX 5090.
Тем не менее, TensorFlow не обнаруживает GPU, и я постоянно получаю следующую ошибку при запуске:
docker run –gpus all –shm-size=1g –ulimit memlock=-1 –rm -it nvcr.io/nvidia/tensorflow:25.01-tf2-py3

Сообщение об ошибке

ERROR: The NVIDIA Driver is present, but CUDA failed to initialize.
GPU functionality will not be available.
[[ Named symbol not found (error 500) ]]

Кроме того, выполняя TensorFlow в контейнере:

python3 -c “import tensorflow as tf; print(tf.config.list_physical_devices(‘GPU’))”

Возвращает:

Шаги, предпринятые для отладки
:white_check_mark: Проверка установки CUDA внутри WSL2
nvcc установлен и работает
nvcc –version

nvcc: NVIDIA (R) Cuda compiler
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Jan_15_19:20:00_PST_2025
Cuda compilation tools, release 12.8, V12.8.61

NVIDIA Container Runtime установлен

nvidia-container-cli –load-kmods info

NVRM версия: 572.16
Версия CUDA: 12.8
Устройство: 0
GPU UUID: GPU-0b34a9a4-4b3c-ecec-f2e-fced5f2e0a0f
Архитектура: 12.0

:white_check_mark: Проверка настроек NVIDIA Docker

/etc/docker/daemon.json содержит:
{
“runtimes”: {
“nvidia”: {
“path”: “nvidia-container-runtime”,
“args”:
}
},
“default-runtime”: “nvidia”
}

Перезапущен Docker:

sudo systemctl restart docker

Проверка CUDA внутри контейнера TensorFlow

Внутри работающего контейнера:

ls -l /usr/local/cuda*
ls -l /usr/lib/x86_64-linux-gnu/libcuda*

Результаты:

/usr/local/cuda-12.8 существует
/usr/lib/x86_64-linux-gnu/libcuda.so отсутствует
$LD_LIBRARY_PATH внутри контейнера не включает /usr/local/cuda-12.8/lib64
Попробовал явное подключение библиотек CUDA:

docker run –gpus all –runtime=nvidia –shm-size=1g –ulimit memlock=-1 –rm -it
-v /usr/local/cuda-12.8:/usr/local/cuda-12.8
-v /usr/lib/x86_64-linux-gnu/libcuda.so:/usr/lib/x86_64-linux-gnu/libcuda.so
nvcr.io/nvidia/tensorflow:25.01-tf2-py3

Та же ошибка повторяется.

Проверка выполнения примера CUDA
Внутри контейнера:
cuda-device-query

Результаты:
Ошибка CUDA: Named symbol not found (error 500)

Потенциальные проблемы
CUDA 12.8 может быть некорректно отображена в контейнере TensorFlow.
Контейнер может ожидать другую версию CUDA runtime или отсутствуют символические ссылки.
Решение, пробовал: Явное монтирование /usr/local/cuda-12.8 → Все равно ошибка.
Драйвер NVIDIA 572.16 может быть несовместим с контейнером TensorFlow 25.01.
Официальные примечания к выпуску TensorFlow 25.01 рекомендуют драйвер 535+, но неизвестно, поддерживается ли 572.16.
Решение, пробовал: Установка различных драйверов NVIDIA внутри контейнера → Все равно ошибка.
Контейнер не имеет достаточных прав доступа к драйверам GPU.
Решение, пробовал: Проверка настроек NVIDIA runtime и /etc/docker/daemon.json → Все равно ошибка.
Вопросы для разработчиков NVIDIA / команды TensorFlow
Полностью ли поддерживается CUDA 12.8 внутри контейнера TensorFlow 25.01?
Поддерживает ли TensorFlow 25.01 драйвер NVIDIA 572.16 или мне следует понизить версию до 545.x или 535.x?
Требуются ли дополнительные конфигурации для корректного отображения CUDA внутри контейнера TensorFlow?
Кто-нибудь смог успешно запустить TensorFlow 25.01 + CUDA 12.8 + RTX 5090 внутри WSL2?
Дополнительная информация для отладки
При запросе я могу предоставить:

Полные логи запуска TensorFlow
Вывод nvidia-smi, nvcc –version, ls -l /usr/local/cuda* внутри контейнера
Логи Docker
Любой совет или рекомендации будут очень полезны!
Заранее спасибо. :pray:

TensorFlow 25.01 + CUDA 12.8 + RTX 5090 на WSL2: проблема “CUDA не удалось инициализировать” (Ошибка 500)

Вопрос или проблема

Ответ или решение

Теория (Theory)

Возможные причины и аспекты

Пример (Example)

Применение (Application)