File size: 4,343 Bytes
ce82348
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
# scripts/check_gpu.py

"""
Скрипт для точной диагностики окружения GPU: проверяет модель карты, объем и процент 
использования памяти, версию PyTorch, а также системную и встроенную версии CUDA.
"""
import logging
import subprocess
import re
import torch
from typing import List, Optional

# Настройка подробного логирования
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s [%(levelname)s] %(message)s",
    datefmt="%H:%M:%S"
)
logger: logging.Logger = logging.getLogger(__name__)

def get_system_cuda_version() -> Optional[str]:
    """
    Извлекает системную версию CUDA из вывода утилиты nvidia-smi.
    
    Returns:
        Optional[str]: Строка с версией (например, '12.2') или None, если не найдено.
    """
    try:
        # Запрашиваем полный вывод nvidia-smi
        result: subprocess.CompletedProcess = subprocess.run(
            ["nvidia-smi"], stdout=subprocess.PIPE, text=True, check=True
        )
        # Ищем паттерн "CUDA Version: XX.X"
        match: Optional[re.Match] = re.search(r"CUDA Version:\s+(\d+\.\d+)", result.stdout)
        if match:
            return match.group(1)
    except Exception as e:
        logger.debug(f"Не удалось получить системную версию CUDA: {e}")
    return None

def main() -> None:
    """
    Главная функция для сбора и логирования подробной информации о GPU и окружении.
    """
    logger.info("🔍 Запуск точной диагностики окружения и видеокарты...")
    
    # 1. Информация о фреймворке
    logger.info(f"📦 Версия PyTorch: {torch.__version__}")
    logger.info(f"⚙️ Версия CUDA (сборка PyTorch): {torch.version.cuda}")
    
    # 2. Системная информация драйвера
    sys_cuda: Optional[str] = get_system_cuda_version()
    logger.info(f"🖥️ Версия CUDA (системный драйвер): {sys_cuda if sys_cuda else 'Неизвестно'}")
    
    if not torch.cuda.is_available():
        logger.error("❌ GPU не найден для PyTorch! Проверь настройки Colab.")
        return
        
    # 3. Физические метрики видеокарты
    try:
        cmd: List[str] = [
            "nvidia-smi",
            "--query-gpu=name,memory.total,memory.used",
            "--format=csv,noheader,nounits"
        ]
        
        result: subprocess.CompletedProcess = subprocess.run(
            cmd, stdout=subprocess.PIPE, text=True, check=True
        )
        
        lines: List[str] = result.stdout.strip().split('\n')
        
        for i, line in enumerate(lines):
            parts: List[str] = [p.strip() for p in line.split(',')]
            
            if len(parts) >= 3:
                gpu_name: str = parts[0]
                mem_total_mb: float = float(parts[1])
                mem_used_mb: float = float(parts[2])
                
                # Переводим в гигабайты и высчитываем процент занятости
                mem_total_gb: float = mem_total_mb / 1024
                mem_used_gb: float = mem_used_mb / 1024
                percent_used: float = (mem_used_mb / mem_total_mb) * 100
                
                logger.info(f"💻 Устройство {i}: {gpu_name}")
                logger.info(
                    f"🧠 Видеопамять: занято {mem_used_gb:.2f} GB из {mem_total_gb:.2f} GB "
                    f"({percent_used:.1f}%)"
                )
            else:
                logger.warning(f"⚠️ Неожиданный формат вывода nvidia-smi: {line}")
                
    except FileNotFoundError:
        logger.error("❌ Утилита nvidia-smi не найдена в системе.")
    except Exception as e:
        logger.error(f"❌ Ошибка при диагностике GPU: {e}", exc_info=True)
        
    logger.info("=" * 50)

if __name__ == "__main__":
    main()