asd

Browse files

Files changed (6) hide show

README.md +63 -94
logs/transcription_20260114_203107.log +10 -0
pyproject.toml +23 -0
requirements.txt +3 -0
results/result_20260114_203245.json +7 -0
run_demo.py +47 -8

README.md CHANGED Viewed

@@ -1,115 +1,84 @@
 # Trans for Doctors - Установка и использование
-## Быстрый старт
-### 1. Установка с помощью UV (рекомендуется)
-#### Предварительные требования:
-- Python 3.13+
 - Git
-#### Шаги установки:
-1. **Установите `uv` (если еще не установлен)**
-   ```bash
-   # На macOS/Linux
-   curl -LsSf https://astral.sh/uv/install.sh | sh
-   # На Windows (PowerShell)
-   powershell -ExecutionPolicy BypassUser -c "irm https://astral.sh/uv/install.ps1 | iex"
-   ```
-2. **Клонируйте репозиторий**
-   ```bash
-   git clone <ваш-репозиторий>
-   cd Trans_for_doctors
-   ```
-3. **Создайте виртуальное окружение и установите зависимости**
-   ```bash
-   uv venv
-   source .venv/bin/activate  # На Windows: .venv\Scripts\activate
-   uv pip install -r requirements.txt
-   ```
-### 2. Скачивание моделей с Hugging Face
-#### Вариант A: Автоматическое скачивание (встроено в скрипт)
-Скрипт `run_demo.py` автоматически скачает необходимые модели с Hugging Face при первом запуске.
-#### Вариант B: Ручное скачивание
-1. **Установите `huggingface-hub`**
-   ```bash
-   uv pip install huggingface-hub
-   ```
-2. **Скачайте модель для текстового трансляра**
-   ```bash
-   huggingface-cli download <модель-название> --local-dir ./models/translator
-   ```
-3. **Скачайте модель для распознавания речи (Whisper)**
-   ```bash
-   huggingface-cli download openai/whisper-base --local-dir ./models/whisper
-   ```
-### 3. Запуск проекта
 ```bash
-# Убедитесь, что виртуальное окружение активно
-source .venv/bin/activate  # На Windows: .venv\Scripts\activate
-# Запустите демо
-uv run python run_demo.py
 ```
-## Структура проекта
-- `run_demo.py` - основной скрипт для запуска
-- `requirements.txt` - зависимости проекта
-- Папка `models/` - где хранятся скачанные модели (создается автоматически)
-- Конфигурационные файлы (`config.json`, `generation_config.json` и т.д.)
-- `medical_terms.txt` - медицинская терминология
-- `vocab.json`, `merges.txt` - файлы токенайзера
-## Необходимые пакеты
-- **transformers** - работа с трансформер моделями
-- **accelerate** - оптимизация при работе с GPU
-- **librosa** - обработка аудио
-- **soundfile** - сохранение аудио файлов
-- **huggingface_hub** - скачивание моделей с Hugging Face
-- **numpy** - численные вычисления
-## Альтернатива: PIP вместо UV
-Если вы предпочитаете использовать стандартный pip:
 ```bash
-python -m venv venv
-source venv/bin/activate  # На Windows: venv\Scripts\activate
-pip install -r requirements.txt
-python run_demo.py
 ```
-## Решение проблем
-### Проблема: "Model not found on Hugging Face"
-**Решение:** Проверьте интернет соединение и убедитесь, что вы вошли в свой аккаунт:
 ```bash
-huggingface-cli login
 ```
-### Проблема: "CUDA out of memory"
-**Решение:** Используйте CPU вместо GPU или снизьте размер batch:
 ```bash
-export CUDA_VISIBLE_DEVICES=""  # Принудительно использовать CPU
 python run_demo.py
 ```
-### Проблема: "Нет прав для записи в папку models"
-**Решение:** Убедитесь, что у вас есть права на запись в текущую директорию
-```bash
-chmod -R 755 ./
-```

 # Trans for Doctors - Установка и использование
+## Быстрый старт (UV)
+### Предварительные требования
+- Python 3.13+ (torch GPU колеса требуют совместимую версию)
 - Git
+- Установленный менеджер uv
 ```bash
+# macOS/Linux
+curl -LsSf https://astral.sh/uv/install.sh | sh
+# Windows (PowerShell)
+powershell -ExecutionPolicy BypassUser -c "irm https://astral.sh/uv/install.ps1 | iex"
 ```
+### Установка
+```bash
+git clone <ваш-репозиторий>
+cd Trans_for_doctors
+# uv сам создаст .venv и установит зависимости из pyproject.toml
+uv sync
+source .venv/bin/activate  # Windows: .venv\Scripts\activate
+```
+### Подготовка CUDA (опционально)
+uv sync ставит базовый torch. Для GPU поставьте колесо под свою версию CUDA 13.0:
 ```bash
+# CUDA 13.0 (cu130)
+uv pip install --upgrade \
+  --index-url https://download.pytorch.org/whl/cu130 \
+  torch torchvision torchaudio
+```
+Проверка GPU:
+```bash
+uv run python - <<'PY'
+import torch
+print(torch.cuda.is_available())
+print(torch.cuda.device_name(0) if torch.cuda.is_available() else "cpu")
+PY
 ```
+### Запуск
 ```bash
+uv run python run_demo.py \
+  --device auto \
+  --dtype float32 \
+  --medical-prompt medical_terms.txt \
+  --audio test_sound_ru.wav
 ```
+- --device auto выберет CUDA если доступно, иначе CPU.
+- Для GPU: --device cuda --dtype float32
+- Для CPU: --device cpu --dtype float32.
+## Структура проекта
+- run_demo.py — основной скрипт
+- pyproject.toml — зависимости для uv
+- requirements.txt — совместимость для pip
+- Конфиги модели (config.json, generation_config.json, tokenizer_config.json и т.д.)
+- medical_terms.txt — медицинская терминология
+- Логи и результаты — папки logs/ и results/
+## CLI параметры
+- --audio — путь к аудиофайлу (по умолчанию test_sound_ru.wav)
+- --medical-prompt — путь к файлу терминов
+- --language — код языка (по умолчанию ru)
+- --device — auto | cuda | cpu
+- --dtype — auto | float32 | float16 | bfloat16
+## Альтернатива: pip без uv
 ```bash
+python -m venv venv
+source venv/bin/activate  # Windows: venv\Scripts\activate
+pip install -r requirements.txt
 python run_demo.py
 ```
+## Решение проблем
+- Модель не скачивается: проверьте сеть и выполните huggingface-cli login.
+- CUDA OOM: запустите на CPU (--device cpu) или используйте float16 на меньшей карте.
+- Нет прав записи: убедитесь, что у вас есть права на каталог (chmod -R 755 ./).

logs/transcription_20260114_203107.log ADDED Viewed

	@@ -0,0 +1,10 @@

+2026-01-14 20:31:07,487 - whisper_demo - INFO - Starting Whisper transcription demo
+2026-01-14 20:31:07,488 - whisper_demo - INFO - Audio file: /home/robot/Documents/novaya_vetka/5415689602587464150.wav
+2026-01-14 20:31:08,118 - whisper_demo - INFO - Audio loaded successfully, sample rate: 16000
+2026-01-14 20:31:08,119 - whisper_demo - INFO - Inference device: cpu
+2026-01-14 20:31:08,119 - whisper_demo - INFO - torch dtype: torch.float32
+2026-01-14 20:31:08,119 - whisper_demo - INFO - Loading model from /home/robot/Documents/novaya_vetka/Trans_for_doctors
+2026-01-14 20:31:08,485 - whisper_demo - INFO - Language: ru
+2026-01-14 20:31:08,485 - whisper_demo - INFO - Starting transcription...
+2026-01-14 20:32:45,659 - whisper_demo - INFO - Transcription completed successfully
+2026-01-14 20:32:45,661 - whisper_demo - INFO - Result saved to /home/robot/Documents/novaya_vetka/Trans_for_doctors/results/result_20260114_203245.json

pyproject.toml ADDED Viewed

	@@ -0,0 +1,23 @@

+[project]
+name = "trans-for-doctors"
+version = "0.1.0"
+description = "Whisper-based transcription demo with optional medical prompts"
+readme = "README.md"
+requires-python = ">=3.13,<3.14"
+dependencies = [
+    "transformers>=4.44.0",
+    "torch>=2.3.0",
+    "torchvision>=0.18.1",
+    "torchaudio>=2.3.1",
+    "accelerate>=0.33.0",
+    "librosa>=0.10.2",
+    "soundfile>=0.12.1",
+    "huggingface_hub>=0.23.4",
+    "numpy>=1.26.4",
+    "wget>=3.2",
+]
+[build-system]
+requires = ["hatchling"]
+build-backend = "hatchling.build"

requirements.txt CHANGED Viewed

@@ -1,4 +1,7 @@
 transformers>=4.44.0
 accelerate>=0.33.0
 librosa>=0.10.2
 soundfile>=0.12.1

 transformers>=4.44.0
+torch>=2.3.0
+torchvision>=0.18.1
+torchaudio>=2.3.1
 accelerate>=0.33.0
 librosa>=0.10.2
 soundfile>=0.12.1

results/result_20260114_203245.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "timestamp": "2026-01-14T20:32:45.660736",
+  "audio_file": "5415689602587464150.wav",
+  "language": "ru",
+  "medical_prompt_used": false,
+  "transcription": " На серии МР-томограмм, выполненных в двух проекциях, лордоз сохранен просвет позвоночного канала на уровне L3 позвонка 1,6 сантиметров, высота межпозвонкового диска L5-S1 и интенсивность сигнала от него и диска L4-L5-BOTO2 снижены, высота и интенсивность сигнала от остальных межпозвонковых дисков исследованной зоны сохранены. Определяется дорзальная медиально-парамедиальная грыжа диска по типу протрузии L4 и L5 размером 0,5 см, умеренно деформирующая прилежащий отдел латурального мешка, распространяющийся в оба мешково-звонковых отверстия с их сужением большей степени правого и левого. На уровне Л5-С1 определяется дарзальная левосторонняя медиально-парамедиальная грыжа по типу экструзии размером до 1,0 сантиметров компримирующий прилежащий отдел дурального мешка, распространяющийся в левое межпозвонковое отверстие с его сужением и компрессией левого нервного корешка.Кровые и костные разрастания L4-С1, дефекты шморны L5-С1."
+}

run_demo.py CHANGED Viewed

@@ -110,6 +110,8 @@ def main() -> None:
     parser.add_argument("--audio", type=str, default=str(AUDIO_FILE), help="Path to audio file")
     parser.add_argument("--medical-prompt", type=str, help="Path to medical terms file (e.g., medical_terms.txt)")
     parser.add_argument("--language", type=str, default="ru", help="Language code (default: ru)")
     args = parser.parse_args()
     audio_path = Path(args.audio)
@@ -121,19 +123,56 @@ def main() -> None:
     except Exception as e:
         logger.error(f"Failed to load audio file: {e}")
         raise
     # Load processor to access prompt tokenization
     logger.info(f"Loading model from {MODEL_PATH}")
     processor = AutoProcessor.from_pretrained(str(MODEL_PATH))
-    asr = pipeline(
-        task="automatic-speech-recognition",
-        model=str(MODEL_PATH),
-        tokenizer=processor.tokenizer,
-        feature_extractor=processor.feature_extractor,
-        device_map="auto",
-        torch_dtype=torch.float32,
-    )
     # Prepare generation kwargs
     generate_kwargs = {

     parser.add_argument("--audio", type=str, default=str(AUDIO_FILE), help="Path to audio file")
     parser.add_argument("--medical-prompt", type=str, help="Path to medical terms file (e.g., medical_terms.txt)")
     parser.add_argument("--language", type=str, default="ru", help="Language code (default: ru)")
+    parser.add_argument("--device", choices=["auto", "cuda", "cpu"], default="auto", help="Inference device (auto prefers CUDA if available)")
+    parser.add_argument("--dtype", choices=["auto", "float32", "float16", "bfloat16"], default="float32", help="Torch dtype (default float32; use float16 only if desired)")
     args = parser.parse_args()
     audio_path = Path(args.audio)
     except Exception as e:
         logger.error(f"Failed to load audio file: {e}")
         raise
+    # Resolve device and dtype
+    device_choice = args.device
+    if device_choice == "cuda" and not torch.cuda.is_available():
+        logger.warning("CUDA requested but not available; falling back to CPU")
+        device_choice = "cpu"
+    if device_choice == "auto":
+        torch_device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        device_map = "auto" if torch_device.type == "cuda" else None
+    elif device_choice == "cuda":
+        torch_device = torch.device("cuda")
+        device_map = None
+    else:
+        torch_device = torch.device("cpu")
+        device_map = None
+    if args.dtype == "auto":
+        torch_dtype = torch.float32
+    else:
+        dtype_map = {
+            "float32": torch.float32,
+            "float16": torch.float16,
+            "bfloat16": torch.bfloat16,
+        }
+        torch_dtype = dtype_map[args.dtype]
+    logger.info(f"Inference device: {torch_device}")
+    logger.info(f"torch dtype: {torch_dtype}")
+    if device_map:
+        logger.info(f"Using device_map: {device_map}")
     # Load processor to access prompt tokenization
     logger.info(f"Loading model from {MODEL_PATH}")
     processor = AutoProcessor.from_pretrained(str(MODEL_PATH))
+    pipeline_kwargs = {
+        "task": "automatic-speech-recognition",
+        "model": str(MODEL_PATH),
+        "tokenizer": processor.tokenizer,
+        "feature_extractor": processor.feature_extractor,
+        "torch_dtype": torch_dtype,
+    }
+    if device_map:
+        pipeline_kwargs["device_map"] = device_map
+    else:
+        pipeline_kwargs["device"] = torch_device
+    asr = pipeline(**pipeline_kwargs)
     # Prepare generation kwargs
     generate_kwargs = {