Spaces:

MedSwin
/

MedAI_Processing

Sleeping

MedAI_Processing / docs /REVIEW.md

Upd local setups with dynamic mode setter

a89888b 3 months ago

2.12 kB

a. LLM-Based Paraphrasing

Multi-model approach: Llama-8B (same architecture) and Gemini (Flash/Pro) models for reliability
Difficulty levels: Easy vs. Hard paraphrasing modes to effectively use different models with auditing.
Medical context preservation: Maintains clinical terminology accuracy
Configurable ratios: User-defined augmentation percentages

b. Back-Translation Augmentation

Pivot languages EN-VI-EN-VI...
Quality control: Length and semantic similarity validation
Meaning preservation: Maintains semantic accuracy through translation cycles

c. Style Standardization

d. Multi-Variant Generation (for reasoning)

Answer variants: Concise, detailed, clinical, patient-friendly styles
Question variants: Clarifying, follow-up, symptom-focused, treatment-focused
Cross combinations: All question × answer variant combinations (up to 9 per sample) e. Clinical Scenario Creation
Context variations: Emergency room, routine checkup, chronic conditions, family member perspectives
Enhanced diversity: Multiple reasoning paths for improved model training

f. Quality Assurance f1. Data Cleaning

PHI removal: Email, phone, URL, IP address redaction
Deduplication: MD5-based content hashing with normalized comparison
Invalid response handling: Detection and retry logic for failed responses
Conversational element cleaning: Removal of greetings and non-medical content

f2. Validation

g. Output Formats: SFT Format