# Domain-Specific Datasets Örnekleri Bu klasör, farklı domain'ler için özelleştirilmiş dataset örnekleri içerir. ## Domain'ler ### 🔬 Bilimsel Makaleler - arXiv, PubMed style - 2,000 örnek - Citation tracking - Abstract + full text ### 💻 Kod Datasets - 6 programlama dili - 2,000 kod örneği - Syntax parsing - Docstring extraction ### 💰 Finansal Veri - Sentiment analysis - Market data - 2,000 kayıt - Time series ### 🏥 Tıbbi Veri - PHI anonymization - HIPAA compliance - 2,000 kayıt - Clinical notes ## Cross-Domain Integration ### Problem: Schema Mismatch ```python # ❌ Bu HATA verir combined = concatenate_datasets([sci_ds, code_ds]) # ArrowTypeError: struct fields don't match ``` ### Çözüm 1: Flatten Approach ```python # ✅ Ortak schema def normalize(ex, domain): return { 'text': ex.get('text'), 'domain': domain, 'field1': ex.get('field1'), 'field2': ex.get('field2'), # ... tüm field'lar } ``` ### Çözüm 2: JSON Metadata ```python # ✅ Esnek yapı def normalize(ex, domain): return { 'text': ex.get('text'), 'domain': domain, 'metadata_json': json.dumps(ex.get('meta', {})) } ``` ### Çözüm 3: Separate Tables ```python # ✅ Database-style unified_table + metadata_tables ``` ## Best Practices ✅ Domain expertise kullan ✅ Specialized tokenization ✅ Quality filtering ✅ Ethical guidelines ✅ Schema normalization