| # Domain-Specific Datasets Örnekleri | |
| Bu klasör, farklı domain'ler için özelleştirilmiş dataset örnekleri içerir. | |
| ## Domain'ler | |
| ### 🔬 Bilimsel Makaleler | |
| - arXiv, PubMed style | |
| - 2,000 örnek | |
| - Citation tracking | |
| - Abstract + full text | |
| ### 💻 Kod Datasets | |
| - 6 programlama dili | |
| - 2,000 kod örneği | |
| - Syntax parsing | |
| - Docstring extraction | |
| ### 💰 Finansal Veri | |
| - Sentiment analysis | |
| - Market data | |
| - 2,000 kayıt | |
| - Time series | |
| ### 🏥 Tıbbi Veri | |
| - PHI anonymization | |
| - HIPAA compliance | |
| - 2,000 kayıt | |
| - Clinical notes | |
| ## Cross-Domain Integration | |
| ### Problem: Schema Mismatch | |
| ```python | |
| # ❌ Bu HATA verir | |
| combined = concatenate_datasets([sci_ds, code_ds]) | |
| # ArrowTypeError: struct fields don't match | |
| ``` | |
| ### Çözüm 1: Flatten Approach | |
| ```python | |
| # ✅ Ortak schema | |
| def normalize(ex, domain): | |
| return { | |
| 'text': ex.get('text'), | |
| 'domain': domain, | |
| 'field1': ex.get('field1'), | |
| 'field2': ex.get('field2'), | |
| # ... tüm field'lar | |
| } | |
| ``` | |
| ### Çözüm 2: JSON Metadata | |
| ```python | |
| # ✅ Esnek yapı | |
| def normalize(ex, domain): | |
| return { | |
| 'text': ex.get('text'), | |
| 'domain': domain, | |
| 'metadata_json': json.dumps(ex.get('meta', {})) | |
| } | |
| ``` | |
| ### Çözüm 3: Separate Tables | |
| ```python | |
| # ✅ Database-style | |
| unified_table + metadata_tables | |
| ``` | |
| ## Best Practices | |
| ✅ Domain expertise kullan | |
| ✅ Specialized tokenization | |
| ✅ Quality filtering | |
| ✅ Ethical guidelines | |
| ✅ Schema normalization | |