Update README.md

Browse files

Files changed (1) hide show

README.md +16 -95

README.md CHANGED Viewed

@@ -121,134 +121,55 @@ The system is modular, consisting of several Python components:
   ## 🚧 Limitations
 - **Language**
-  Optimized for English. Performance may degrade significantly on other languages.
 - **Domain Specificity**
-  Achieves best results in AI/ML domains. Adaptation (e.g., domain-specific rules or keywords) is required for other fields.
 - **PDF Quality**
-  Heavily reliant on clean text extraction. Scanned PDFs, complex layouts, or poor OCR significantly reduce accuracy.
 - **Scalability**
-  Processing very large corpora (e.g., >10,000 papers) may require significant computational resources or distributed infrastructure.
 - **Relationship Nuance**
-  Relationships are extracted based on co-occurrence and semantic similarity. Logical or causal connections may not be captured.
 - **Temporal Accuracy**
-  Depends on accurate publication date extraction from metadata or filenames. Errors may affect timeline analysis.
 - **Visualization Clutter**
-  Interactive graph visualizations become cluttered and less interpretable when node count exceeds ~1000.
 ---
 ## 🌱 Future Work
-- **Multi-language Support**
-  Integration of multilingual NLP models to support non-English documents.
 - **Citation Integration**
-  Incorporating citation links and citation graph data into network analysis.
 - **ML-based Extraction**
-  Training supervised or semi-supervised models to improve concept and relation extraction quality.
 - **Advanced Visualizations**
-  Implementation of timeline views, dashboards, and alternative graph layouts (e.g., hierarchical, clustered).
 - **Improved Temporal Modeling**
-  Use of advanced time-series techniques to detect emerging trends and historical shifts.
 - **Web Interface**
-  A user-friendly UI for uploading documents, viewing visualizations, and downloading results.
 - **Knowledge Graph Export**
-  Export capabilities for standard knowledge graph formats like RDF, OWL, or JSON-LD.
 - **Concept Disambiguation**
-  Methods to differentiate between identically named but contextually distinct concepts.
 ---
-# ChronoSense: Bilimsel Kavram Analizi ve Görselleştirme Sistemi
-![ChronoSense Logo](https://img.shields.io/badge/ChronoSense-v1.0-blue?style=for-the-badge)
-![Durum](https://img.shields.io/badge/Status-Geliştirme-orange?style=for-the-badge)
-![Lisans](https://img.shields.io/badge/License-MIT-green?style=for-the-badge)
-![Python Versiyonu](https://img.shields.io/badge/Python-3.8+-yellow?style=for-the-badge)
-## 🔍 Model Açıklaması
-**ChronoSense**, bilimsel belgelerin (özellikle PDF biçiminde) otomatik işlenmesine yönelik kapsamlı bir sistemdir. Ana amacı, bilimsel metinlerden önemli kavramları çıkarmak (**spaCy**), bu kavramlar arasındaki anlamsal ve yapısal ilişkileri analiz etmek (**NetworkX**, **sentence-transformers**) ve bu ilişkileri zaman içinde etkileşimli grafiklerle görselleştirmektir (**Pyvis**).
-ChronoSense, araştırmacıların yoğun bilimsel literatür ortamında daha etkin gezinebilmesini, fikirler arasındaki gizli bağlantıları keşfetmesini ve araştırma alanlarının zaman içindeki evrimini anlamasını kolaylaştırır.
-## 🌟 Temel Özellikler
-- **📄 Otomatik PDF İşleme**: Bilimsel PDF belgelerinden metin ve varsa meta verileri (yayın yılı gibi) çıkarır.
-- **🧠 Kavram Çıkarımı (spaCy)**: Doğal dil işleme teknikleriyle alan-özgü kavramları tanımlar.
-- **🔗 İlişki Tespiti**: Kavramlar arası anlamsal (benzerlik, birlikte geçme) ve yapısal (bölüm konumları) ilişkileri ortaya çıkarır.
-- **🕸️ Ağ Analizi (NetworkX)**: Kavramlar arası ağ oluşturur, merkeziyet ve topluluk tespiti gibi metrikleri hesaplar.
-- **↔️ Anlamsal Benzerlik (sentence-transformers)**: Kavramlar arası benzerliği önceden eğitilmiş gömülü modellerle ölçer.
-- **⏳ Zamansal Analiz**: Kavramların zaman içindeki frekanslarını ve trendlerini izler.
-- **📊 Etkileşimli Görselleştirme (Pyvis)**: Kavram ağı grafiğini HTML olarak etkileşimli şekilde sunar.
-## 🚀 ChronoSense Ne İçin Faydalı?
-ChronoSense, araştırmacıların karşılaştığı birçok önemli zorluğu hedef alır:
-1. **Bilgi Aşırılığına Karşı**: Geniş literatürden önemli kavramları otomatik çıkarır ve yapılandırır.
-2. **Gizli Bağlantıları Keşfetme**: Farklı dönem ve çalışmalardan gelen kavramlar arasındaki örtük ilişkileri ortaya çıkarır.
-3. **Araştırma Dinamiklerini Takip Etme**: Hangi kavramların öne çıktığını, ne zaman zirve yaptığını ve azaldığını gösterir.
-4. **Araştırma Boşluklarını Belirleme**: Ağ yapısı sayesinde yeterince çalışılmamış alanları saptar.
-5. **Literatür Taramalarını Hızlandırma**: Bir alanın kavramsal haritasını hızlıca sunar.
-6. **Bilgi Keşfini Kolaylaştırma**: Karmaşık bilimsel bilgileri görselleştirerek erişilebilir hale getirir.
-## 💡 Hedef Kullanım Alanları
-ChronoSense aşağıdaki amaçlar için idealdir:
-- **🔬 Alan Analizi**: Belirli bir bilimsel alanın yapısını ve evrimini analiz etmek.
-- **📚 Literatür Taramaları**: Anahtar kavramlar, ilişkiler ve eğilimleri tespit etmek.
-- **🗺️ Bilgi Haritalama**: Kavramlar arası ilişkilerin görsel haritasını çıkarmak.
-- **📈 Yükselen Trendleri Tespit Etmek**: Zaman içinde öne çıkan kavramları belirlemek.
-- **🤔 Araştırma Boşluklarını Bulmak**: Az bağlantılı veya yalıtılmış kavramları belirlemek.
-- **🎓 Eğitim Amaçlı**: Kavramsal ilişkileri ve hiyerarşileri öğretmek.
-## 🛠️ Uygulama Detayları
-Sistem aşağıdaki Python modüllerinden oluşur:
-- `src/data_management/loaders.py`: PDF yükleme ve metin/metadata çıkarımı.
-- `src/extraction/extractor.py`: spaCy ile kavram çıkarımı ve ilişki tespiti.
-- `src/analysis/similarity.py`: sentence-transformers ile gömülü üretimi ve benzerlik hesaplaması.
-- `src/analysis/network_builder.py`: Kavram ağı oluşturur.
-- `src/analysis/network_analysis.py`: Ağ metrikleri ve topluluk analizi yapar.
-- `src/analysis/temporal.py`: Kavramların zaman içindeki frekanslarını analiz eder.
-- `src/visualization/plotting.py`: Pyvis ile etkileşimli grafikler üretir.
-- `src/data_management/storage.py`: İşlenmiş verileri Parquet/Pickle olarak kaydeder.
-## 📥 Girdiler / 📤 Çıktılar
-### Girdi:
-- PDF belgelerinden oluşan bir klasör (`data/raw/`)
-- Yapılandırma dosyası ve parametreler
-### Çıktı:
-- `data/processed_data/` altında:
-  - `documents.parquet`, `concepts.parquet`, `relationships.parquet`
-  - `concept_embeddings.pkl`, `mentions.parquet`
-- `output/graphs/concept_network_visualization.html`
-- `output/networks/concept_network.pkl`
-- Opsiyonel görseller (`output/*.png`)
-## 📊 Performans
-- **Kavram Tanımlama Başarımı**: AI/ML alanında yaklaşık %82 doğruluk.
-- **İlişki Geri Çağırma**: %76 civarında bölüm seviyesinde co-occurrence.
-- **Ağ Yapısı**: NetworkX metrikleri, topluluk modülerliği ~0.68.
-- **İşleme Hızı**: Orta düzey CPU’da ~25 sayfa/dakika.
 ## 📁 Project Structure (ALL)

   ## 🚧 Limitations
 - **Language**
+1- Optimized for English. Performance may degrade significantly on other languages.
 - **Domain Specificity**
+1- Achieves best results in AI/ML domains. Adaptation (e.g., domain-specific rules or keywords) is required for other fields.
 - **PDF Quality**
+1- Heavily reliant on clean text extraction. Scanned PDFs, complex layouts, or poor OCR significantly reduce accuracy.
 - **Scalability**
+1- Processing very large corpora (e.g., >10,000 papers) may require significant computational resources or distributed infrastructure.
 - **Relationship Nuance**
+1- Relationships are extracted based on co-occurrence and semantic similarity. Logical or causal connections may not be captured.
 - **Temporal Accuracy**
+1- Depends on accurate publication date extraction from metadata or filenames. Errors may affect timeline analysis.
 - **Visualization Clutter**
+1- Interactive graph visualizations become cluttered and less interpretable when node count exceeds ~1000.
 ---
 ## 🌱 Future Work
+- **Multi-language Support**
+1- Integration of multilingual NLP models to support non-English documents.
 - **Citation Integration**
+1- Incorporating citation links and citation graph data into network analysis.
 - **ML-based Extraction**
+1- Training supervised or semi-supervised models to improve concept and relation extraction quality.
 - **Advanced Visualizations**
+1- Implementation of timeline views, dashboards, and alternative graph layouts (e.g., hierarchical, clustered).
 - **Improved Temporal Modeling**
+1-  Use of advanced time-series techniques to detect emerging trends and historical shifts.
 - **Web Interface**
+1- A user-friendly UI for uploading documents, viewing visualizations, and downloading results.
 - **Knowledge Graph Export**
+1- Export capabilities for standard knowledge graph formats like RDF, OWL, or JSON-LD.
 - **Concept Disambiguation**
+1- Methods to differentiate between identically named but contextually distinct concepts.
 ---
 ## 📁 Project Structure (ALL)