tugrulkaya commited on
Commit
8adc0ac
·
verified ·
1 Parent(s): 47cfccc

Add detailed narrative and visuals to model card

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ eurosat_training_examples.png filter=lfs diff=lfs merge=lfs -text
README.md CHANGED
@@ -32,8 +32,51 @@ processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
32
  ## Classes
33
  AnnualCrop, Forest, HerbaceousVegetation, Highway, Industrial, Pasture, PermanentCrop, Residential, River, SeaLake
34
 
35
- ## Training
36
- - **Base:** Qwen2-VL-2B-Instruct
37
- - **Method:** LoRA (r=16, alpha=32)
38
- - **Data:** 1000 EuroSAT samples
39
- - **Hardware:** Google Colab T4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
32
  ## Classes
33
  AnnualCrop, Forest, HerbaceousVegetation, Highway, Industrial, Pasture, PermanentCrop, Residential, River, SeaLake
34
 
35
+ ## GeoQwen-VL-2B-EuroSAT: Uzaktan Algılama İçin Bir Dönüşüm Hikayesi
36
+
37
+ #### Giriş
38
+ Uzaktan algılama ve uydu görüntüleri, gezegenimizdeki değişimleri anlama ve izleme konusunda kritik bir rol oynamaktadır. Bu geniş ve karmaşık veri setinden anlamlı bilgiler çıkarmak, geleneksel yöntemlerle zorlu ve zaman alıcı olabilmektedir. İşte bu noktada, doğal dil işleme ve bilgisayar görüşünü bir araya getiren görme-dil modelleri (VLM'ler) devreye girer. Bu proje, uydu görüntülerini sınıflandırmak ve doğal dil ile yorumlamak için tasarlanmış, **GeoQwen-VL-2B-EuroSAT** adlı bir VLM'nin geliştirilmesi sürecini anlatmaktadır.
39
+
40
+ #### Motivasyon
41
+ Coğrafi uzamsal zeka alanında, uydu görüntülerinden otomatik olarak bilgi çıkarabilen sistemlere olan ihtiyaç giderek artmaktadır. Özellikle arazi örtüsü sınıflandırması, çevre izleme, kentsel planlama ve afet yönetimi gibi alanlarda hızlı ve doğru analizler hayati önem taşır. Bu projenin temel motivasyonu, geniş ölçekli uydu verilerini işleyebilecek, karmaşık görsel bilgiyi anlayabilecek ve insan benzeri açıklamalar üretebilecek güçlü bir VLM geliştirmektir. Qwen2-VL gibi son teknoloji bir modelin uydu görüntüleri alanına adapte edilmesiyle, bu hedeflere ulaşılması amaçlanmıştır.
42
+
43
+ #### Teknik Yaklaşım
44
+ Proje, temel olarak Qwen2-VL-2B-Instruct modelinin **LoRA (Low-Rank Adaptation)** tekniği kullanılarak EuroSAT RGB veri seti üzerinde ince ayarını içeriyordu. Seçilen bu teknik, kısıtlı donanım kaynaklarına sahip (örneğin T4 GPU) Colab ortamlarında bile büyük modellerin verimli bir şekilde eğitilmesine olanak tanır. 4-bit nicemleme (quantization), modelin bellek ayak izini önemli ölçüde azaltarak daha büyük modellerle çalışma yeteneğini artırdı. EuroSAT veri seti, Avrupa'daki 10 farklı arazi örtüsü sınıfını temsil eden Sentinel-2 uydu görüntülerinden oluşmaktadır. Model, bu görüntülerle birlikte soru-cevap formatındaki doğal dil talimatlarını kullanarak, görüntülerdeki arazi örtüsü tiplerini tanımayı ve açıklamayı öğrenmiştir.
45
+
46
+ #### Zorluklar ve Çözümler
47
+ 1. **Donanım Kısıtlamaları:** Büyük Qwen2-VL modelinin ince ayarı, özellikle bellek açısından zorlayıcıydı. Bu sorun, 4-bit nicemleme ve `bitsandbytes` kütüphanesinin kullanımıyla çözüldü. Bu sayede model, T4 GPU'nun 16GB belleğine sığdırılabildi.
48
+ 2. **Eğitim Süresi:** Modelin boyutu ve veri setinin kapsamı, uzun eğitim süreleri gerektirmekteydi. LoRA'nın verimliliği ve `gradient_accumulation_steps` gibi stratejilerin kullanımı, eğitim sürecini optimize etmeye yardımcı oldu.
49
+ 3. **Veri Hazırlığı:** EuroSAT veri setindeki etiketlerin ve sınıf tanımlarının doğal dil talimatlarına dönüştürülmesi, modelin daha iyi anlaması için kritikti. `VLMDataCollator` sınıfı, bu dönüşümü otomatikleştirerek eğitim sürecini kolaylaştırdı.
50
+ 4. **Hugging Face Entegrasyonu:** Modelin ve işlemcinin Hugging Face Hub'a sorunsuz bir şekilde yüklenmesi ve sürüm kontrolü için `huggingface_hub` kütüphanesi kullanılarak, modelin paylaşılabilirliği ve yeniden üretilebilirliği sağlandı.
51
+ 5. **İnce Ayar Sonrası Inference Hataları:** Eğitim sırasında kullanılan `VLMDataCollator`'ın `truncation=True` ve `max_length=512` parametreleri, inference sırasında `processor` çağrısında eksikti. Bu durum, `input_ids` ve `attention_mask` boyutlarında uyumsuzluğa yol açarak `IndexError` hatasına neden oldu. Çözüm olarak, inference `processor` çağrısına bu parametreler geri eklenerek tutarlılık sağlandı.
52
+
53
+ #### Sonuçlar ve Başarılar
54
+ Bu projenin en büyük başarısı, LoRA ve 4-bit nicemleme teknikleri sayesinde kısıtlı kaynaklarla Qwen2-VL-2B-Instruct gibi karmaşık bir VLM'nin EuroSAT veri seti üzerinde başarılı bir şekilde ince ayarını tamamlamaktır. Geliştirilen **GeoQwen-VL-2B-EuroSAT** modeli:
55
+ * Uydu görüntülerindeki arazi örtüsü tiplerini doğru bir şekilde sınıflandırabilmektedir.
56
+ * Görsel verileri anlamlı doğal dil açıklamalarına dönüştürebilmektedir.
57
+ * Coğrafi uzamsal veriler üzerinde görsel soru-cevap (Visual QA) yeteneği kazanmıştır.
58
+
59
+ Bu, uzaktan algılama alanında daha erişilebilir ve güçlü VLM'lerin geliştirilmesi için önemli bir adımdır.
60
+
61
+ #### Gelecek Çalışmalar ve Kullanım Alanları
62
+ **GeoQwen-VL-2B-EuroSAT** modelinin potansiyel kullanım alanları oldukça geniştir:
63
+ * **Çevre İzleme:** Ormanlık alanlardaki değişimlerin, su kütlelerinin durumunun veya tarım alanlarının izlenmesi.
64
+ * **Kentsel Planlama:** Şehirlerin genişlemesi, sanayi bölgelerinin tespiti ve altyapı gelişiminin analizi.
65
+ * **Afet Yönetimi:** Sel, deprem veya yangın gibi afetler sonrası hasar tespiti ve durum değerlendirmesi.
66
+ * **Tarım:** Mahsul türü tespiti, verim tahmini ve bitki sağlığı izleme.
67
+
68
+ Gelecekteki çalışmalar arasında, modelin daha geniş ve çeşitli uzaktan algılama veri setleri (RESISC45, AID, BigEarthNet) üzerinde eğitilmesi, daha büyük Qwen2.5-VL-7B gibi modellerin denenmesi ve değişiklik tespiti gibi daha gelişmiş yeteneklerin eklenmesi yer almaktadır. Ayrıca, modelin erişilebilirliğini artırmak için bir Gradio demo alanı oluşturulması planlanmaktadır.
69
+
70
+ Bu proje, uzaktan algılama verilerinden değer yaratma yolunda önemli bir köprü kurmakta ve coğrafi uzamsal zeka alanında yeni ufuklar açmaktadır.
71
+
72
+ ## Görsel Örnekler
73
+
74
+ ### EuroSAT Eğitim Verisi Örnekleri
75
+ Aşağıda, modelin üzerinde eğitildiği EuroSAT veri setinden farklı arazi örtüsü sınıflarını gösteren örnek görüntüler yer almaktadır. Bu görseller, modelin tanıması gereken çeşitli senaryoları temsil etmektedir.
76
+
77
+ ![EuroSAT Training Examples](./eurosat_training_examples.png)
78
+
79
+ ### Model Tahmin Çıktısı Örneği
80
+ Bu görsel, eğitilmiş modelin bir uydu görüntüsü için ürettiği tahmin çıktısını ve gerçek etiketini karşılaştırmaktadır. Modelin görsel içerikten anlamlı açıklamalar üretme yeteneğini göstermektedir.
81
+
82
+ ![Model Prediction Example](./model_prediction_example.png)
eurosat_training_examples.png ADDED

Git LFS Details

  • SHA256: 53a0947f289cd55a6f05915d348cbb59c8390846643677ce4f4b6b6bfa62ec58
  • Pointer size: 131 Bytes
  • Size of remote file: 147 kB
model_prediction_example.png ADDED