tugrulkaya commited on
Commit
25a4286
·
verified ·
1 Parent(s): d0c16bb

Update model prediction example image

Browse files
.gitattributes CHANGED
@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
  eurosat_training_examples.png filter=lfs diff=lfs merge=lfs -text
 
 
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
  eurosat_training_examples.png filter=lfs diff=lfs merge=lfs -text
37
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md CHANGED
@@ -32,51 +32,51 @@ processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
32
  ## Classes
33
  AnnualCrop, Forest, HerbaceousVegetation, Highway, Industrial, Pasture, PermanentCrop, Residential, River, SeaLake
34
 
35
- ## GeoQwen-VL-2B-EuroSAT: A Transformative Story for Remote Sensing
36
 
37
- #### Introduction
38
- Remote sensing and satellite imagery play a critical role in understanding and monitoring changes on our planet. Extracting meaningful information from this vast and complex dataset can be challenging and time-consuming with traditional methods. This is where vision-language models (VLMs), which combine natural language processing and computer vision, come into play. This project describes the development process of GeoQwen-VL-2B-EuroSAT, a VLM designed to classify and interpret satellite images using natural language.
39
 
40
- #### Motivation
41
- In the field of geospatial intelligence, the need for systems that can automatically extract information from satellite images is growing. Accurate and rapid analysis in areas such as land cover classification, environmental monitoring, urban planning, and disaster management is vital. The primary motivation of this project was to develop a powerful VLM capable of processing large-scale satellite data, understanding complex visual information, and generating human-like descriptions. By adapting a state-of-the-art model like Qwen2-VL to the field of satellite imagery, these goals were aimed to be achieved.
42
 
43
- #### Technical Approach
44
- The project primarily involved fine-tuning the Qwen2-VL-2B-Instruct model using the Low-Rank Adaptation (LoRA) technique on the EuroSAT RGB dataset. This chosen technique allows for efficient training of large models even in resource-constrained environments (e.g., T4 GPU) like Colab. 4-bit quantization significantly reduced the model's memory footprint, enhancing its ability to work with larger models. The EuroSAT dataset consists of Sentinel-2 satellite images representing 10 different land cover classes in Europe. The model learned to recognize and describe land cover types in these images by using natural language instructions in a question-answering format.
45
 
46
- #### Challenges and Solutions
47
- 1. **Hardware Constraints:** Fine-tuning the large Qwen2-VL model was particularly challenging due to memory limitations. This problem was solved by using 4-bit quantization and the `bitsandbytes` library, allowing the model to fit within the 16GB memory of a T4 GPU.
48
- 2. **Training Duration:** The model's size and the scope of the dataset required long training times. The efficiency of LoRA and the use of strategies like `gradient_accumulation_steps` helped optimize the training process.
49
- 3. **Data Preparation:** Converting labels and class definitions in the EuroSAT dataset into natural language instructions was critical for the model's better understanding. The `VLMDataCollator` class automated this conversion, simplifying the training process.
50
- 4. **Hugging Face Integration:** The seamless upload and version control of the model and processor to the Hugging Face Hub were ensured using the `huggingface_hub` library, providing shareability and reproducibility of the model.
51
- 5. **Post-Fine-tuning Inference Errors:** The `truncation=True` and `max_length=512` parameters used in `VLMDataCollator` during training were missing in the `processor` call during inference. This led to an `IndexError` due to inconsistent `input_ids` and `attention_mask` dimensions. The solution involved re-adding these parameters to the inference `processor` call to ensure consistency.
52
 
53
- #### Results and Achievements
54
- The greatest achievement of this project is the successful fine-tuning of a complex VLM like Qwen2-VL-2B-Instruct on the EuroSAT dataset with limited resources, thanks to LoRA and 4-bit quantization techniques. The developed **GeoQwen-VL-2B-EuroSAT** model:
55
- * Can accurately classify land cover types in satellite images.
56
- * Can convert visual data into meaningful natural language descriptions.
57
- * Has gained visual question-answering (Visual QA) capabilities on geospatial data.
58
 
59
- This is an important step towards developing more accessible and powerful VLMs in the field of remote sensing.
60
 
61
- #### Future Work and Use Cases
62
- The potential application areas of the **GeoQwen-VL-2B-EuroSAT** model are extensive:
63
- * **Environmental Monitoring:** Tracking changes in forested areas, status of water bodies, or agricultural lands.
64
- * **Urban Planning:** Analyzing urban expansion, identification of industrial zones, and infrastructure development.
65
- * **Disaster Management:** Damage assessment and situation evaluation after disasters such as floods, earthquakes, or fires.
66
- * **Agriculture:** Crop type detection, yield prediction, and plant health monitoring.
67
 
68
- Future work includes training the model on broader and more diverse remote sensing datasets (RESISC45, AID, BigEarthNet), experimenting with larger models like Qwen2.5-VL-7B, and adding more advanced capabilities such as change detection. Additionally, there are plans to create a Gradio demo space to increase the model's accessibility.
69
 
70
- This project establishes an important bridge in creating value from remote sensing data and opens new horizons in the field of geospatial intelligence.
71
 
72
- ## Visual Examples
73
 
74
- ### EuroSAT Training Data Examples
75
- Below are example images from the EuroSAT dataset, showcasing different land cover classes that the model was trained on. These visuals represent the various scenarios the model needs to recognize.
76
 
77
  ![EuroSAT Training Examples](./eurosat_training_examples.png)
78
 
79
- ### Model Prediction Output Example
80
- This visual directly compares the **GeoQwen-VL-2B-EuroSAT** model's generated description for a satellite image against its ground truth label. It vividly illustrates the model's capability to interpret complex geospatial visuals and provide concise, accurate natural language explanations, showcasing its potential for automated scene understanding.
81
 
82
  ![Model Prediction Example](./model_prediction_example.png)
 
32
  ## Classes
33
  AnnualCrop, Forest, HerbaceousVegetation, Highway, Industrial, Pasture, PermanentCrop, Residential, River, SeaLake
34
 
35
+ ## GeoQwen-VL-2B-EuroSAT: Uzaktan Algılama İçin Bir Dönüşüm Hikayesi
36
 
37
+ #### Giriş
38
+ Uzaktan algılama ve uydu görüntüleri, gezegenimizdeki değişimleri anlama ve izleme konusunda kritik bir rol oynamaktadır. Bu geniş ve karmaşık veri setinden anlamlı bilgiler çıkarmak, geleneksel yöntemlerle zorlu ve zaman alıcı olabilmektedir. İşte bu noktada, doğal dil işleme ve bilgisayar görüşünü bir araya getiren görme-dil modelleri (VLM'ler) devreye girer. Bu proje, uydu görüntülerini sınıflandırmak ve doğal dil ile yorumlamak için tasarlanmış, **GeoQwen-VL-2B-EuroSAT** adlı bir VLM'nin geliştirilmesi sürecini anlatmaktadır.
39
 
40
+ #### Motivasyon
41
+ Coğrafi uzamsal zeka alanında, uydu görüntülerinden otomatik olarak bilgi çıkarabilen sistemlere olan ihtiyaç giderek artmaktadır. Özellikle arazi örtüsü sınıflandırması, çevre izleme, kentsel planlama ve afet yönetimi gibi alanlarda hızlı ve doğru analizler hayati önem taşır. Bu projenin temel motivasyonu, geniş ölçekli uydu verilerini işleyebilecek, karmaşık görsel bilgiyi anlayabilecek ve insan benzeri açıklamalar üretebilecek güçlü bir VLM geliştirmektir. Qwen2-VL gibi son teknoloji bir modelin uydu görüntüleri alanına adapte edilmesiyle, bu hedeflere ulaşılması amaçlanmıştır.
42
 
43
+ #### Teknik Yaklaşım
44
+ Proje, temel olarak Qwen2-VL-2B-Instruct modelinin **LoRA (Low-Rank Adaptation)** tekniği kullanılarak EuroSAT RGB veri seti üzerinde ince ayarını içeriyordu. Seçilen bu teknik, kısıtlı donanım kaynaklarına sahip (örneğin T4 GPU) Colab ortamlarında bile büyük modellerin verimli bir şekilde eğitilmesine olanak tanır. 4-bit nicemleme (quantization), modelin bellek ayak izini önemli ölçüde azaltarak daha büyük modellerle çalışma yeteneğini artırdı. EuroSAT veri seti, Avrupa'daki 10 farklı arazi örtüsü sınıfını temsil eden Sentinel-2 uydu görüntülerinden oluşmaktadır. Model, bu görüntülerle birlikte soru-cevap formatındaki doğal dil talimatlarını kullanarak, görüntülerdeki arazi örtüsü tiplerini tanımayı ve açıklamayı öğrenmiştir.
45
 
46
+ #### Zorluklar ve Çözümler
47
+ 1. **Donanım Kısıtlamaları:** Büyük Qwen2-VL modelinin ince ayarı, özellikle bellek açısından zorlayıcıydı. Bu sorun, 4-bit nicemleme ve `bitsandbytes` kütüphanesinin kullanımıyla çözüldü. Bu sayede model, T4 GPU'nun 16GB belleğine sığdırılabildi.
48
+ 2. **Eğitim Süresi:** Modelin boyutu ve veri setinin kapsamı, uzun eğitim süreleri gerektirmekteydi. LoRA'nın verimliliği ve `gradient_accumulation_steps` gibi stratejilerin kullanımı, eğitim sürecini optimize etmeye yardımcı oldu.
49
+ 3. **Veri Hazırlığı:** EuroSAT veri setindeki etiketlerin ve sınıf tanımlarının doğal dil talimatlarına dönüştürülmesi, modelin daha iyi anlaması için kritikti. `VLMDataCollator` sınıfı, bu dönüşümü otomatikleştirerek eğitim sürecini kolaylaştırdı.
50
+ 4. **Hugging Face Entegrasyonu:** Modelin ve işlemcinin Hugging Face Hub'a sorunsuz bir şekilde yüklenmesi ve sürüm kontrolü için `huggingface_hub` kütüphanesi kullanılarak, modelin paylaşılabilirliėi ve yeniden üretilebilirliėi sağlandı.
51
+ 5. **İnce Ayar Sonrası Inference Hataları:** Eğitim sırasında kullanılan `VLMDataCollator`'ın `truncation=True` ve `max_length=512` parametreleri, inference sırasında `processor` çağrısında eksikti. Bu durum, `input_ids` ve `attention_mask` boyutlarında uyumsuzluĞa yol açarak `IndexError` hatasına neden oldu. Çözüm olarak, inference `processor` çağrısına bu parametreler geri eklenerek tutarlılık sağlandı.
52
 
53
+ #### Sonuçlar ve Başarılar
54
+ Bu projenin en büyük başarısi, LoRA ve 4-bit nicemleme teknikleri sayesinde kısıtlı kaynaklarla Qwen2-VL-2B-Instruct gibi karmaşık bir VLM'nin EuroSAT veri seti üzerinde başarıli bir şekilde ince ayarını tamamlamaktır. Geliştirilen **GeoQwen-VL-2B-EuroSAT** modeli:
55
+ * Uydu görüntülerindeki arazi örtüsü tiplerini doğru bir şekilde sınıflandırabilmektedir.
56
+ * Görsel verileri anlamlı doğal dil açıklamalarına dönüşterebilmektedir.
57
+ * Coğrafi uzamsal veriler üzerinde görsel soru-cevap (Visual QA) yeteneği kazanmıştır.
58
 
59
+ Bu, uzaktan algılama alanında daha erişilebilir ve güçlü VLM'lerin geliştiilmesi için önemli bir adımdır.
60
 
61
+ #### Gelecek Çalışmalar ve Kullanım Alanları
62
+ **GeoQwen-VL-2B-EuroSAT** modelinin potansiyel kullanım alanları oldukça geniştir:
63
+ * **Çevre İzleme:** Ormanlık alanlardaki değişimlerin, su kütlelerinin durumunun veya tarım alanlarının izlenmesi.
64
+ * **Kentsel Planlama:** Şehirlerin genişelemesi, sanayi bölgelerinin tespiti ve altyapı gelişiminin analizi.
65
+ * **Afet Yönetimi:** Sel, deprem veya yangın gibi afetler sonrası hasar tespiti ve durum değerlendirmesi.
66
+ * **Tarım:** Mahsul türü tespiti, verim tahmini ve bitki sağlığı izleme.
67
 
68
+ Gelecekteki çalışmalar arasında, modelin daha geniş ve çeşitli uzaktan algılama veri setleri (RESISC45, AID, BigEarthNet) üzerinde eğitilmesi, daha büyük Qwen2.5-VL-7B gibi modellerin denenmesi ve değişiklik tespiti gibi daha gelişmiş yeteneklerin eklenmesi yer almaktadır. Ayrıca, modelin erişilebilirliğini artırmak için bir Gradio demo alanı oluşturulması planlanmaktadır.
69
 
70
+ Bu proje, uzaktan algılama verilerinden değer yaratma yolunda önemli bir köprü kurmakta ve coğrafi uzamsal zeka alanında yeni ufuklar açmaktadır.
71
 
72
+ ## Görsel Örnekler
73
 
74
+ ### EuroSAT Eğitim Verisi Örnekleri
75
+ Aşagıda, modelin üzerinde eğittidi EuroSAT veri setinden farklı arazi örtüsü sınıflarını gösteren örnek görüntüler yer almaktadır. Bu görseller, modelin tanıması gereken çeşittili senaryoları temsil etmektedir.
76
 
77
  ![EuroSAT Training Examples](./eurosat_training_examples.png)
78
 
79
+ ### Model Tahmin Çıktısı Örneğii
80
+ Bu görsel, eğitilmiş modelin bir uydu görüntüsü için ürettiği tahmin çıktısını ve gerçek etiketini karşılaştırrmaktadır. Modelin görsel içerikten anlamlı açıklamalar üretme yeteneğini göstermektedir.
81
 
82
  ![Model Prediction Example](./model_prediction_example.png)
adapter_config.json ADDED
@@ -0,0 +1,46 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "alora_invocation_tokens": null,
3
+ "alpha_pattern": {},
4
+ "arrow_config": null,
5
+ "auto_mapping": null,
6
+ "base_model_name_or_path": "Qwen/Qwen2-VL-2B-Instruct",
7
+ "bias": "none",
8
+ "corda_config": null,
9
+ "ensure_weight_tying": false,
10
+ "eva_config": null,
11
+ "exclude_modules": null,
12
+ "fan_in_fan_out": false,
13
+ "inference_mode": true,
14
+ "init_lora_weights": true,
15
+ "layer_replication": null,
16
+ "layers_pattern": null,
17
+ "layers_to_transform": null,
18
+ "loftq_config": {},
19
+ "lora_alpha": 32,
20
+ "lora_bias": false,
21
+ "lora_dropout": 0.05,
22
+ "megatron_config": null,
23
+ "megatron_core": "megatron.core",
24
+ "modules_to_save": null,
25
+ "peft_type": "LORA",
26
+ "peft_version": "0.18.0",
27
+ "qalora_group_size": 16,
28
+ "r": 16,
29
+ "rank_pattern": {},
30
+ "revision": null,
31
+ "target_modules": [
32
+ "down_proj",
33
+ "o_proj",
34
+ "gate_proj",
35
+ "k_proj",
36
+ "q_proj",
37
+ "up_proj",
38
+ "v_proj"
39
+ ],
40
+ "target_parameters": null,
41
+ "task_type": "CAUSAL_LM",
42
+ "trainable_token_indices": null,
43
+ "use_dora": false,
44
+ "use_qalora": false,
45
+ "use_rslora": false
46
+ }
adapter_model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:60d95b10b6e140a9626a7058d5038528f2ff80148dc4569b881db56052046509
3
+ size 40
added_tokens.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "<|box_end|>": 151649,
3
+ "<|box_start|>": 151648,
4
+ "<|endoftext|>": 151643,
5
+ "<|im_end|>": 151645,
6
+ "<|im_start|>": 151644,
7
+ "<|image_pad|>": 151655,
8
+ "<|object_ref_end|>": 151647,
9
+ "<|object_ref_start|>": 151646,
10
+ "<|quad_end|>": 151651,
11
+ "<|quad_start|>": 151650,
12
+ "<|video_pad|>": 151656,
13
+ "<|vision_end|>": 151653,
14
+ "<|vision_pad|>": 151654,
15
+ "<|vision_start|>": 151652
16
+ }
chat_template.jinja ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system
2
+ You are a helpful assistant.<|im_end|>
3
+ {% endif %}<|im_start|>{{ message['role'] }}
4
+ {% if message['content'] is string %}{{ message['content'] }}<|im_end|>
5
+ {% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>
6
+ {% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant
7
+ {% endif %}
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
model_prediction_example.png CHANGED
preprocessor_config.json ADDED
@@ -0,0 +1,39 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "crop_size": null,
3
+ "data_format": "channels_first",
4
+ "default_to_square": true,
5
+ "device": null,
6
+ "disable_grouping": null,
7
+ "do_center_crop": null,
8
+ "do_convert_rgb": true,
9
+ "do_normalize": true,
10
+ "do_pad": null,
11
+ "do_rescale": true,
12
+ "do_resize": true,
13
+ "image_mean": [
14
+ 0.48145466,
15
+ 0.4578275,
16
+ 0.40821073
17
+ ],
18
+ "image_processor_type": "Qwen2VLImageProcessorFast",
19
+ "image_std": [
20
+ 0.26862954,
21
+ 0.26130258,
22
+ 0.27577711
23
+ ],
24
+ "input_data_format": null,
25
+ "max_pixels": 12845056,
26
+ "merge_size": 2,
27
+ "min_pixels": 3136,
28
+ "pad_size": null,
29
+ "patch_size": 14,
30
+ "processor_class": "Qwen2VLProcessor",
31
+ "resample": 3,
32
+ "rescale_factor": 0.00392156862745098,
33
+ "return_tensors": null,
34
+ "size": {
35
+ "longest_edge": 12845056,
36
+ "shortest_edge": 3136
37
+ },
38
+ "temporal_patch_size": 2
39
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,31 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<|im_start|>",
4
+ "<|im_end|>",
5
+ "<|object_ref_start|>",
6
+ "<|object_ref_end|>",
7
+ "<|box_start|>",
8
+ "<|box_end|>",
9
+ "<|quad_start|>",
10
+ "<|quad_end|>",
11
+ "<|vision_start|>",
12
+ "<|vision_end|>",
13
+ "<|vision_pad|>",
14
+ "<|image_pad|>",
15
+ "<|video_pad|>"
16
+ ],
17
+ "eos_token": {
18
+ "content": "<|im_end|>",
19
+ "lstrip": false,
20
+ "normalized": false,
21
+ "rstrip": false,
22
+ "single_word": false
23
+ },
24
+ "pad_token": {
25
+ "content": "<|endoftext|>",
26
+ "lstrip": false,
27
+ "normalized": false,
28
+ "rstrip": false,
29
+ "single_word": false
30
+ }
31
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d5827cafdfa8db5f6caa25d0867fe6cb20c100b1eabc18bdfca4f905e17e30c0
3
+ size 11420636
tokenizer_config.json ADDED
@@ -0,0 +1,144 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "151643": {
5
+ "content": "<|endoftext|>",
6
+ "lstrip": false,
7
+ "normalized": false,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "151644": {
13
+ "content": "<|im_start|>",
14
+ "lstrip": false,
15
+ "normalized": false,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "151645": {
21
+ "content": "<|im_end|>",
22
+ "lstrip": false,
23
+ "normalized": false,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "151646": {
29
+ "content": "<|object_ref_start|>",
30
+ "lstrip": false,
31
+ "normalized": false,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "151647": {
37
+ "content": "<|object_ref_end|>",
38
+ "lstrip": false,
39
+ "normalized": false,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ },
44
+ "151648": {
45
+ "content": "<|box_start|>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false,
50
+ "special": true
51
+ },
52
+ "151649": {
53
+ "content": "<|box_end|>",
54
+ "lstrip": false,
55
+ "normalized": false,
56
+ "rstrip": false,
57
+ "single_word": false,
58
+ "special": true
59
+ },
60
+ "151650": {
61
+ "content": "<|quad_start|>",
62
+ "lstrip": false,
63
+ "normalized": false,
64
+ "rstrip": false,
65
+ "single_word": false,
66
+ "special": true
67
+ },
68
+ "151651": {
69
+ "content": "<|quad_end|>",
70
+ "lstrip": false,
71
+ "normalized": false,
72
+ "rstrip": false,
73
+ "single_word": false,
74
+ "special": true
75
+ },
76
+ "151652": {
77
+ "content": "<|vision_start|>",
78
+ "lstrip": false,
79
+ "normalized": false,
80
+ "rstrip": false,
81
+ "single_word": false,
82
+ "special": true
83
+ },
84
+ "151653": {
85
+ "content": "<|vision_end|>",
86
+ "lstrip": false,
87
+ "normalized": false,
88
+ "rstrip": false,
89
+ "single_word": false,
90
+ "special": true
91
+ },
92
+ "151654": {
93
+ "content": "<|vision_pad|>",
94
+ "lstrip": false,
95
+ "normalized": false,
96
+ "rstrip": false,
97
+ "single_word": false,
98
+ "special": true
99
+ },
100
+ "151655": {
101
+ "content": "<|image_pad|>",
102
+ "lstrip": false,
103
+ "normalized": false,
104
+ "rstrip": false,
105
+ "single_word": false,
106
+ "special": true
107
+ },
108
+ "151656": {
109
+ "content": "<|video_pad|>",
110
+ "lstrip": false,
111
+ "normalized": false,
112
+ "rstrip": false,
113
+ "single_word": false,
114
+ "special": true
115
+ }
116
+ },
117
+ "additional_special_tokens": [
118
+ "<|im_start|>",
119
+ "<|im_end|>",
120
+ "<|object_ref_start|>",
121
+ "<|object_ref_end|>",
122
+ "<|box_start|>",
123
+ "<|box_end|>",
124
+ "<|quad_start|>",
125
+ "<|quad_end|>",
126
+ "<|vision_start|>",
127
+ "<|vision_end|>",
128
+ "<|vision_pad|>",
129
+ "<|image_pad|>",
130
+ "<|video_pad|>"
131
+ ],
132
+ "bos_token": null,
133
+ "clean_up_tokenization_spaces": false,
134
+ "eos_token": "<|im_end|>",
135
+ "errors": "replace",
136
+ "extra_special_tokens": {},
137
+ "model_max_length": 32768,
138
+ "pad_token": "<|endoftext|>",
139
+ "padding_side": "left",
140
+ "processor_class": "Qwen2VLProcessor",
141
+ "split_special_tokens": false,
142
+ "tokenizer_class": "Qwen2Tokenizer",
143
+ "unk_token": null
144
+ }
video_preprocessor_config.json ADDED
@@ -0,0 +1,43 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "crop_size": null,
3
+ "data_format": "channels_first",
4
+ "default_to_square": true,
5
+ "device": null,
6
+ "do_center_crop": null,
7
+ "do_convert_rgb": true,
8
+ "do_normalize": true,
9
+ "do_rescale": true,
10
+ "do_resize": true,
11
+ "do_sample_frames": false,
12
+ "fps": null,
13
+ "image_mean": [
14
+ 0.48145466,
15
+ 0.4578275,
16
+ 0.40821073
17
+ ],
18
+ "image_std": [
19
+ 0.26862954,
20
+ 0.26130258,
21
+ 0.27577711
22
+ ],
23
+ "input_data_format": null,
24
+ "max_frames": 768,
25
+ "max_pixels": 12845056,
26
+ "merge_size": 2,
27
+ "min_frames": 4,
28
+ "min_pixels": 3136,
29
+ "num_frames": null,
30
+ "pad_size": null,
31
+ "patch_size": 14,
32
+ "processor_class": "Qwen2VLProcessor",
33
+ "resample": 3,
34
+ "rescale_factor": 0.00392156862745098,
35
+ "return_metadata": false,
36
+ "size": {
37
+ "longest_edge": 12845056,
38
+ "shortest_edge": 3136
39
+ },
40
+ "temporal_patch_size": 2,
41
+ "video_metadata": null,
42
+ "video_processor_type": "Qwen2VLVideoProcessor"
43
+ }
vocab.json ADDED
The diff for this file is too large to render. See raw diff