buildborderless
/

CommunityForensics-DeepfakeDet-ViT

@@ -14,18 +14,13 @@ tags:
 base_model:
 - timm/vit_small_patch16_384.augreg_in21k_ft_in1k
 library_name: transformers
-widget:
-- src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
-  example_title: Tiger
-- src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
-  example_title: Teapot
 ---
 # Trained on 2.7M samples across 4,803 generators (see Training Data)
-**Uploaded for community validation as part of OpenSight** - An upcoming open-source framework for adaptive deepfake detection, inspired by methodologies in <source_id data="2411.04125v1.pdf" />.
-**Huggingface Spaces coming soon.** Preview:
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/639daf827270667011153fbc/AUmW697OefKN83BClM1ae.png)
@@ -37,55 +32,14 @@ Vision Transformer (ViT) model trained on the largest dataset to-date for detect
 - **Model type:** Vision Transformer (ViT-Small)
 - **License:** MIT (compatible with CreativeML OpenRAIL-M referenced in [2411.04125v1.pdf])
 - **Finetuned from:** timm/vit_small_patch16_384.augreg_in21k_ft_in1k
-### Model Sources
 - **Repository:** [JeongsooP/Community-Forensics](https://github.com/JeongsooP/Community-Forensics)
 - **Paper:** [arXiv:2411.04125](https://arxiv.org/pdf/2411.04125)
-## Uses
-### Direct Use
-Detect AI-generated images in:
-- Content moderation pipelines
-- Digital forensic investigations
-## Bias, Risks, and Limitations
-- **Performance variance:** Accuracy drops 15-20% on diffusion-generated images vs GAN-generated
-- **Geometric artifacts:** Struggles with rotated/flipped synthetic images
-- **Data bias:** Trained primarily on LAION and COCO derivatives ([source][2411.04125v1.pdf])
-- **ADDED BY UPLOADER**: Model is already out of date, fails to detect images on newer generation models.
-## Compatibility Notice
-This repository contains a **Hugging Face transformers-compatible convert** for the original detection methodology from:
-**Original Work**
-"Community Forensics: Using Thousands of Generators to Train Fake Image Detectors"
-[arXiv:2411.04125](https://arxiv.org/abs/2411.04125v1) {{Citation from <source_id>2411.04125v1.pdf}}
-**Our Contributions**  (Coming soon)
-⎯ Conversion of original weights to HF format
-⎯ Added PyTorch inference pipeline
-⎯ Standardized model card documentation
-**No Training Performed**
-⎯ Initial model weights sourced from paper authors
-⎯ No architectural changes or fine-tuning applied
-**Verify Original Performance**
-Please refer to Table 3 in <source_id data="2411.04125v1.pdf" /> for baseline metrics.
-## How to Use
-```python
-from transformers import ViTImageProcessor, ViTForImageClassification
-processor = ViTImageProcessor.from_pretrained("[your_model_id]")
-model = ViTForImageClassification.from_pretrained("[your_model_id]")
-inputs = processor(images=image, return_tensors="pt")
-outputs = model(**inputs)
-predicted_class = outputs.logits.argmax(-1)
-```
 ## Training Details
 ### Training Data
 - 2.7mil images from 15+ generators, 4600+ models
@@ -99,8 +53,8 @@ predicted_class = outputs.logits.argmax(-1)
 - **Batch Size:** 32
 ## Evaluation
-### Testing Data
-- 10k held-out images (5k real/5k synthetic) from unseen Diffusion/GAN models
 | Metric        | Value |
 |---------------|-------|
@@ -111,6 +65,10 @@ predicted_class = outputs.logits.argmax(-1)
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/639daf827270667011153fbc/g-dLzxLBw1RAuiplvFCxh.png)
 ## Citation
 **BibTeX:**
 ```bibtex
@@ -123,8 +81,4 @@ predicted_class = outputs.logits.argmax(-1)
     primaryClass={cs.CV},
     url={https://arxiv.org/abs/2411.04125},
 }
-```
-**Model Card Authors:**
-Jeongsoo Park, Andrew Owens

 base_model:
 - timm/vit_small_patch16_384.augreg_in21k_ft_in1k
 library_name: transformers
 ---
 # Trained on 2.7M samples across 4,803 generators (see Training Data)
+**Uploaded for community validation as part of OpenSight** - An upcoming open-source framework for adaptive deepfake detection.
+**Project OpenSight HF Spaces coming soon with an eval playground and eventually a leaderboard. Preview:**
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/639daf827270667011153fbc/AUmW697OefKN83BClM1ae.png)
 - **Model type:** Vision Transformer (ViT-Small)
 - **License:** MIT (compatible with CreativeML OpenRAIL-M referenced in [2411.04125v1.pdf])
 - **Finetuned from:** timm/vit_small_patch16_384.augreg_in21k_ft_in1k
+- **Adapted for HF** inference compatibility by AI Without Borders.
+**HF Space will be open sourced shortly showcasing various ways to run ultra-fast inference. Make sure to follow us for updates, as we will be releasing a slew of projects in the coming weeks.**
+### Links
 - **Repository:** [JeongsooP/Community-Forensics](https://github.com/JeongsooP/Community-Forensics)
 - **Paper:** [arXiv:2411.04125](https://arxiv.org/pdf/2411.04125)
 ## Training Details
 ### Training Data
 - 2.7mil images from 15+ generators, 4600+ models
 - **Batch Size:** 32
 ## Evaluation
+### Unverified Testing Results
+- Only unverified because we currently lack resources to evaluate a dataset over 1.4T large.
 | Metric        | Value |
 |---------------|-------|
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/639daf827270667011153fbc/g-dLzxLBw1RAuiplvFCxh.png)
+## Re-sampled and refined dataset
+- **Coming soon™**
 ## Citation
 **BibTeX:**
 ```bibtex
     primaryClass={cs.CV},
     url={https://arxiv.org/abs/2411.04125},
 }
+```