Spaces:
Running
Running
Update README.md
Browse files
README.md
CHANGED
|
@@ -10,62 +10,32 @@ pinned: false
|
|
| 10 |
license: apache-2.0
|
| 11 |
short_description: One embed. Four invisible layers. 34 attacks defeated.
|
| 12 |
---
|
|
|
|
| 13 |
|
| 14 |
-
|
| 15 |
|
|
|
|
| 16 |
|
| 17 |
-
|
| 18 |
|
| 19 |
-
|
| 20 |
|
| 21 |
-
|
| 22 |
|
| 23 |
-
|
| 24 |
|
|
|
|
| 25 |
|
| 26 |
-
|
| 27 |
|
| 28 |
-
|
| 29 |
|
| 30 |
-
|
| 31 |
|
| 32 |
-
|
| 33 |
|
|
|
|
| 34 |
|
| 35 |
-
|
| 36 |
|
| 37 |
-
|
| 38 |
-
|
| 39 |
-
b. 하나, 텍스트·이미지·영상에 눈에 안 보이는 워터마크를 여러 겹으로 심습니다. "여러 겹"이 핵심인데, 서로 완전히 다른 원리로 동작하기 때문에 한 겹을 지워도 다른 겹이 살아남습니다. 챗GPT한테 요약시켜도, 패러프레이징해도, 문체를 바꿔도, 정규화를 해도 어딘가에 흔적이 남아 있어요. "이건 원래 내 콘텐츠"라는 기술적 증거를 심어두는 겁니다.
|
| 40 |
-
|
| 41 |
-
c. 둘, 워터마크를 못 심은 콘텐츠도 잡습니다. 원본만 있으면 됩니다. 의심되는 콘텐츠와 비교해서 얼마나 베꼈는지, 어떤 방식으로 도용했는지를 7가지 방법으로 분석해줍니다. 이미지와 영상도 마찬가지예요.
|
| 42 |
-
|
| 43 |
-
d. 심어뒀으면 증거를 들이밀고. 못 심었어도 원본 대조로 잡아낸다. 사전이든 사후든 빈틈 없이.
|
| 44 |
-
|
| 45 |
-
|
| 46 |
-
IV. 진짜 챗GPT한테 넣어봤습니다 — 30가지 공격 + 9개 AI 모델 테스트
|
| 47 |
-
|
| 48 |
-
a. "AI 통과해도 남는다"는 말, 입으로만 하면 의미 없죠. StealthMark 안에 30종 공격 시뮬레이션이 들어있습니다. 워터마크를 심고, 그 자리에서 바로 부숴보는 겁니다. 정규화, 포맷 제거, 문자 조작, 구두점 변경, AI 패러프레이징, 요약, 역번역, 문장 셔플, 짜깁기까지 실전에서 벌어지는 공격 총집합입니다.
|
| 49 |
-
|
| 50 |
-
b. 더 재밌는 건, 워터마크가 완전히 사라져도 게임 오버가 아니라는 점입니다. 원문과의 구조적 유사 흔적을 따로 추적하기 때문에 "워터마크는 깼는데 도용 흔적은 못 지웠네?"라는 판정이 나옵니다.
|
| 51 |
-
|
| 52 |
-
c. 그리고 GPT-OSS, Qwen, LLaMA, Kimi 등 9개 AI 모델에 워터마크 텍스트를 직접 먹여서 생존 여부를 실시간 확인하는 LLM 통과 테스트도 있습니다. AI로 지우려는 쪽 vs AI를 거쳐도 남기려는 쪽. 어느 쪽이 이기는지 직접 확인해보세요.
|
| 53 |
-
|
| 54 |
-
|
| 55 |
-
V. 글, 사진, 영상 — 내가 만든 건 다 지킨다
|
| 56 |
-
|
| 57 |
-
a. 블로거, 사진작가, 유튜버, 기업 마케터. 만드는 방식은 다 다른데, 도용당하면 느끼는 감정은 똑같습니다. StealthMark는 텍스트, 이미지, 영상 세 가지를 한 곳에서 보호합니다. 워터마크 삽입, 추출, 원본 대조를 미디어별로 지원하고, 텍스트는 30종 공격 + LLM 테스트 + 7가지 표절 탐지까지 풀세트입니다.
|
| 58 |
-
|
| 59 |
-
|
| 60 |
-
VI. 지금 바로, 무료로
|
| 61 |
-
|
| 62 |
-
a. Hugging Face Spaces에 공개되어 있습니다. 설치도 가입도 필요 없어요.
|
| 63 |
-
|
| 64 |
-
b. 내 글 하나 넣어보세요. 워터마크를 심고, 30가지 공격을 돌리고, AI 모델에 통과시켜보세요. "이게 진짜 남아있네?" 하는 순간이 올 겁니다.
|
| 65 |
-
|
| 66 |
-
c. 챗GPT가 내 콘텐츠를 학습해도, 누군가 내 글을 AI로 바꿔 써도, 증거는 남깁니다.
|
| 67 |
-
|
| 68 |
-
|
| 69 |
-
https://huggingface.co/spaces/VIDraft/StealthMark
|
| 70 |
-
|
| 71 |
-
피드백 환영합니다.
|
|
|
|
| 10 |
license: apache-2.0
|
| 11 |
short_description: One embed. Four invisible layers. 34 attacks defeated.
|
| 12 |
---
|
| 13 |
+
# AI Is Training on Your Content Without Permission — Fight Back with Invisible Watermarks
|
| 14 |
|
| 15 |
+
## The Problem: No Way to Prove It
|
| 16 |
|
| 17 |
+
Most training data for generative AI models is crawled from the web without consent. Your writing gets summarized, your photos get reprocessed, your videos get clipped — and you have almost no way to prove you are the original creator. Existing watermarks are either visible to the naked eye or wiped out by a single pass through AI preprocessing pipelines (Unicode normalization, tokenization, text cleaning).
|
| 18 |
|
| 19 |
+
## The Solution: Detect Before Embedding, Track After
|
| 20 |
|
| 21 |
+
StealthMark protects content in two stages.
|
| 22 |
|
| 23 |
+
**Pre-embed** — Detect theft even without a watermark. Text plagiarism detection, multi-algorithm image similarity analysis (perceptual hash, SSIM, color histogram, feature matching), and video temporal matching identify copies, edits, and partial excerpts.
|
| 24 |
|
| 25 |
+
**Post-embed** — Embed multi-layer invisible watermarks that are completely undetectable to the human eye. If one layer is destroyed, the others survive independently. Even if all layers are removed, the forensic traces of the removal attempt itself remain as evidence.
|
| 26 |
|
| 27 |
+
## Text: 4 Independent Watermark Layers
|
| 28 |
|
| 29 |
+
Four different mechanisms operate simultaneously. Zero-width Unicode characters inserted at Korean morpheme / English word boundaries. Style fingerprinting through deterministic synonym, ending, and connective substitution patterns. SHA-256 timestamped evidence packages for legal disputes. And micro-marks anchored to punctuation using a separate Unicode category. Because each layer targets a different Unicode category, an attack aimed at one cannot eliminate the others. Full bilingual Korean/English support with zero impact on readability or content quality.
|
| 30 |
|
| 31 |
+
## 34-Attack Defense: Dual-Axis Verdict
|
| 32 |
|
| 33 |
+
Seven categories, 34 attack types simulated end-to-end: Unicode normalization, invisible character removal, homoglyph substitution (9,619 confusables DB), and AI meaning-preserving rewriting (paraphrase, summary, back-translation, style shift). Each attack is scored on two axes — Signal (did the watermark survive?) and Trace (are forensic traces of the attack detectable?) — so even when a watermark is fully destroyed, the deliberate removal attempt can still be proven.
|
| 34 |
|
| 35 |
+
## Image and Video
|
| 36 |
|
| 37 |
+
Images receive DCT frequency-domain invisible watermarks that survive JPEG compression and resizing. Videos are protected by embedding watermarks into keyframes and propagating them temporally across all frames, with majority-vote extraction for reliable recovery even after frame loss. Both media types also support pre-embed similarity analysis for detecting existing theft.
|
| 38 |
|
| 39 |
+
## Who Is This For
|
| 40 |
|
| 41 |
+
Individual creators, rights holders who need legal evidence against unauthorized AI training, media companies securing proof of origin before distribution, and organizations tracking internal document leaks. Full Korean/English bilingual support, open source, built with Gradio.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|