akineAItech commited on
Commit
98c3b75
·
verified ·
1 Parent(s): 559084a

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +127 -3
README.md CHANGED
@@ -1,3 +1,127 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ## Reverseformer: Generating Simplicity, Forgetting Complexity
2
+
3
+ **Reverseformer** は、現代の巨大言語モデル(LLM)とは対極の設計思想に基づいた、革新的な **情報縮減・忘却促進モデル** です。LLMが情報を生成・拡張・関連付けすることを目指すのに対し、Reverseformerは入力された情報の **意味論的エントロピーを増大** させ、 **文脈的繋がりを希薄化** することを目的としています。
4
+
5
+ **主な特徴:**
6
+
7
+ 1. **超軽量パラメータ:** 約 **512** パラメータで構成。メモリフットプリントは数キロバイト程度。
8
+ 2. **オブリビオンアテンション (Oblivion Attention):** 通常のアテンション機構がトークン間の関連性を学習するのに対し、入力トークン間の **意味的距離を最大化** し、関連性を積極的に「忘れる」ように動作します。
9
+ 3. **レトロデクティブデコーダ (Retrodictive Decoder):** 次のトークンを予測するのではなく、与えられたトークン列から **最も文脈的に無関係** であったであろう **前のトークン** を確率的に「復元」しようと試みます。
10
+ 4. **アナログ・コグニティブ・コア (ACC):** モデルの中核部分には、量子効果ではなく **古典的ブラウン運動** を利用した専用アナログ回路(別売・試作品)が必要。これにより、予測不可能な「ゆらぎ」と自然な忘却プロセスをシミュレートします。
11
+ 5. **訓練データ非依存性 (部分的に):** 大規模な事前学習は行わず、主に **意味論的縮退ルール** と少量の **「誤解例」データセット** (Misunderstanding Examples Dataset - MED) でファインチューニングされます。
12
+
13
+ ---
14
+
15
+ ## モデル概要
16
+
17
+ Reverseformerは、現代社会における情報過多、複雑化するコミュニケーションへのアンチテーゼとして開発されました。テキストを入力すると、以下のプロセスを経て出力を生成します。
18
+
19
+ 1. **入力分解:** テキストをトークンに分解。
20
+ 2. **オブリビオンアテンション:** 各トークン間の意味的関連性をACCを用いて希薄化。関連性の高いトークンペアには「忘却ペナルティ」が付与される。
21
+ 3. **レトロデクティブデコーディング:** 希薄化されたトークン情報に基づき、「最もありえなかったであろう文脈」を復元するように、トークンを再構成(あるいは脱落させる)。
22
+ 4. **出力生成:** 意味的エントロピーが増大し、情報量が縮減された(多くの場合、より曖昧で単純な)テキストを出力。
23
+
24
+ ---
25
+
26
+ ## 使用目的と制限事項
27
+
28
+ **意図される使用目的:**
29
+
30
+ * 複雑な文章を意図的に単純化・曖昧化する。
31
+ * 詩的な表現や、意図的な誤解を誘うような文章の生成補助。
32
+ * プライバシー保護のため、個人情報を含むテキストの「意味的難読化」。
33
+ * デジタルデトックス支援(受信メッセージの重要度を低減させる)。
34
+ * 創造的な発想支援(常識的な繋がりを断ち切る)。
35
+
36
+ **制限事項・潜在的リスク:**
37
+
38
+ * **情報の破壊:** このモデルは意図的に情報を欠落・歪曲させます。重要な情報の処理には絶対に使用しないでください。
39
+ * **制御不能な忘却:** 忘却プロセスはACCの物理的状態に依存するため、完全な再現性は保証されません。同じ入力でも異なる結果を生むことがあります。
40
+ * **コミュニケーションへの悪影響:** 誤解を助長する可能性があるため、公的なコミュニケーションや正確性が求められる場面での使用は推奨されません。
41
+ * **アナログ・コグニティブ・コア (ACC) の入手困難:** 現在、ACCは研究室内での試作品のみ存在し、市販されていません。互換性のある代替品もありません。(※これが最大の制限事項です)
42
+ * **標準的な評価指標での低性能:** BLEU、ROUGEなどの既存の評価指標では、意図的に低いスコア(あるいはマイナススコア)を記録します。代わりに、独自指標 **"Meaning Reduction Score (MRS)"** や **"Contextual Independence Index (CII)"** で評価されます。
43
+
44
+ ---
45
+
46
+ ## 使用方法
47
+
48
+ ```python
49
+
50
+
51
+ from transformers import AutoTokenizer, ReverseformerModel # Hypothetical classes
52
+ import torch # Note: Part of the computation is offloaded to ACC
53
+
54
+ # ACCデバイスの指定
55
+ # 通常の'cuda'や'cpu'ではなく、ACCを指定
56
+ device = "acc:0" # Analog Cognitive Core unit 0
57
+
58
+ # モデルとトークナイザーのロード (リポジトリから)
59
+ tokenizer = AutoTokenizer.from_pretrained("analog-cognitive/reverseformer-alpha-0.1")
60
+ model = ReverseformerModel.from_pretrained("analog-cognitive/reverseformer-alpha-0.1").to(device)
61
+
62
+ # 入力テキスト
63
+ text = "今日の天気は晴れで、気温は25度。絶好の洗濯日和なので、公園に散歩に行きましょう。"
64
+
65
+ # トークナイズとエンコード
66
+ inputs = tokenizer(text, return_tensors="pt").to(device)
67
+
68
+ # 情報縮減・忘却処理の実行
69
+ # oblivion_factor: 忘却の度合いを調整 (0.0: 最小, 1.0: 最大)
70
+ # retrodiction_depth: 逆生成の深さ
71
+ outputs = model.process(**inputs, oblivion_factor=0.8, retrodiction_depth=3)
72
+
73
+ # デコードして結果を表示
74
+ # 期待される出力例(実行ごとに変動):
75
+ # 「天気...たぶん何かあった。公園は...どこかへ。」
76
+ # 「晴れ。そして...何かする。」
77
+ # 「散歩。」
78
+ reduced_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
79
+ print(reduced_text)
80
+
81
+ ```
82
+
83
+ ---
84
+
85
+ ## 訓練データ
86
+
87
+ * **意味論的縮退ルールセット (Semantic Decay Rule Set - SDRS):** 約1,000のルール。単語の一般化、比喩の文字通りの解釈、接続詞の脱落など。
88
+ * **誤解例データセット (Misunderstanding Examples Dataset - MED):** 約5,000例。人間が実際に誤解した会話ログや、意図的に情報を歪曲させた短いテキストペア。
89
+ * **ACCキャリブレーションデータ:** ACCの物理的ゆらぎ特性をモデルに反映させるための少量のデータ。
90
+
91
+ ---
92
+
93
+ ## 評価結果 (独自指標)
94
+
95
+ | Metric | Score (Alpha v0.1) | Description |
96
+ | :------------------------------ | :----------------- | :------------------------------------------------ |
97
+ | Meaning Reduction Score (MRS) | 0.85 ± 0.15 | 元の情報量に対する削減率(高ければ高いほど良い) |
98
+ | Contextual Independence Index (CII) | 0.92 ± 0.08 | 出力トークン間の文脈的独立性(高ければ高いほど良い)|
99
+ | BLEU / ROUGE | N/A (Intentionally Low) | 従来の生成モデル評価指標(適用不適切) |
100
+
101
+ *スコアはMEDデータセットに対する評価。ACCの個体差により変動あり。*
102
+
103
+ ---
104
+
105
+ ## 倫理的考察
106
+
107
+ Reverseformerは、情報の正確性や保持とは逆の目的を持つため、その利用には特に注意が必要です。悪意を持った情報操作や、重要な記録の破壊に使用されるリスクがあります。開発チームは、この技術がもたらす可能性のある負の側面を認識しており、ACCの一般提供については慎重な議論を進めています。**本モデルの使用は、研究目的および個人の創造的活動、またはエイプリルフールのジョークに限定されるべきです。**
108
+
109
+ ---
110
+
111
+ ## 引用
112
+
113
+ ```bibtex
114
+ @misc{reverseformer_alpha_2024,
115
+ author = {Analog Cognitive Initiative (Hypothetical)},
116
+ title = {Reverseformer: Towards Information Reduction and Contextual Oblivion},
117
+ year = {2024},
118
+ month = {April},
119
+ publisher = {Hugging Face (as an April Fools' joke)},
120
+ note = {April Fools' Day Project - Model and concept are fictional.}
121
+ }
122
+ ```
123
+
124
+ ---
125
+
126
+
127
+ このテキストは全て人力で記述されましたが、reverseformerによってその証拠は忘却の彼方へ飛んで行ってしまいました。