Facepalm0
/

Ubiquant_CharacterHunter

Model card Files Files and versions

xet

Community

Facepalm0 commited on Dec 18, 2024

Commit

7e1f96f

verified ·

1 Parent(s): b034760

Upload README.md with huggingface_hub

Browse files

Files changed (1) hide show

README.md +77 -0

README.md ADDED Viewed

	@@ -0,0 +1,77 @@

+# Ubiquant 字符猎手决赛方案
+## 一、模型架构
+### 1. 字符识别模型
+- 基础网络：ResNet（训练过resnet18, resnet34, resnet50，最终采用resnet18）
+- 开放集识别：OpenMax
+- 特点：能够有效处理未知类别的字符识别问题
+### 2. 模型训练
+- 使用字符识别数据集进行训练
+- 使用交叉熵损失函数进行训练 （考虑加上triplet loss来调整类内和类间间距，但收敛效果不好）
+- 使用AdamW优化器进行优化
+- 基于验证集的准确率进行模型选择
+- 设置了alpha, tailsize, threshold等超参数的搜索，采用网格搜索
+## 二、字符收集策略
+### 1. 基本定义
+- 智能体需拾取144个物体，构成可定义所有网格拾取顺序的集合为动作空间：
+- A = {a} = {< (x₀,y₀), (x₁,y₁), ... (x₁₄₄,y₁₄₄) > : xᵢ ≠ xⱼ, yᵢ ≠ yⱼ, i,j ≥ 1}
+- 其中(x₀,y₀)为智能体初始位置
+- 根据组合定理，动作空间的元素个数为：Card(A) = 144!
+### 2. 基于广义成本的轨迹评估
+计算成本包含两个部分：
+1. 执行成本(PC)：
+   ```
+   PC = 144 + ∑ᵢ₌₀¹⁴³‖(xᵢ₊₁ - xᵢ, yᵢ₊₁ - yᵢ)‖₁
+   ```
+2. 存储成本(SC)：
+   ```
+   SC = ∑ₑₗᵢₘ₍ᵢ₎₌Fₐₗₛₑ[∑ᵢ‖(xᵢ₊₁ - xᵢ, yᵢ₊₁ - yᵢ)‖₁] - 4
+      · ∑ₑₗᵢₘ₍ᵢ₎₌Tᵣᵤₑ[∑ᵢ‖(xᵢ₊₁ - xᵢ, yᵢ₊₁ - yᵢ)‖₁]
+   ```
+3. 广义成本：
+   ```
+   C = PC/10 + SC/144
+   ```
+4. 累计奖励：
+   ```
+   reward_cum = 136 - C
+   ```
+### 3. 初始次优轨迹生成
+- 每收集4个相同物品，就能发生消除并获得奖励
+- 采用一种次优选择方法生成初始轨迹
+- 按照物品类别统计网格位置
+- 然后随机取一批4个同类网格
+- 按照最小化广义成本的原则添加到已有轨迹中
+### 4. 随机扰动轨迹优化
+- 考虑先添加的网格对后续网格的影响
+- 初始轨迹是次优的，需要进一步优化
+- 采用随机扰动：每次从轨迹中随机选出一个网格
+- 按照最小化广义成本重新插入
+- 重复1000次
+### 5. 随机重启轨迹集成
+- 随机扰动轨迹优化能改善局部轨迹，但无法进行全局优化
+- 选择200种初始轨迹批次选择顺序
+- 生成200条优化轨迹
+- 从中选择最优轨迹
+### 6. 调优策略
+1. 参数调优
+   - 调整随机扰动次数
+   - 优化轨迹集成数量
+   - 微调广义成本中PC和SC的权重
+2. 策略改进
+   - 优化初始轨迹生成算法
+   - 改进随机扰动方式
+   - 设计更好的评估函数