我暂时没空实现,写下思路,谁实现出来了跟我说一下。
用强化学习来做要比现有的几个开源项目更简洁,不需要人工标定物体,不需要计算控制模型(按压时间和距离的关系)。
直接输入图像,输出按压时间就可以了。
Observation Space: Box(width, height, 3)Action Space:(0, ∞) (我猜可能服从泊松分布)Reward: 每成功跳一次reward为1就可以了,挂了reward为0。
根据评论区指出的,跳到格子中央会获得更多得分,那么直接用得分作为reward应该更好。
网络结构和玩其它Atari游戏类似,先来几层CNN,后面用dense connection应该就可以了(万一不行咱们再讨论)。
算法用DDPG应该就够了(万一不行咱们再讨论)。
就酱。
。
。
- 夏天的风 姑娘 老男孩 理想三旬 月半小夜曲 生日快乐 其实 那些年 光阴的故事 少年 后来遇见他 那女孩对我说 世界这么大还是遇见你 火红的萨日朗 想见你想见你想见你 冬眠 关键词 芒种 往后余生 关山酒 年轮说 小镇姑娘 烟雨行舟 记念 你笑起来真好看 来自天堂的魔鬼 学猫叫 你的酒馆对我打了烊 不仅仅是喜欢 浪人琵琶 卡路里 带你去旅行 红昭愿 纸短情长 最美的期待 体面 小跳蛙 悬溺 侧脸 山楂树之恋 我的名字 失眠飞行 有可能的夜晚 追光者 请先说你好 流浪 东西 星球坠落 我的将军啊 烟火里的尘埃 答案 心如止水 我们不一样 嘴巴嘟嘟 晴天 成都 告白气球 南山南 女儿情 天空之城
报歉!评论已关闭。