河北省住房和城身建设厅网站,网站建设后台是怎么制作的,中国企业公示信息网,红尘直播知识蒸馏
前置知识 Loss 现在分数-正确分数1 例#xff1a; 正则化 Regularization 用来防止过拟合
知识蒸馏相关 softmax 把分数转换为概率的一种方法#xff0c;e的次方 hard targets 和 soft targets 蒸馏温度 T 在原来的softmax下#xff0c;除以某个系数1 例 正则化 Regularization 用来防止过拟合
知识蒸馏相关 softmax 把分数转换为概率的一种方法e的次方 hard targets 和 soft targets 蒸馏温度 T 在原来的softmax下除以某个系数让概率值相差不太大 知识蒸馏过程 Loss: hard loss 传统交叉熵 distillation loss 9 一般需要训练好的情趣额度较高的大的教师模型和未训练的小的学生模型进行训练