什么时候会产生数据泄漏?能举几个具体的例子吗?谢谢!
2个回答
数据泄露就是说用了不该用的数据,比如
- 在训练模型时,利用了测试集的数据、信息
- 在当前使用了未来的数据
- 在交叉验证进行调参时,使用了验证集的信息参与模型建立
具体说下第三点,比如对特征进行标准化,正确的方法应该是在训练集上标准化,然后应用到验证集上,而非先标准化,再划分验证集。再比如说,要对数据进行pca降维,应该是在训练集上pca,然后作用到验证集上,而非对整个数据集进行pca。通常都忽略了这一点。
楼上的第三点不太理解,标准化的时候,只对训练集标准化,验证集不用标准化?应用到验证集是什么意思呢?
SofaSofa数据科学社区DS面试题库 DS面经
就拿标准化来说吧,(数值-均值)/标准差,这个“均值”和“标准差”应该是训练集的“均值”和“标准差”。“数值”是测试集里的数值。
-
Jiho
2018-01-07 02:15
好的,谢了,明白了
-
gsscsd
2018-01-09 13:52