-
Notifications
You must be signed in to change notification settings - Fork 8
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
特征分布 #1
Comments
最最简单的办法就是加上该特征之后,然后看线下和线上是不是同增或者同减的,假如不是那就说明不同分布,其余的方法像画图啊还是求方差都不行,因为我们不知道线上的y的分布,所以无法判断,特征选择一般也是线下划分了验证集的,一般来说验证集的logloss下降了,我们就可以去线上试试,一般来说,只要你提取特征的时候注意逻辑一致(比如滑动窗口提取特征就是为了保持逻辑一致),那么基本线上线下就是同增同减的。 |
复赛一开始的时候我用了10-11点作为验证集,这个还是基本上能够线上线下同增减的。但是到复赛b榜换榜之后,我融合了队友的特征,竟然过拟合了。而且队友跟我用的是同样的验证集,我过拟合了他没过拟合。所以在特征选择方面,我做得不好。 |
你的第一个问题原因我不太清楚,因为你也没有具体描述你的特征是哪些,应该是有一些线上线下逻辑不一致的特征。 |
你说的有道理,我理解错蛇佬的意思了。另外保证在验证集和测试集取特征的逻辑一致那不是很容易的吗,把训练集和测试集concat起来之后再一起提取特征不就是一致的吗 |
逻辑一致本身就是需要对数据进行考量,滑动窗口提取特征就是为了保持逻辑一致性,滑动窗口虽然损失了部分数据,但是却保证了逻辑一致性 |
虽然还是不理解保持逻辑一致性是什么意思,但是还是谢谢大佬 |
你好大佬,判断特征是否在训练数据与测试数据是同分布,这个怎么操作?是把特征在训练集和测试集的分布曲线画出来?还是求方差?
The text was updated successfully, but these errors were encountered: