数据集划分 - 智学轩城

数据集划分

数据集划分:使用K折交叉验证,每折留1/3作为测试集,2020年项目经验。

2022年,某大型机器学习竞赛中,数据集划分为训练集和测试集,比例8:2。这就是坑,别信划分比例固定的说法,要根据数据集特性灵活调整。

嗨,最近我在准备一个数据集,得好好想想怎么划分。上周有个客人问我,说他们公司有个项目,数据量特别大,不知道怎么划分才好。
我自己踩过的坑是,之前有一次数据集划分得不好,后来模型训练的时候效果一直不理想。当时我在北京,花了两天时间,结果发现主要是数据划分不均匀,导致模型学习效果不稳定。
那咱们得看看这个数据集的具体情况。比如说,它有多少条数据?是结构化数据还是非结构化数据?还有,这个数据集是用于训练模型还是做其他分析?
一般来说,我会先看数据的分布情况,如果数据量不大,可能会直接用随机划分。但如果是大规模数据集,就得考虑更复杂的划分方法了。比如分层抽样啊,交叉验证啊这些。
不过说到底,具体怎么划分还得根据你的项目需求和数据特性来决定。反正你看着办,我还在想这个问题。

数据集划分嘛,2022年我参与了一个项目,那会儿我们就在讨论这个。这个城市,咱们不说名字了,当时项目挺大的,得划分个几百万条数据。当时也懵,想着怎么分才合理。最后呢,我们用了K折交叉验证,分成8个子集,每个子集大概六七十万条。钱嘛,那个项目经费挺高的,具体忘了,反正几十万吧,挺烧钱的。我后来才反应过来,其实这个划分啊,得根据具体任务来,不能一概而论。可能我偏激了,但当时确实挺纠结的。