本文介绍基于**Python**语言,实现机器学习、深度学习等模型训练时,**数据集打乱**的具体操作。 1为什么要
博客园 2023-05-22 12:19:08
(资料图片)
本文介绍基于Python语言,实现机器学习、深度学习等模型训练时,数据集打乱的具体操作。
1 为什么要打乱数据集在机器学习中,如果不进行数据集的打乱,则可能导致模型在训练过程中出现具有“偏见”的情况,降低其泛化能力,从而降低训练精度。例如,如果我们做深度学习的分类,其中初始数据的前80%都是第一类,后20%都是第二类,那么如果我们不打乱数据,模型按照数据顺序依次加以训练,则在前面大部分数据中训练出来的结果都是第一类(即形成了惯性,模型认为这些数据只对应着第一类);而到后20%数据进行训练时,所得结果也往往全都为第一类;所以要打乱。
2 如何打乱首先引入random。
import random2.1 数据特征与标签均为一维DataIndex=[i for i in range(len(TrainX))]random.shuffle(DataIndex)TrainX=TrainX[DataIndex]TrainY=TrainY[DataIndex]其中,TrainX为一维的训练数据特征,TrainY为一维的训练数据标签。
Datasets=tf.data.Dataset.from_tensor_slices((dict(TrainX),TrainY))Datasets=Datasets.shuffle(1000)其中,TrainX需要为多维DataFrame格式的训练数据特征,TrainY为一维Series格式的训练数据标签。但是经过这种方法,我们得到的Datasets为Dataset类的数据,若是接下来需要带入input_fn还可以,如果想单独取出TrainX和TrainY的话就比较麻烦。
因此,我们还可以直接在初始数据划分训练集与测试集时直接将数据打乱:
TrainData=MyData.sample(frac=TrainFrac,random_state=RandomSeed)TestData=MyData.drop(TrainData.index)其中,MyData为初始全部数据,TrainData与TestData分别为划分后的训练集与测试集数据。
经过.sample()这一步骤,与原始数据的Index相比,实际上已经实现了TrainData与TestData的随机排列。
至此,大功告成。
本文介绍基于**Python**语言,实现机器学习、深度学习等模型训练时,**数据集打乱**的具体操作。 1为什么要
民宿当舞台,惠女奏响千年南音。“5·19中国旅游日”当天,一场别开生面的“百鸟归巢又见妙音”滨海惠女声
2023台州人免费游台州免费对象台州市户籍居民和持有台州市居住证的“新台州人”。免费开放时间除国家法定假
近日,由虹桥镇团委牵头,龙柏一村二居委和龙柏二村居委联合开展冰激凌花束制作活动。活动现场,制作老师首
错落有致的房屋、清洁如洗的道路、竞相绽放的花卉、处处可见的秀美风景……昨日,走进中牟县姚家镇老八庄村
5月21日,安顺市委书记杨昌鹏到西秀区调研肉牛产业发展情况并召开座谈会,研究部署肉牛产业高质量发展相关
交易类强制退市已成为出清劣质公司的主要渠道。截至5月21日,*ST搜特(002503)、*ST庞大、*ST宏图、ST美置
今天来聊聊关于遵守防疫规定,遵守的文章,现在就为大家来简单介绍下遵守防疫规定,遵守,希望对各位小伙伴
中国羽毛球队以3∶0大胜韩国队,夺得冠军。首场中国队派出世界头号混双组合郑思维 黄雅琼,迎战现世界排名
证券时报记者余世鹏 在激烈混战格局下,基金行业的“马太效应”越发凸显。有别于经常见诸新闻的头部公募
5月20日,贵州省凯里市第十一届中小学生航空航天模型比赛在凯里市民族体育馆精彩开赛。本届比赛设置了7个航
凭借卡拉斯科、萨乌尔和科雷亚的进球,马竞在主场3-0轻取奥萨苏纳,提前锁定下赛季欧冠资格,主帅西蒙尼在
性,神秘又美好。知己知彼,方可「不虚此性」。正确的性知识,尤其是对「涉及另一半的性知识」,是每个人要
每经AI快讯,有投资者在投资者互动平台提问:江特电机二季度业绩如何?江特电机(002176 SZ)5月21日在投资
1、鱼冻要开水煮。2、蒜、姜、生抽、料酒、盐全部抹匀在鱼的表面和里面腌个10分钟。油锅烧热,把腌好的鱼放