范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

从零开始学R数据分析,数据清洗

  数据获取后不能直接对数据进行分析,"脏数据"会直接影响最终的数据结论,需要对数据进行初步的处理,本文主要讲解数据获取后数据清洗内容,主要包括缺失值处理、特殊字符处理、大小写转换、数据格式转化、重复值处理、数值替换,下面一起来学习。 示例工具:R x64 3.5.3、RStudio
  本文讲解内容:数据清洗
  适用范围:对于数据的初步清洗
  案例演示需要创建一组数据表,生成数据表使用data.frame命令,与之前pandas生成数据表类似,生成的数据表如下,该数据包含空值、特殊字符、重复值等。 #手动创建数据表 data<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c0010"),                              NAME=c("Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"),                              AGE=c(23,20,23,25,27,24,26,31,26,30),                              ADDRESS=c("Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"),                              SAL=c(2000,1500,2000,NA,8500,NA,5500,9500,NA,900))
  一、缺失值处理
  缺失值处理可以直接删除空值或者对空值进行填充,缺失值填充有用0填充或者用均值填充等方法,删除数据表中的空值使用na.omit()函数,数据结果如下所示。 #删除包含空值的行 data_NA<-na.omit(data)
  除此之外也可以使用数字对空值进行填充,下面的代码使用0对空值字段进行填充。 #将空值填充为0 data[is.na(data)] <- 0
  除了使用0填充外,还可以使用均值填充,首先,在要填充的数值中使用mean()函数先计算SAL列当前的均值,然后,使用这个均值对NA进行填充,计算出SAL列的平均值如下: mean(data_NA$SAL)
  #将空值填充为均值 data[is.na(data)] <- mean(data_NA$SAL)
  二、特殊字符处理
  特殊字符处理如字符前无法察觉的空格,有时候也会产生不可避免的错误,需要数据清洗。
  处理字符前的空格,首先需要安装raster和sp包,当界面出现sccessfully的字样时,表示已经安装成功,然后加载这两个包。 #安装raster和sp包 install.packages("raster") install.packages("sp") #加载raster和sp包 library("sp") library("raster")
  去除字符前空格需要使用trim函数,如果对于trim函数的参数释义不熟悉的话,可以调用帮助文档,在函数前加个问号即可调用。 #调用trim函数的帮助文档 ?trim
  加载完成后使用trim()函数完成对字符中空格的清洗。 #去SAL字段中的空格并替换原有字段 data_address=as.vector(data$ADDRESS) df_A=trim(data_address) data$SAL=df_A
  三、大小写转换
  R中使用tolower函数将大写转化为小写,将NAME列的所有字母大写转换为小写,得出结果如下。 #转化为小写字母 data$NAME=tolower(data$NAME)
  四、数据格式转化
  R中通过as.integer()函数或者as.character来修改数据格式,首先使用typeof函数查看数据类型,这里可以看到AGE这一列是数值类型。 #查看数据的格式 typeof(data$AGE)
  as.integer()函数将数据格式转化为整型。 #更改数据格式 data$AGE=as.integer(data$AGE) #查看修改后的数据格式 typeof(data$AGE)
  as.character()函数将数据格式转化为字符型。 #更改数据格式 data$AGE=as.character(data$AGE) #查看修改后的数据格式 typeof(data$AGE)
  五、重复值处理
  要查看重复值使用duplicated()函数,不仅可以查找数据表的重复值,而且也可以查找特定列中的重复值,返回值为TRUE表示有重复值 。 #查找数据表重复值 duplicated(data) #查找特定列的重复值 duplicated(data$SAL)
  使用unique()函数删除重复值。 #查看数据表的唯一值(删除重复值) data_unique<-unique(data$SAL)
  六、数值替换
  要做数值替换,比如将NAME列的Tom替换为LIMING,可以使用gsub函数,替换的结果如下所示。 #字符替换 data$NAME<-gsub("Tom","LIMING",data$NAME)

P50再延迟到7月发布?芯片禁令之下,华为手机真要陷入绝境了众所周知,按照以往的惯例,华为P系列旗舰手机,会在上半年的4月份发布,而2021年的4月份,理论上则是发布P50的时候。但4月份,华为P50没有发布,后来说要到5月份发布,但5月份顺丰控股4月营收超140亿元增速超行业5月18日晚,顺丰控股(002352。SZ)发布4月度经营数据,公司4月营收达到140。80亿元,同比增加16。91。其中,速运物流业务营收达到132。08亿元,同比增加14。86手机买新不买旧?小米两款老旗舰机型,不输同价位新机现在很多人购买手机之前都是看品牌,以及处理器。其实这样是没有错的。智能手机要拥有强大的处理器,如果处理器不行,在日常使用手机会出现卡顿。现在旗舰机型处理器都比较强大,即便不是最新的华为Mate50会给我们带来什么惊喜,华为Mate40黯然神伤无奈下跌华为Mate50会给我们带来什么惊喜,华为Mate40黯然神伤无奈下跌!华为公司可能也想直接转到哈蒙诺斯。华为将告别安卓,走上新的道路。我们必须等待,看看这是否会成功。同时,根据最荣耀50系列再曝光,高通骁龙7系芯片,最高100W超级快充?荣耀即将发布新款手机荣耀50系列手机已经是板上钉钉的事情了,但是从华为分离之后,很多花粉担心的是荣耀50系列手机会用上什么处理器,而目前这款手机搭载的芯片曝光了,将搭载高通骁龙7系英国斥130亿妥协拆除华为设备,OPPO出新品手机英国还是妥协了,斥130亿拆除华为设备!中企在英投资已大跌900亿英国电信(BT)开始按照指令拆除本国电信网络中的华为设备,替换成诺基亚设备。同时,被替换的不仅仅是刚刚安装不久的5华为P50手机细节曝光首发鸿蒙自研屏幕据业内曝光消息称,华为将在下个月正式发布最新的P50系列旗舰手机,这也是这也是继华为Mate40系列和P40系列的又一最新旗舰,目前在手机行业中,用户对其也有着极高的期望。今日又有苹果公司向中国政府提供用户数据?外交部回应来源中国新闻网中新网北京5月18日电(记者梁晓辉)针对有外媒声称苹果公司向中国政府提供用户数据,苹果在中国的数据中心实际上由政府人员控制,中国外交部18日作出回应。图外交部发言人赵后疫情时代的新能源电动汽车及电池技术何去何从?最近,新能源汽车可谓是火了一把,受高端特斯拉和低端宏光MINI的拉动,新能源汽车销量翻倍,新能源汽车市场回暖让新冠疫情之后沉闷的汽车市场突然间一片繁荣。据媒体报道,2020年11月中芯国际做出正确选择,彻底掌控28nm技术,比攻克7nm更重要虽然半导体业界公认,摩尔定律已经接近物理极限。但台积电三星等国际巨头对于更先进工艺的追求远没有停止,甚至已经着手研发3nm乃至2nm工艺。不过,对于国内半导体企业来说,当务之急真的全球10大最重要的技术,美国遥遥领先,中国的成就更令人感到欣慰近年来,中国在经济科技领域取得的成就令西方国家感到震惊。像是在数字货币支付领域的发展,更是令西方国家望而兴叹。不只如此,就算是全球10大最重要的科学技术,尽管美国遥遥领先,其中5项
媒体直播年会直播线上直播直播媒体邀请网络直播直播采访如何做目前由于疫情原因,年会等各种发布会选择线上举行,那么如何直播,如何找专业直播团队。51媒体网胡sir给您说。会议直播一般是摄像机现场直播,给各个平台拉流或推流,来进行直播。现场设备企业活动如何避免无关人员冒充媒体记者签到企业进行新闻营销,运用新闻来为自身宣传。但怎样才能有新闻事件发生呢?有时候就需要利用企业自身资源找到新闻源,或借助外部力量制造新闻。例如,举办发布会等活动。企业可以邀请大众媒体和行发布会邀请媒体,邀请记者采访报道,邀请媒体有哪些流程注意事项51媒体网胡sir给您说。企业塑造形象,建立良好口碑,扩大品牌知名度提高品牌美誉度,才能在消费者心中形成一个系统口碑和权威体系。通过权威主流的媒体平台发布信息,策划公关活动,最终都艺术展览媒体邀约需要怎么做艺术展览是建立在艺术家与公众之间的一种特殊的交流方式。艺术作品通过展览的方式得以呈现,大众在观赏的过程中产生自己的解读。每年都有大大小小各种艺术展览在全国各地举办,丰富着人们的文化2021年发布会年会邀请媒体,媒体记者出席参加发布会报道活动51媒体网胡sir给您说。2021牛年的岁末即将敲响。在历经了2020年的经济萧条,随着2021年市场的好转,很多企业也跟随市场步伐,在2021年赚得盆满钵满。牛年,固然是不一样的邀请媒体专访领导专访嘉宾媒体专访记者报道专访写稿如何做51媒体胡sir给您说根据采访对象不同,分为人物专访事件专访问题专访风貌专访。专访的要素包括人物,现场,记者。人物专访既强调新闻性政治性又要强调其可读性。相对于其它新闻形式,人物专邀请媒体,邀请记者专访企业领导如何做媒体专访,是非常适合想要打造品牌口碑的企业的。围绕企业的领导,企业的发展讲述企业的故事,增加企业在大众心中的好感。对企业品牌知名度的扩大和形象的提升都会具有非常积极的作用。关于流程企业活动媒体签到区需要如何布置企业举办对外活动,经常会邀请媒体到现场参加,并进行拍摄和报道。如果是合作过多次的媒体,自然一切好说。但随着企业在发展中规模不断扩大,在活动中也势必会和越来越多的媒体接触,会邀请许多华夏在线五周年文艺汇演暨2021年京华杯模特大赛初赛在京落幕2021年10月17日,北京市朝阳区东城区东图剧场上演了一场华丽盛宴,由华夏在线保险代理服务有限公司北京分公司主办,东图剧场承办,腾讯视频优酷视频土豆视频今日头条新华网等各大主流媒为什么科幻大片沙丘票房远低于预期随着长津湖持续28天的放映以及新片的不断上映,特别是好莱坞科幻大片沙丘在上周五强势出击,人们对长津湖是否能在票房上继续高歌猛进分别持怀疑态度。事实胜于雄辩,周末的票房显示,沙丘并没抗美援朝纪念日,吴京易烊千玺与长津湖主演向中国空军致敬10月25日,是中国人民志愿军抗美援朝71周年纪念日。新华网视频号在25日发文纪念中国人民志愿军抗美援朝71周年纪念日,特别提到吴京易烊千玺等长津湖主演,跨越银幕与中国空军对话,中