admin @ 08-28 05:39:42   全部文章   0/551

女生寝室不同格式的数据的R读入与输出-大音如霜

不同格式的数据的R读入与输出-大音如霜
好主意值得扩散,激发我们创造的动力
csv、txt格式基本上是大多数语言支持的数据输入方式,甚至数据库入库出库也是这两种常见的格式,所以这才是通用的东西陈雁升。csv就是Comma-Separated Values叶婷玉 ,就是以逗号分隔的数据表,所谓逗号分隔就是列和列之间以英文的逗号分隔。另外所有的excel文件都可以通过另存为的方式都可以保存为csv,然后通过csv读入R语言。读取csv文件
hospital <- read.csv("E:/业余/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第一章这样入门比《R导论》还简单/data/hospital.csv",header = T, sep =",", stringsAsFactors = F)tail(hospital)str(hospital)
R里面可以通过read.csv函数读取csv文件天正银河湾,第一个参数指定文件的完整路径,这里我们读取了全国两万多家医院的规模数据,header参数用于指定第一行是否是列名称,为真表示第一行是列名称,否则R会将第一行当作数据然后默认给数据的列命名,sep参数用于指定分隔符白石晃士,这里使用英文逗号分隔,stringsAsFactors参数用于设定是否将字符型变量转化为因子,这一点很重要,如果数据量不是很大请设置为F,如果数据量很大且转化为因子后因子水平比较少请设置为T杀了她喂猪,这样可以节省数据占用的内存,原因前面讲解因子时已经讲过了;2行通过tail函数查看数据的最后6行;3行查看数据结构,发现read.csv函数读取数据后将数据转化为了数据框杰莎贝尔。读取txt文件
hospital <- read.table("E:/业余/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第一章这样入门比《R导论》还简单/data/hospital.txt",header = T, sep =" ", stringsAsFactors = F)tail(hospital)str(hospital)
R里面可以通过read.table函数读取txt或者无后缀文件,张翔玲第一个参数指定文件的完整路径,header参数用于指定第一行是否是列名称金牌育胎师,sep参数用于指定分隔符,这里使用制表符分隔,请记住txt文件的分隔符多种多样,比如”;”搜棉网,”#”和空格等等,而且不同的环境还不一样,比如在hive导出的一般是无后缀的文件分隔符为“01”等等帕拉米拉 ,stringsAsFactors参数用于设定是否将字符型变量转化为因子;2行通过tail函数查看数据的最后6行;3行查看数据结构奇法大陆,read.table函数读取数据后将数据转化为了数据框。输出csv、txt文件
write.csv(hospital蒙山县政府网 , file = "E:/业余/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第一章这样入门比《R导论》还简单/plot/hospital.csv"红口白牙,row.names = F)write.table(hospital, file = "E:/业余/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第一章这样入门比《R导论》还简单/plot/hospital.txt",row.names = F)
write.csv用于输出csv格式的文件极道校园,就是将文件写入到硬盘,第一个参数用于指定输出的对象,对象一般是数据框格式,file参数用于指定输出的完成路径,row.names参数用来指定是不是输出行名称,默认是输出行编号的,所以一般需要特别之处不要输出行编号北四村,否则行编号就会变成一列新的数据;2行使用write.table函数输出txt格式的文件,参数和write.csv苏门答腊猩猩 。输入输出RData
getwd()setwd("D:/BF/Documents")a <- 1:3b <- c("a", "b","b")alist <- list(a, b)save(hospital, alist, file ="temp.RData")rm(list = ls())load("temp.RData")ls()
RData是R语言特有的一种数据存储格式,它能存储所有R语言环境中的对象,也就是说它不限制对象类型。这里我们要顺便介绍几个函数,getwd函数用于获得当前工作目录,如果输入输出文件没有指定具体的路径的话,R就会在当前工作目录下搜索文件读取或输出,windows系统默认为文档目录;setwd函数用于设定新的工作目录;3-5行创建了一个alist对象;6行将数据框hospital、表单alist一起保存在temp的RData中,这里我们没有指定完整的路径,所以默认会保存到当前工作目录;7行移除内存中所有的对象,可以看到Rstudio中的environment中已经没有了对象;8行重新将名为temp的RData加载到内存,没有指定完整路径R就会去当前目录下查找;9行ls函数用于查看内存中的R对象,可以看到仅仅有刚刚加载的hostpital和alist;其实RData主要是用于保存格式比较特殊的R对象,比如构建完成的各类模型等等。
而在一些市场研究公司case by case的项目比较多,数据一般是以excel读取的格式xlsx存储的,很少有以数据库或csv或txt格式存储,这种情况下一种方式是将xlsx格式的文件存储为csv或txt读取,另外一种方式是直接读xlsx文件5尺4寸。输入xlsx文件
library(xlsx)temp <- read.xlsx("E:/业余/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第一章这样入门比《R导论》还简单/data/hospital.xlsx",sheetIndex = 1,as.data.frame = T, header =T,女生寝室 encoding = "UTF-8") head(temp)
xlsx包用于处理xlsx文件,你可以通过上面已经讲过的安装方式安装这个包,其中read.xlsx函数读取xlsx文件,第一个参数用于指定文件的路径,sheetIndex参数用于指定读取第几个sheet,也可以通过sheetName参数设定读取的sheet名称,as.data.frame用于指定是否将数据转化为数据框,header参数和上面函数中的意义一样,即是否将第一行设为列名称,encoding用于指定文件的编码,我们将在本章的最后一节乱码中详解孤胆保镖 ,这个函数有个缺点铁腰板治疗仪,速度非常慢,慢到无法忍受,2万条数据要好多分钟。
以上我们讲解了各种文件的输入和输出,这样第一章的R基础部分基本上可以过关了,也就是说你对R语言的基础内容已经掌握的比较全面了。
好主意值得扩散,激发我们创造的动力,非常感谢花粉传播者关于我们关注理性与文艺,用数据创作内容性的精致阅读,更多资料分享添加qq群。交流QQ:549041728QQ交流群1:105646151(人满收费)QQ交流群2:528749057只有发文章才会登录公众号,所以留言没有回复请见谅微信号:大音如霜
返回顶部