2012年10月30日星期二

R语言数据操作:笔记 chap 1 - chap 7

辨认缺失值:is.na

删除带有缺失值的行:na.omit

当所有读入的数据为同一模式时,用scan函数读取较快

read.fwf 读取固定宽度的文件

index = which(veg$va == 2 & veg$vb >=3)

访问mysql:RMySQL

时间窗:range(rdates$Date)

时间间隔:difftime

时间序列:seq(as.Date('1976-7-4'),by='days',length=10)

将字符取值映射为数值取值,可指定是否按顺序:

mons = c ("Mar", "Feb","Jan")

mons = factor(mons, levels=c("Jan", "Feb", "Mar"), ordered=TRUE)

InsectSpray数据框,包含6种喷剂spray(A-F)处理后昆虫的数量count,要根据spray分组求count均值,再按均值大小升序排列spray

InsectSpray$spray = with(InsectSpray, reorder(spray,count,mean))

cut 将数值变量转换成因子:cut(women$weight,3,labels=c('low','med','high'))

时间序列: days = seq(from=as.Date('2012-10-11'), to=as.Date('2012-10-21'),by='day')

按flow升序: new <- old[ order( old[,'flow'] ) , ]

取满足条件的子集中指定的列:subset(dd, b>10,select=c(cola,colb) )

cat 打印输出字符串

按条件拆分字符串(支持正则): strsplit(somestr, ' ')

替换 gsub

没有评论:

发表评论