IT培训 / 新闻资讯 / 大数据教程 / R语言进阶之2：文本（字符串）处理与正则表达式及应用

R语言进阶之2：文本（字符串）处理与正则表达式及应用

作者：课课家来源： www.kokojia.com点击数：1219发布时间： 2015-11-02 11:23:04

在众多学习中，文章也许不起眼，但是重要的下面我们就来讲解一下！！

R语言处理文本的能力虽然不强，但适当用用还是可以大幅提高工作效率的，而且有些文本操作还不得不用。高效处理文本少不了正则表达式（regular expression），虽然R在这方面先天不高效，但它处理字符串的绝大多数函数都使用正则表达式。
0、正则表达式简介：
正则表达式不是R的专属内容，所以用0编号，这里也只简单介绍，更详细的内容请查阅其他文章。
正则表达式是用于描述/匹配一个文本集合的表达式。
1. 所有英文字母、数字和很多可显示的字符本身就是正则表达式，用于匹配它们自己。比如 'a' 就是匹配字母 'a' 的正则表达式oracle教程
2. 一些特殊的字符在正则表达式中不在用来描述它自身，它们在正则表达式中已经被“转义”，这些字符称为“元字符”。perl类型的正则表达式中被转义的字符有：. \\\\ | ( ) [ ] { } ^ $ * + ?。被转义的字符已经有特殊的意义，如点号 . 表示任意字符；方括号表示选择方括号中的任意一个（如[a-z] 表示任意一个小写字符）；^ 放在表达式开始出表示匹配文本开始位置，放在方括号内开始处表示非方括号内的任一字符；大括号表示前面的字符或表达式的重复次数；| 表示可选项，即 | 前后的表达式任选一个。
3. 如果要在正则表达式中表示元字符本身，比如我就要在文本中查找问号‘?’，那么就要使用引用符号（或称换码符号），一般是反斜杠 '\\\\'。需要注意的是，在R语言中得用两个反斜杠即 ‘\\\\\\\\’，如要匹配括号就要写成 ’\\\\\\\$\\\\\\\$‘
4. 不同语言或应用程序（事实上很多规则都通用）定义了一些特殊的元字符用于表示某类字符，如 \\\\d 表示数字0-9， \\\\D 表示非数字，\\\\s 表示空白字符（包括空格、制表符、换行符等），\\\\S 表示非空白字符，\\\\w 表示字（字母和数字），\\\\W 表示非字，\\\\< 和 \\\\> 分别表示以空白字符开始和结束的文本。
5. 正则表达式符号运算顺序：圆括号括起来的表达式最优先，然后是表示重复次数的操作（即：* + {} ），接下来是连接运算（其实就是几个字符放在一起，如abc），最后是表示可选项的运算（|）。所以 'foot|bar' 可以匹配’foot‘或者’bar‘，但是 'foot|ba{2}r'匹配的是’foot‘或者’baar‘。
一、字符数统计和字符翻译
nchar这个函数简单，统计向量中每个元素的字符个数，注意这个函数和length函数的差别：nchar是向量元素的字符个数，而length是向量长度（向量元素的个数）。其他没什么需要说的。

> x
> nchar(x)
[1] 6 5 1
> length(''); nchar('')
[1] 1
[1] 0

另外三个函数用法也很简单：

> DNA <- "AtGCtttACC"
> tolower(DNA)
[1] "atgctttacc"
> toupper(DNA)
[1] "ATGCTTTACC"
> chartr("Tt", "Uu", DNA)
[1] "AuGCuuuACC"
> chartr("Tt", "UU", DNA)
[1] "AUGCUUUACC"

二、字符串连接
paste应该是R中最常用字符串函数了，也是R字符串处理函数里面非常纯的不使用正则表达式的函数（因为用不着）。它相当于其他语言的strjoin，但是功能更强大。它把向量连成字串向量，其他类型的数据会转成向量，但不一定是你要的结果：

> paste("CK", 1:6, sep="")
[1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6"
> x
> y
> paste(x, y, sep="-") #较短的向量被循环使用
[1] "aaa-1" "bbb-2" "ccc-1"
> z
> paste("T", z, sep=":") #这样的结果不知合不合用
[1] "T:list(a = \\\\"aaa\\\\", b = \\\\"bbb\\\\", c = \\\\"ccc\\\\")"
[2] "T:list(d = 1, e = 2)"

短向量重复使用，列表数据只有一级列表能有好的表现，能不能用看自己需要。会得到什么样的结果是可以预知的，用as.character函数看吧，这又是一个字符串处理函数：

> as.character(x)
[1] "aaa" "bbb" "ccc"
> as.character(z)
[1] "list(a = \\\\"aaa\\\\", b = \\\\"bbb\\\\", c = \\\\"ccc\\\\")"
[2] "list(d = 1, e = 2)"

paste函数还有一个用法，设置collapse参数，连成一个字符串：

> paste(x, y, sep="-", collapse='; ')
[1] "aaa-1; bbb-2; ccc-1"
> paste(x, collapse='; ')
[1] "aaa; bbb; ccc"

三、字符串拆分
strsplit函数使用正则表达式，使用格式为：strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)
参数x为字串向量，每个元素都将单独进行拆分。
参数split为拆分位置的字串向量，默认为正则表达式匹配（fixed=FALSE）。如果你没接触过正则表达式，设置fixed=TRUE，表示使用普通文本匹配或正则表达式的精确匹配。普通文本的运算速度快。
perl=TRUE/FALSE的设置和perl语言版本有关，如果正则表达式很长，正确设置表达式并且使用perl=TRUE可以提高运算速度。
参数useBytes设置是否逐个字节进行匹配，默认为FALSE，即按字符而不是字节进行匹配。
下面的例子把一句话按空格拆分为单词：
> text <- "Hello Adam!\\\\nHello Ava!"
> strsplit(text, ' ')
[[1]]
[1] "Hello" "Adam!\\\\nHello" "Ava!"
R语言的字符串事实上也是正则表达式，上面文本中的\\\\n在图形输出中是被解释为换行符的。
> strsplit(text, '\\\\\\\\s')oracle视频教程
[[1]]
[1] "Hello" "Adam!" "Hello" "Ava!"
strsplit得到的结果是列表，后面要怎么处理就得看情况而定了：
> class(strsplit(text, '\\\\\\\\s'))
[1] "list"
有一种情况很特殊：如果split参数的字符长度为0，得到的结果就是一个个的字符：
> strsplit(text, '')
[[1]]
[1] "H" "e" "l" "l" "o" " " "A" "d" "a" "m" "!" "\\\\n" "H" "e" "l" "l"
[17] "o" " " "A" "v" "a" "!"
从这里也可以看到R把 \\\\n 是当成一个字符来处理的。
四、字符串查询：
1、grep和grepl函数：
这两个函数返回向量水平的匹配结果，不涉及匹配字符串的详细位置信息。

grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,
fixed = FALSE, useBytes = FALSE, invert = FALSE)
grepl(pattern, x, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)

虽然参数看起差不多，但是返回的结果不一样。下来例子列出C:\\\\Windows目录下的所有文件，然后用grep和grepl查找exe文件：

> files oracle数据库教程
> grep("\\\\\\\\.exe$", files)
[1] 8 28 30 35 36 57 68 98 99 101 110 111 114 116
经李克强总理签批，2015年9月，国务院印发《促进大数据发展行动纲要》（以下简称《纲要》），系统部署大数据发展工作。

《纲要》明确，推动大数据发展和应用，在未来5至10年打造精准治理、多方协作的社会治理新模式，建立运行平稳、安全高效的经济运行新机制，构建以人为本、惠及全民的民生服务新体系，开启大众创业、万众创新的创新驱动新格局，培育高端智能、新兴繁荣的产业发展新生态。

《纲要》部署三方面主要任务。一要加快政府数据开放共享，推动资源整合，提升治理能力。大力推动政府部门数据共享，稳步推动公共数据资源开放，统筹规划大数据基础设施建设，支持宏观调控科学化，推动政府治理精准化，推进商事服务便捷化，促进安全保障高效化，加快民生服务普惠化。二要推动产业创新发展，培育新兴业态，助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用，推动大数据发展与科研创新有机结合，推进基础研究和核心技术攻关，形成大数据产品体系，完善大数据产业链。三要强化安全保障，提高管理水平，促进健康发展。健全大数据安全保障体系，强化安全支撑。^[11]

2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作，力争通过3至5年的努力，将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。

围绕这一目标，贵州省将重点构建“三大体系”，重点打造“七大平台”，实施“十大工程”。

“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系；“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台；“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。

此外，贵州省将计划通过综合试验区建设，探索大数据应用的创新模式，培育大数据交易新的做法，开展数据交易的市场试点，鼓励产业链上下游之间的数据交换，规范数据资源的交易行为，促进形成新的业态。

国家发展改革委有关专家表示，大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等，而是要充分依托已有的设施资源，把现有的利用好，把新建的规划好，避免造成空间资源的浪费和损失。探索大数据应用新的模式，围绕有数据、用数据、管数据，开展先行先试，更好地服务国家大数据发展战略。
> grepl("\\\\\\\\.exe$", files)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
[14] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
#......

grep仅返回匹配项的下标，而grepl返回所有的查询结果，并用逻辑向量表示有没有找到匹配。两者的结果用于提取数据子集的结果都一样：

> files[grep("\\\\\\\\.exe$", files)]
[1] "bfsvc.exe" "explorer.exe" "fveupdate.exe" "HelpPane.exe"
[5] "hh.exe" "notepad.exe" "regedit.exe" "twunk_16.exe"
[9] "twunk_32.exe" "uninst.exe" "winhelp.exe" "winhlp32.exe"
[13] "write.exe" "xinstaller.exe"
> files[grepl("\\\\\\\\.exe$", files)]
[1] "bfsvc.exe" "explorer.exe" "fveupdate.exe" "HelpPane.exe"
[5] "hh.exe" "notepad.exe" "regedit.exe" "twunk_16.exe"
[9] "twunk_32.exe" "uninst.exe" "winhelp.exe" "winhlp32.exe"
[13] "write.exe" "xinstaller.exe"

2、regexpr、gregexpr和regexec
这三个函数返回的结果包含了匹配的具**置和字符串长度信息，可以用于字符串的提取操作。

> text
> regexpr("Adam", text)
[1] 9 5 14
attr(,"match.length")
[1] 4 4 4
attr(,"useBytes")
[1] TRUE
> gregexpr("Adam", text)
[[1]]
[1] 9
attr(,"match.length")
[1] 4
attr(,"useBytes")
[1] TRUE
[[2]]
[1] 5
attr(,"match.length")
[1] 4
attr(,"useBytes")
[1] TRUE
[[3]]
[1] 14
attr(,"match.length")
[1] 4
attr(,"useBytes")
[1] TRUE
> regexec("Adam", text)
[[1]]
[1] 9
attr(,"match.length")
[1] 4
[[2]]
[1] 5
attr(,"match.length")
[1] 4
[[3]]
[1] 14
attr(,"match.length")
[1] 4

五、字符串替换
虽然sub和gsub是用于字符串替换的函数，但严格地说R语言没有字符串替换的函数，因为R语言不管什么操作对参数都是传值不传址。

> text
[1] "Hello Adam!\\\\nHello Ava!"
> sub(pattern="Adam", replacement="world", text) oracle视频
[1] "Hello world!\\\\nHello Ava!"
> text
[1] "Hello Adam!\\\\nHello Ava!"

可以看到：虽然说是“替换”，但原字符串并没有改变，要改变原变量我们只能通过再赋值的方式。
sub和gsub的区别是前者只做一次替换（不管有几次匹配），而gsub把满足条件的匹配都做替换：

> sub(pattern="Adam|Ava", replacement="world", text)
[1] "Hello world!\\\\nHello Ava!"
> gsub(pattern="Adam|Ava", replacement="world", text)
[1] "Hello world!\\\\nHello world!"

sub和gsub函数可以使用提取表达式（转义字符+数字）让部分变成全部：
> sub(pattern=".*(Adam).*", replacement="\\\\\\\\1", text)
[1] "Adam"
六、字符串提取
substr和substring函数通过位置进行字符串拆分或提取，它们本身并不使用正则表达式，但是结合正则表达式函数regexpr、gregexpr或regexec使用可以非常方便地从大量文本中提取所需信息。两者的参数设置基本相同：

substr(x, start, stop)
substring(text, first, last = 1000000L)

第 1个参数均为要拆分的字串向量，第2个参数为截取的起始位置向量，第3个参数为截取字串的终止位置向量。但它们的返回值的长度（个数）有差别：substr返回的字串个数等于第一个参数的长度；而substring返回字串个数等于三个参数中最长向量长度，短向量循环使用。先看第1参数（要拆分的字符向量）长度为1例子：

> x <- "123456789"
> substr(x, c(2,4), c(4,5,8))
[1] "234"
> substring(x, c(2,4), c(4,5,8))
[1] "234" "45" "2345678"

因为x的向量长度为1，所以substr获得的结果只有1个字串，即第2和第3个参数向量只用了第一个组合：起始位置2，终止位置4。
而substring的语句三个参数中最长的向量为c(4,5,8)，执行时按短向量循环使用的规则第一个参数事实上就是c(x,x,x)，第二个参数就成了c(2,4,2)，最终截取的字串起始位置组合为：2-4, 4-5和2-8。
请按照这样的处理规则解释下面语句运行的结果：

> x
> substr(x, c(2,4), c(4,5,8))
[1] "234" "de"
> substring(x, c(2,4), c(4,5,8))
[1] "234" "de" "2345678"

用substring函数可以很方便地把DNA/RNA序列进行三联拆分（用于蛋白质翻译）：

> bases
> DNA
> DNA
[1] "CCTTTACGGTGT"
> substring(DNA, seq(1,10,by=3), seq(3,12,by=3))
[1] "CCT" "TTA" "CGG" "TGT"

用regexpr、gregexpr或regexec函数获得位置信息后再进行字符串提取的操作可以自己试试看。
七、其他：
比如strtrim、strwrap、charmatch、match和pmatch等，甚至是 %in% 运算符都是可以使用的。R的在线帮助很全，自己看吧，就当学习E文。
更多视频课程文章的课程，可到课课家官网查看。我在等你哟！！！

踩(0)

分享到：

上一篇：数据分析对淘宝时段数据的运用

下一篇：怎样用acdsee去除图片中多余的人