C++ 中经常需要对字符串按照分隔符进行分割以获得子串序列,子串的顺序与其在原字符串中出现的顺序一致。一般有两种需求场景:
(1)给定一个分隔符(单个字符或子串)分割字符串;
(2)给定一个或多个分隔符(单个字符),分割字符串。
当给定的分隔符不在原字符串中,则原字符串不被分割,返回单个元素为原字符串的 vector。
注意,本文实现时,如果被分割后的子串为空串,则不计入最终的子串序列。比如原字符串是"a,b",分隔符为",",那么分割后的子串序列为 [“a”, “b”],而不是 [“a”, “”, “b”]。
1.单个分隔符(单个字符或子串)分割字符串
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
|
#include <iostream> #include <vector> #include <string> using namespace std; //@brief: 指定单个分隔符(单个字符或子串)分割字符串 //@param: src 原字符串;delimiter 分隔符,单个字符或子串 vector<string> splitStr( const string& src, const string& delimiter) { std::vector<string> vetStr; // 入参检查 // 1.原字符串为空或等于分隔符,返回空 vector if (src == "" || src == delimiter) { return vetStr; } // 2.分隔符为空返回单个元素为原字符串的 vector if (delimiter == "" ) { vetStr.push_back(src); return vetStr; } string::size_type startPos = 0; auto index = src.find(delimiter); while (index != string::npos) { auto str = src.substr(startPos, index - startPos); if (str != "" ) { vetStr.push_back(str); } startPos = index + delimiter.length(); index = src.find(delimiter, startPos); } // 取最后一个子串 auto str = src.substr(startPos); if (str != "" ) { vetStr.push_back(str); } return vetStr; } |
测试如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
int main( int argc, char * argv[]) { string str = "I,love,China" ; // 正常分割 auto vetStr = splitStr(str, "," ); cout << "vetStr.size() = " << vetStr.size() << endl; for (auto v : vetStr) { cout << v << " " ; } // 边界测试 vetStr = splitStr(str, "I," ); cout << endl << "vetStr.size() = " << vetStr.size() << endl; for (auto v : vetStr) { cout << v << " " ; } // 不包含分隔符 vetStr = splitStr(str, "what" ); cout << endl << "vetStr.size() = " << vetStr.size() << endl; for (auto v : vetStr) { cout << v << " " ; } return 0; } |
输出结果:
vetStr.size() = 3
I love China
vetStr.size() = 1
love,China
vetStr.size() = 1
I,love,China
2.单个或多个分隔符(单个字符)分割字符串
实现和单个分隔符(单个字符或子串)分割字符串基本一致,关键地方是将获取分隔符下标的函数由 std::string::find(…) 改为 std::string::find_first_of(…)。二者的区别如下:
std::string::find(...)
将分隔符看作一个整体在原字符串中查找并返回匹配的下标,比如 string("I love China").find("love") 返回 2。
std::string::find_first_of(...)
在字符串中搜索分隔符中任意一个字符出现的第一个位置。与 std::string::find(...) 的区别是不需要整个分隔符匹配,只需要分隔符中的单个字符匹配即可。
具体实现如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
|
//@brief: 指定单个或多个分隔符(单个字符)分割字符串 //@param: src 原字符串;delimiter 单个或多个分隔符(单个字符) vector<string> splitStr( const string& src, const string& delimiter) { std::vector<string> vtStr; // 入参检查 // 1.原字符串为空返回空 vector if (src == "" ) { return vtStr; } // 2.分隔符为空返回单个元素为原字符串的 vector if (delimiter == "" ) { vtStr.push_back(src); return vtStr; } string::size_type startPos = 0; auto index = src.find_first_of(delimiter); while (index != string::npos) { auto str = src.substr(startPos, index - startPos); if (str != "" ) { vtStr.push_back(str); } startPos = index + 1; index = src.find_first_of(delimiter, startPos); } // 取最后一个子串 auto str = src.substr(startPos); if (str != "" ) { vtStr.push_back(str); } return vtStr; } |
测试如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
int main( int argc, char * argv[]) { string str = "I,love,China" ; // 正常分割。按照 h 与逗号分割 auto vetStr = splitStr(str, "h," ); cout << "vetStr.size() = " << vetStr.size() << endl; for (auto v : vetStr) { cout << v << " " ; } // 边界测试 vetStr = splitStr(str, "Ia" ); cout << endl << "vetStr.size() = " << vetStr.size() << endl; for (auto v : vetStr) { cout << v << " " ; } // 不包含分隔符 vetStr = splitStr(str, "_:" ); cout << endl << "vetStr.size() = " << vetStr.size() << endl; for (auto v : vetStr) { cout << v << " " ; } return 0; } |
输出结果:
vetStr.size() = 4
I love C ina
vetStr.size() = 1
,love,Chin
vetStr.size() = 1
I,love,China
3.反面实例
下面是我情急之下实现的单个或多个分隔符(单个字符)分割字符串的函数,有点“脏乱差”,作为反面教材,希望能够帮助大家时刻记住代码的简洁与优雅是多么可贵,大家可以对比感受一下。另外,适当的代码注释,对提高代码的可读性会有很大帮助。
脏乱差版本一:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
|
//qsort函数需要的比较函数,按照升序排序 int comp( const void *a, const void *b) { return *( int *)a-*( int *)b; } //@brief: 指定单个或多个分隔符(单个字符)分割字符串 //@param: src 原字符串;delimiter 分隔符集合 vector<string> splitStr( const string& src, const string& delimiter) { vector<string> strRes; int maxSubstrNum=src.size(); int * pos= new int [maxSubstrNum]; memset (pos,0,maxSubstrNum* sizeof ( int )); int j=0; for ( size_t i=0;i<delimiter.size();++i) { string::size_type index=src.find(delimiter[i]); while (index!=string::npos) { pos[j++]=index; index=src.find(delimiter[i],index+1); } } //排序 qsort (pos,j, sizeof ( int ),comp); //取出第一个子串 string substrFir=src.substr(0,pos[0]); if (substrFir!= "" ) strRes.push_back(substrFir); //取出中间j-1个子串 for ( int i=0;i<j-1;++i) { string substr=src.substr(pos[i]+1,pos[i+1]-pos[i]-1); if (substr!= "" ) { strRes.push_back(substr); } } //取出最后一个子串 string substrLast=src.substr(pos[j-1]+1,src.size()-pos[j-1]-1); if (substrLast!= "" ) { strRes.push_back(substrLast); } delete [] pos; return strRes; } |
代码主要说明:
(1)利用 find() 和 substr() 函数实现分割功能;
(2)代码中,需要对分割符出现的下标进行排序,这样才能顺序取出子串。
脏乱差版本二:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
|
//@brief: 指定单个或多个分隔符(单个字符)分割字符串 //@param: src 原字符串;delimiter 分隔符集合 std::vector<std::string> splitStr( const std::string &sStr, const std::string &sSep) { std::vector<std::string> vt; std::string::size_type pos = 0; std::string::size_type pos1 = 0; int pos_tmp = -1; while ( true ) { std::string s; std::string s1; pos1 = sStr.find_first_of(sSep, pos); if (pos1 == std::string::npos) { if (pos + 1 <= sStr.length()) { s = sStr.substr(-1 != pos_tmp ? pos_tmp : pos); s1 = "" ; } } else if (pos1 == pos && (pos1 + 1 == sStr.length())) { s = "" ; s1 = "" ; } else { s = sStr.substr(-1 != pos_tmp ? pos_tmp : pos, pos1 - (-1 != pos_tmp ? pos_tmp : pos)); s1 = sStr.substr(pos1 + 1); if (-1 == pos_tmp) { pos_tmp = pos; } pos = pos1; } if (!s.empty()) { vt.push_back(s); } pos_tmp = -1; if (pos1 == std::string::npos) { break ; } pos++; } return vt; } |
以上就是c++字符串分割的方法的详细内容,更多关于C++ 字符串分割的资料请关注服务器之家其它相关文章!
原文链接:https://cloud.tencent.com/developer/article/1525278