从wind上面搞到一批股票数据后发现:本来是一个类型的数据,但是由于季度不同,列名也不同,导致使用pandas合并多个报表的时候总是出现一大堆NaN,所以这里我写了一个函数,专门针对这样的表
它的思路是:
生成一堆单词,然后把这些表的列索引全部替换为这些单词,然后调用 pd.concat() 把这些dataframe全部合并后再把列索引改回来,当然,这里也可以手动指定列索引。
使用方法见代码的最后一行,传入一个dataframe的list就可以了。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
|
import pandas as pd from random import Random # 随机生成一堆单词作为公共的列名 def random_list(random_str_count, randomlengtd = 6 ): result_list = [] random = Random() chars = "qwertyuiopasdfghjklzxcvbnm" for str_count in range (random_str_count): ranstr = "" lengtd = len (chars) - 1 for str_lengtd in range (randomlengtd): ranstr + = chars[random.randint( 0 , lengtd)] result_list.append(ranstr) return result_list def combine_as_data_location(pd_list, columns = ''): if not pd_list: return None old_columns = pd_list[ 0 ].columns if columns: new_columns = columns else : new_columns = random_list(pd_list[ 0 ].shape[ 1 ]) for data_df in pd_list: # data is pandas Dataframe data_df.columns = new_columns result_df = pd.concat(pd_list, ignore_index = True ) if columns: return result_df else : result_df.columns = old_columns return result_df result_df = combine_as_data_location([df1,df2,df3]) |
补充:pandas.concat实现竖着拼接、横着拼接DataFrame
1、concat竖着拼接(默认的竖着,axis=0)
话不多说,直接看例子:
1
2
3
4
|
import pandas as pd df1 = pd.DataFrame([ 10 , 12 , 13 ]) df2 = pd.DataFrame([ 22 , 33 , 44 , 55 ]) df3 = pd.DataFrame([ 90 , 94 ]) |
df1
0 | |
---|---|
0 | 10 |
1 | 12 |
2 | 13 |
df2
0 | |
---|---|
0 | 22 |
1 | 33 |
2 | 44 |
3 | 55 |
df3
0 | |
---|---|
0 | 90 |
1 | 94 |
1
2
|
res = pd.concat([df1,df2,df3]) res |
0 | |
---|---|
0 | 10 |
1 | 12 |
2 | 13 |
0 | 22 |
1 | 33 |
2 | 44 |
3 | 55 |
0 | 90 |
1 | 94 |
如果要生成新索引,忽略原来索引怎么办?
默认有个参数ignore_index= False,将其值改为True:
1
2
|
res2 = pd.concat([df1,df2,df3], ignore_index = True ) res2 |
0 | |
---|---|
0 | 10 |
1 | 12 |
2 | 13 |
3 | 22 |
4 | 33 |
5 | 44 |
6 | 55 |
7 | 90 |
8 | 94 |
2、concat横着拼接
用参数axis= 1,看例子:
1
2
|
res_heng = pd.concat([df1,df2,df3], axis = 1 ) res_heng |
0 | 0 | 0 | |
---|---|---|---|
0 | 10.0 | 22 | 90.0 |
1 | 12.0 | 33 | 94.0 |
2 | 13.0 | 44 | NaN |
3 | NaN | 55 | NaN |
以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。
原文链接:https://blog.csdn.net/weixin_35757704/article/details/90177680