色窝窝无码一区二区三区 手把手教你使用 Pandas 读取结构化数据

咱们可通过遗弃时辰ID和样本ID赢得对应的Series和DataFrame色窝窝无码一区二区三区。
由于这些对象的常用操作秩序尽头相通,因此本文主要使用DataFrame进行演示。
1 读取文献Pandas库提供了浅陋读取土产货结构化数据的秩序。这里主要以csv数据为例色窝窝无码一区二区三区,read_csv函数不错读取csv数据,代码如下:
51CTO和华为官方合作共建的鸿蒙技术社区色窝窝无码一区二区三区
51CTO和华为官方合作共建的鸿蒙技术社区
可能大家都知道,字符串存在字符串常量池中,被栈或堆上的变量引用。如果变量的值是字符串字面量,则在栈上的变量直接引用字符串常量池中的字符串;如果是字符串是 new String 创建的,则会在堆上创建 String 对象,指向字符串常量池中的字符串,栈上变量指向堆中的 String 对象。
之所以网关对微服务这么重要色窝窝无码一区二区三区,主要有以下几点原因:
Go slice 里面放struct 应该使用指针吗?
import 色窝窝无码一区二区三区pandas as pd csv = pd.read_csv('data/sample.csv') csv
id name scores 0 1 小明 78.0 1 2 小红 87.0 2 3 小白 99.0 3 4 小青 99999.0 4 5 小兰 NaN
按照常规,Pandas会以pd为别号,以read_csv函数读取指定旅途下的文献,然后复返一个DataFrame对象。若是在敕令行中打印DataFrame对象色窝窝无码一区二区三区,可读性可能会略差一些;若是在Jupyter Notebook中打印的话,可读性会大幅晋升。
打印出来的DataFrame包含索引(第一列),列名(第一瞥)及数据实质(除第一瞥和第一列除外的部分)。
此外色窝窝无码一区二区三区,read_csv函数有许多参数不错缔造,如下所示。
filepath_or_buffer csv文献的旅途 sep = ',' 分隔符,默许为逗号 header = 0 int类型,0代表第一瞥为列名,若设定为None将使用数值列名 names = [] list,重新界说列名,默许为None usecols = [] list,界说读取的列,设定后将裁汰读取数据的时辰,并减小内存破钞,符合读取大宗数据,默许为None dtype = {} dict,界说读取列的数据类型,默许为None nrows = None int类型,指定读取数据的前n行,默许为None na_values = ... str类型,list或dict,指定缺失值的填充值 na_filter = True bool类型,自动发现数据中的缺失值,默许值为True,若笃定数据完竣失,不错设定值为False,以提高数据载入的速率 chunksize = 1000 int类型,分块读取,当数据量较大时,不错设定分块读取的行数,扒开双腿猛进入免费视频默许为None encoding = 'utf-8' str类型,数据的编码,Python3默许编码为UTF-8,Python2默许编码为ASCII Pandas除了不错径直读取csv、excel、json、html等文献生成的DataFrame,也不错在列表、元组、字典等数据结构中创建DataFrame。 2 读取指定行和指定列使用参数usecol和nrows读取指定的列和前n行,这么不错加速数据读取速率。读取原数据的两列、两行示举例下。
csv = pd.read_csv('data/sample.csv',\ usecols=['id','name'],\ nrows=2) #读取'id'和'name'两列,仅读取前两行 csv
id name 0 1 小明 1 2 小红3 分块读取
参数chunksize不错指定分块读取的行数色窝窝无码一区二区三区,并复返一个可迭代对象。这里,big.csv是一个4500行、4列的csv数据,设定chunksize=900,分5块读取数据,每块900行,4个变量,如下所示:
csvs = pd.read_csv('data/big.csv',chunksize=900) for i in csvs: print (i.shape)
(900, 4) (900, 4) (900, 4) (900, 4) (900, 4)
不错使用pd.concat函数读取一齐数据:
csvs = pd.read_csv('data/big.csv',chunksize=900) dat = pd.concat(csvs,ignore_index=True) dat.shape
(4500, 4)4 将不对理数据读取为缺失值
在数据sample.csv中,“小青”的分数中有的取值为99999,这里令其读取为缺失值,操作如下:
csv = pd.read_csv('data/sample.csv', na_values='99999') csv
id name scores 0 1 小明 78.0 1 2 小红 87.0 2 3 小白 99.0 3 4 小青 NaN 4 5 小兰 NaN5 以指定编码口头读取
读取数据时,乱码情况通常出现。这里需要先弄了了原始数据的编码神气,再以指定的编码神气读取,举例sample.csv编码为UTF-8,这里以指定编码(参数encoding)口头读取。
csv = pd.read_csv('data/sample.csv', encoding='utf-8') csv
id name scores 0 1 小明 78.0 1 2 小红 87.0 2 3 小白 99.0 3 4 小青 99999.0 4 5 小兰 NaN
对于作家:张秋剑,赴任于腾讯云金融拓展中心,从事微信钞票营销顾问、数据中台、AI欺骗等处理决议拓展责任,探究宗旨包括数字化转型、翻新执行等。
张浩,曾任腾讯云金融首席架构师和星环科技金融行业技能总监,主要从事大数据、人工智能、云筹办、区块链、联邦学习等关联技能研发与产物想象,具有丰富的企业架构想象、企业数字化政策转型运营与业务究诘训戒。
周大川,赴任于某中央金融企业金融科技研发中心,主要从事企业级数据平台开采、中枢业务平台设置、AI赋能金融科技翻新等责任,具有丰富的新一代金融业务系统设置训戒。
常国珍,曾任毕马威究诘大数据总监,具有近20年数据挖掘、精益数据治理、数字化运营究诘训戒,是金融信用风险、反讹诈和反洗钱算法边界的众人。
本文摘编自《金融生意数据分析:基于Python和SAS》,经出书方授权发布。(ISBN:9787111695837)