色窝窝无码一区二区三区 手把手教你使用 Pandas 读取结构化数据

国产午夜无码精品免费看

国产午夜无码精品免费看

  • 首页
  • free×性护士vidos呻吟
  • 扒开双腿猛进入免费视频
  • 丝袜人妻一区二区三区
  • 香港三级台湾三级在线播放
  • 你的位置:国产午夜无码精品免费看 > 扒开双腿猛进入免费视频 > 色窝窝无码一区二区三区 手把手教你使用 Pandas 读取结构化数据

    色窝窝无码一区二区三区 手把手教你使用 Pandas 读取结构化数据

    发布日期:2022-05-10 20:38    点击次数:157
    本文转载自微信公众号「大数据DT」,作家张秋剑 张浩 等。转载本文请关联大数据DT公众号。 DataFrame是咱们常见的二维数据表,包含多个变量(列)和样本(行),肤浅被称为数据框。 Series是一个一维结构的序列,包含指定的索引信息,不错被视作DataFrame中的一列或一瞥。其操作秩序与DataFrame尽头相通。 Panel是包含序列及截面信息的三维结构,肤浅被称为面板数据。

    咱们可通过遗弃时辰ID和样本ID赢得对应的Series和DataFrame色窝窝无码一区二区三区。

    由于这些对象的常用操作秩序尽头相通,因此本文主要使用DataFrame进行演示。

    1 读取文献

    Pandas库提供了浅陋读取土产货结构化数据的秩序。这里主要以csv数据为例色窝窝无码一区二区三区,read_csv函数不错读取csv数据,代码如下:

    51CTO和华为官方合作共建的鸿蒙技术社区色窝窝无码一区二区三区

    51CTO和华为官方合作共建的鸿蒙技术社区

    可能大家都知道,字符串存在字符串常量池中,被栈或堆上的变量引用。如果变量的值是字符串字面量,则在栈上的变量直接引用字符串常量池中的字符串;如果是字符串是 new String 创建的,则会在堆上创建 String 对象,指向字符串常量池中的字符串,栈上变量指向堆中的 String 对象。

    之所以网关对微服务这么重要色窝窝无码一区二区三区,主要有以下几点原因:

    Go slice 里面放struct 应该使用指针吗?

    import 色窝窝无码一区二区三区pandas as pd csv = pd.read_csv('data/sample.csv') csv 
    id name   scores 0   1  小明    78.0 1   2  小红    87.0 2   3  小白    99.0 3   4  小青 99999.0 4   5  小兰     NaN 

    按照常规,Pandas会以pd为别号,以read_csv函数读取指定旅途下的文献,然后复返一个DataFrame对象。若是在敕令行中打印DataFrame对象色窝窝无码一区二区三区,可读性可能会略差一些;若是在Jupyter Notebook中打印的话,可读性会大幅晋升。

    打印出来的DataFrame包含索引(第一列),列名(第一瞥)及数据实质(除第一瞥和第一列除外的部分)。

    此外色窝窝无码一区二区三区,read_csv函数有许多参数不错缔造,如下所示。

    filepath_or_buffer csv文献的旅途 sep = ',' 分隔符,默许为逗号 header = 0 int类型,0代表第一瞥为列名,若设定为None将使用数值列名 names = [] list,重新界说列名,默许为None usecols = [] list,界说读取的列,设定后将裁汰读取数据的时辰,并减小内存破钞,符合读取大宗数据,默许为None dtype = {} dict,界说读取列的数据类型,默许为None nrows = None int类型,指定读取数据的前n行,默许为None na_values = ... str类型,list或dict,指定缺失值的填充值 na_filter = True bool类型,自动发现数据中的缺失值,默许值为True,若笃定数据完竣失,不错设定值为False,以提高数据载入的速率 chunksize = 1000 int类型,分块读取,当数据量较大时,不错设定分块读取的行数,扒开双腿猛进入免费视频默许为None encoding = 'utf-8' str类型,数据的编码,Python3默许编码为UTF-8,Python2默许编码为ASCII Pandas除了不错径直读取csv、excel、json、html等文献生成的DataFrame,也不错在列表、元组、字典等数据结构中创建DataFrame。 2 读取指定行和指定列

    使用参数usecol和nrows读取指定的列和前n行,这么不错加速数据读取速率。读取原数据的两列、两行示举例下。

    csv = pd.read_csv('data/sample.csv',\                   usecols=['id','name'],\                   nrows=2) #读取'id'和'name'两列,仅读取前两行 csv 
    id name 0   1  小明 1   2  小红 
    3 分块读取

    参数chunksize不错指定分块读取的行数色窝窝无码一区二区三区,并复返一个可迭代对象。这里,big.csv是一个4500行、4列的csv数据,设定chunksize=900,分5块读取数据,每块900行,4个变量,如下所示:

    csvs = pd.read_csv('data/big.csv',chunksize=900) for i in csvs:    print (i.shape) 
    (900, 4) (900, 4) (900, 4) (900, 4) (900, 4) 

    不错使用pd.concat函数读取一齐数据:

    csvs = pd.read_csv('data/big.csv',chunksize=900) dat = pd.concat(csvs,ignore_index=True) dat.shape 
    (4500, 4) 
    4 将不对理数据读取为缺失值

    在数据sample.csv中,“小青”的分数中有的取值为99999,这里令其读取为缺失值,操作如下:

    csv = pd.read_csv('data/sample.csv',                   na_values='99999') csv 
    id name  scores 0   1  小明   78.0 1   2  小红   87.0 2   3  小白   99.0 3   4  小青    NaN 4   5  小兰    NaN 
    5 以指定编码口头读取

    读取数据时,乱码情况通常出现。这里需要先弄了了原始数据的编码神气,再以指定的编码神气读取,举例sample.csv编码为UTF-8,这里以指定编码(参数encoding)口头读取。

    csv = pd.read_csv('data/sample.csv',                   encoding='utf-8') csv 
    id name   scores 0   1  小明    78.0 1   2  小红    87.0 2   3  小白    99.0 3   4  小青 99999.0 4   5  小兰     NaN 

    对于作家:张秋剑,赴任于腾讯云金融拓展中心,从事微信钞票营销顾问、数据中台、AI欺骗等处理决议拓展责任,探究宗旨包括数字化转型、翻新执行等。

    张浩,曾任腾讯云金融首席架构师和星环科技金融行业技能总监,主要从事大数据、人工智能、云筹办、区块链、联邦学习等关联技能研发与产物想象,具有丰富的企业架构想象、企业数字化政策转型运营与业务究诘训戒。

    周大川,赴任于某中央金融企业金融科技研发中心,主要从事企业级数据平台开采、中枢业务平台设置、AI赋能金融科技翻新等责任,具有丰富的新一代金融业务系统设置训戒。

    常国珍,曾任毕马威究诘大数据总监,具有近20年数据挖掘、精益数据治理、数字化运营究诘训戒,是金融信用风险、反讹诈和反洗钱算法边界的众人。

     

    本文摘编自《金融生意数据分析:基于Python和SAS》,经出书方授权发布。(ISBN:9787111695837)

     



    栏目分类