用MongoDB进行数据整理(一)

时间:2021-6-3 作者:qvyue

用MongoDB进行数据整理(一)数据提取基础

1.MongoDB简介

数据预处理 Data Wrangling:数据预处理是一个获得、提取、清洗和存储数据的过程。只有在完成这些过程之后,一切的分析才有意义。比如你对华尔街做量化分析,你想建一个自动交易模型,你首先要确保你的模型基于可靠的数据。

2.评估数据质量

一般来讲,我们不应该信任数据。数据是从哪里来的?要么是人手动打出来的,要么是来自人编写的程序,要么是这两者的结合。这个过程中总是涉及到人,所以可能会给我们带来问题。

比如某些excel文件中可能有些行列缺失了相应的值。

比如excel中日期的格式

3.表格格式 DataSet

在表格数据中,每行(row)代表一个数据项(item)。每项可以有一个或者多个字段,每列(column)代表一个不同的字段(field)。

在大多数表格数据中,第一行通常是这些字段的标签。

每一个单元格(cell)包含某一个字段的值(value)。

4.CSV格式

表格数据最常见的发布方式是CSV的数据格式。Python中包含了CSV模块,可以处理CSV数据。

CSV文件的第一行包含所有字段的标签。

CSV每行文本都是呈现为行,字段被分隔符隔开,这个分隔符(delimeter)通常是逗号(comma)。

5.练习解析CSV文件以及CSV模块的使用 CSV—>Dict

代码如下:https://github.com/mcdullsnow/mongoDBStudy/blob/master/1.py

6.XLRD简介

xlrd安装:pip install xlrd

如何以程序化模式处理Excel文件?Python中的XLRD模块可以处理老式的XLS格式和新的XLSX格式的Excel文件。利用这个模块我们可以载入excel工作簿中的所有数据,并在Python程序中对其进行各种处理。

我们应该怎样将Excel文件中的数据完全读取成python列表并对其进行处理。我们要如何在Excel文件中,利用XLRD模块处理行、列和单元格。最后,还要讲一下日期,主要是因为日期在XML中显示的形式各有不同。

7.JSON简介

习题集

1.

声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:qvyue@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。