mongodb 导入excel 数据分析 如何使用python抓取豆瓣的电影评论信息?你有哪些技巧分享?

[更新]
·
·
分类:互联网
4121 阅读

mongodb 导入excel 数据分析

mongodb 导入excel 数据分析 如何使用python抓取豆瓣的电影评论信息?你有哪些技巧分享?

如何使用python抓取豆瓣的电影评论信息?你有哪些技巧分享?

如何使用python抓取豆瓣的电影评论信息?你有哪些技巧分享?

本文以python为例,简单介绍如何抓取豆瓣电影的评论信息。由于评论信息是静态加载的,抓取起来非常简单,特别适合新手学习。我简单介绍一下实现过程,实验环境是win10 python3.6 pycharm5.0,主要内容如下:

1.让 假设我们要抓取的是《一路好戏》 ;的影评信息,包括影评人、评分、日期和评论,如下,address _ scorecard:

对应网页的源代码内容如下,需要解析以下内容:

2.对应网页结构,抓取源代码如下,主要使用requests和BeautifulSoup,其中requests用于请求页面,BeautifulSoup用于解析页面,提取所需信息。原理很简单,实现也不难:

3.影评信息抓取完成后,需要对抓取的信息进行存储。这里以访问excel文件为例,主要使用熊猫的DataFrame类,非常简单,如下:

节目截图如下,豆瓣影评信息已成功保存:

至此,我们已经完成了使用python对豆瓣影评信息的抓取。总的来说,整个过程并不难。结合requests BeautifulSoup,可以快速抓取豆瓣的影评信息。对于初学者来说,这是一个非常好的练习例子。熟悉之后,我们还可以用scrapy框架抓取影评信息,并将抓取的结果存储在mysql、mongodb等数据库中。我赢了。;这里不详细介绍这个过程。有兴趣可以搜索一下相关资料。希望上面分享的内容可以。

数据分析师用哪个数据库比较好?

OLAP对于数据分析来说是一个非常宽泛的概念。由于主题是询问数据分析师使用的数据库,因此很难确定使用哪个固定数据库。不同的领域一般侧重于不同的属性,这和数据本身的数量级有关。

一般来说,中小企业的数据一般都在TB以下,大多使用mysql、sqlserver、oracle、pgsql等关系型数据库做一些分析。结合clickhouse、impala、mariadb columnstore等一些MPP数据库,基本可以满足应有的需求。

以上都是用标准SQL分析的。如果有特殊的非结构化数据分析需求,可以先考虑结构化转换,或者使用hdoop、spark等。

Python支持上面提到的所有数据库。Access是比较初级的本地数据库,处理能力也比较初级。

希望对你有帮助。