Python3 爬取考研数据,所有985高校,六成211高校均可调剂

Python3

Python爬取考研数据:所:satisfied:有985高校、六成211高校均:satisfied:可调剂

Python爬取考研数🐖据:所有985高校、六成211高🐒校均可调剂Python爬取考🐂研数据:所有985高校、六🐕成211高校均可调剂

又💙到了一年一度的考🔥研出分时间啦,近期🐖有不少朋友让笔者🐻帮他们分析如何提🐂前做好调剂。复试与🐻调剂总是密不可分。⭐今天,给大家分享一⭐些调剂的重要知识:satisfied:点,希望你在调剂的🐕时候,能明白调剂的:satisfied:趋势与规则。

也许,大🐕家对于调剂的印象,:satisfied:就是只要等待招生⭐单位的复试通知就⭐可以了,其实这是错🐻误的,这里会经历很🐖多流程,如筛选排除,🐻但最终决定权还是💙在导师的手里,每年🐕都会有五分之一的👅考生达到了分数线,🐻却倒在了调剂上。那⭐么具体原因有哪些🐒呢?

编辑 | 胡巍巍

Python爬取:satisfied:考研数据:所有985高校、🐕六成211高校均可调剂

🎲考研调剂中的机遇⭐与风险

一、在获取调🐒剂信息的时候,出现:satisfied:重要的延误,没有及💙时获取一手信息,导⭐致很多人提前联系⭐导师,博得好印象。

二、🔥成绩达标,获取的调🐻剂信息太少,没有去🐕到自己心仪的高校,🎲而被迫进行无奈的👅选择。

三、调剂信息量🐂太大,大家都知道1-4月👅是调剂信息的爆发🐂期,每天盯着大量的🔥内容,难免会有所遗⭐漏,没有做好信息的🐕快速筛选,导致匆忙⭐应对调剂、而忽略了🐕自身的匹配性。

以上👅这三种被刷的概率:satisfied:是最大的,所以,一定:satisfied:要评估好自己的综🐕合能力,调剂也是一👅门技术活,认清自己,⭐选择合适才是王道。🔥下面再列举一些调🐂剂的技巧。

要想成功⭐调剂,首先要把握调⭐剂的第一手信息,能🐂及时地获取到哪所🐻高校的专业招生人⭐数不足,而且符合你💙的条件,是很有必要🐕的。同时,调剂也是有🐕要求的,如下,

一、具备🐂国家规定的复试资🐕格;

二、入学考试统考⭐科目中的俩科要与🐕调剂专业的考试科🎲目完全相同,两科的💙专业考试科目要相🐒同或相近(专业不对:satisfied:口,调剂成功的机率🎲为零);

三、优先考虑本:satisfied:专业内部的调剂,再🔥考虑跨专业调剂,最🐂后是跨校调剂;

四、咨🐻询高校研招办确认🐻招生人数是否已满,👅满的不要考虑了(获🔥取第一手招生空缺⭐信息很重要);

五、不要🐻等待复试结果,各校🐂的复试时间有差异,🐻容易错失调剂的机🐖会。

Python爬取考研数据:所🐕有985高校、六成211高校均🐖可调剂

调剂数据爬🐂虫Selenium开发实战

本文只💙获取数据并进行数🐕据分析,以帮助大家🎲更好的了解调剂形:satisfied:势。

选取中国考研网👅站上公布调剂查询🐒页面,其页面效果大🐕致如图所示:

Python爬取考🐻研数据:所有985高校、六🐒成211高校均可调剂

先🐂对页面结构进行分🐻析,可以看出是【信息🐂流】+【粗->细】+【翻页】的结构。

🐂针对这种结构,采用Python+Selenium🐖进行爬虫开发。

Selenium是一👅个用于Web应用程序测🐖试的工具。Selenium测试直接👅运行在浏览器中,就🔥像真正的用户在操🐕作一样。支持的浏览🐖器包括IE(7, 8, 9,
10, 11)、Mozilla 、Firefox、Safari、Google Chrome、Opera等。

这个工具💙的主要功能包括:测👅试与浏览器的兼容💙性——测试你的应用程:satisfied:序看是否能够很好⭐地工作在不同浏览⭐器和操作系统之上。🎲测试系统功能——创建⭐回归测试检验软件🐖功能和用户需求。支:satisfied:持自动录制动作和🎲自动生成
.Net、Java、Perl等不同语👅言的测试脚本。

大学🐕名称、专业名称以及🐕调剂标题名称,均在🐒列表中。那么:

第一步:👅获取【信息流所在的HTML:satisfied:元素】

通过对HTML进行解🐻析,可以发现所有的:satisfied:信息流的都是DIV标签💙包裹的,其共同特征⭐都是class=”info-item font14” 。

Python爬取考研数据:🐂所有985高校、六成211高校🔥均可调剂

由此想到Selenium🐖中的一个接口find_elements_by_xpath,那么Xpath🐒是什么呢?

XPath即为XML路径🐻语言(XML Path Language),它是一种用来💙确定XML文档中某部分:satisfied:位置的语言。取节点
XPath💙使用路径表达式在XML:satisfied:文档中选取节点。节🔥点是通过沿着路径:satisfied:或Step来选取的。

下面列🐖出了最有用的路径💙表达式:

表达式

|

描述

—|—

nodename

|

👅选取此节点的所有👅子节点。

/

|

从根节点选🐒取。

//

|

从匹配选择的当🎲前节点选择文档中🎲的节点,而不考虑它⭐们的位置。

.

|

选取当前🐂节点。

..

|

选取当前节点🐖的父节点。

@

|

选取属性。

💙在下面的表格中,已🐕列出了一些路径表🐻达式以及表达式的🔥结果:

路径表达式

|

结🎲果

—|—

bookstore

|

选取 bookstore 元素的所有⭐子节点。

/bookstore

|

选取根元素 bookstore。

🐖注释:假如路径起始🔥于正斜杠( / ),则此路径🐕始终代表到某元素⭐的绝对路径!

bookstore/book

|

选取属🐂于 bookstore 的子元素的所有 book 🐕元素。

//book

|

选取所有 book 子元🎲素,而不管它们在文🐖档中的位置。

bookstore//book

|

选择属🎲于 bookstore 元素的后代的所🐒有 book 元素,而不管它们🐖位于 bookstore 之下的什么位🐻置。

//@lang

|

选取名为 lang 的所有🐒属性。

通过xpath,可以根据⭐标签中的子属性以💙及层级结构进行自🐻定义的精细筛选。

那🐂么,针对这里的信息💙流Xpath,应该怎么去写代🎲码呢?

可以看到信息🐂是属于DIV的,Class均为info-item font14,于是🐒可以得出:

Python爬取考研🐻数据:所有985高校、六成211💙高校均可调剂

到这🐕里,就得到了调剂的👅所有信息流板块,接🔥下来要做的是针对:satisfied:每一个信息流板块:satisfied:单独解析,拿出其中⭐的标签与超链接。

Python爬🔥取考研数据:所有985高👅校、六成211高校均可调🐕剂

可以看到信息流🔥的子项如下图所示,🎲这个时候,可以根据class=”school” 👅抓取大学名称,根据class=”name”🐻抓取专业名称
,根据class=”title”👅抓取超链接和标题,👅根据class=”time”抓取发布日期。

Python:satisfied:爬取考研数据:所有985🐒高校、六成211高校均可⭐调剂

代码如下所示:

🐂之后,点开一个详情🔥页,查看调剂的内容:

Python🔥爬取考研数据:所有985💙高校、六成211高校均可🐂调剂

可以看到页面🐒的排版如上,所需要⭐的调剂内容就是图👅中红框标识出来的,🐂这里对页面进行HTML解🐂析,发现红框的HTML标签🐂为DIV,class=”student-
body font14” 。

Python爬取考研数据:所🐂有985高校、六成211高校均🐻可调剂

同理,还用上👅神奇的Xpath来进行抓取。

Python🎲爬取考研数据:所有985⭐高校、六成211高校均可🎲调剂

并用innerHTML属性获取🔥网页格式字符串。

就⭐这样,就完成了调剂🐖基本数据的抓取,把:satisfied:数据存到一个数据👅表里,进行分析。

Python爬取🐖考研数据:所有985高校、🐖六成211高校均可调剂Python:satisfied:爬取考研数据:所有985:satisfied:高校、六成211高校均可🐖调剂

SQL编程与数据分:satisfied:析

因为数据存在的MySQL🔥数据库中,为了方便🐒和更直观的展示出🎲数据分析的思路和:satisfied:过程,这里采用的SQL语:satisfied:句进行数据查询与🐂提取。

1.学校层次分析

🐂首先分析,历年调剂🐒高校的层次【985 211 双非】。

SQL代🐕码为:

Python爬取考研数据:🔥所有985高校、六成211高校🔥均可调剂

结果为:

Python爬👅取考研数据:所有985高🐂校、六成211高校均可调🐕剂

之后,为了方便统🐒计高校的层次分布,:satisfied:在外部再套上一层GROUP BY🐒语句进行分类:

Python爬取🐒考研数据:所有985高校、🐻六成211高校均可调剂

💙结果如下图所示,可🐒以看出大量调剂学🐕校来自于双非高校,🐻但是考虑到211大学的🐕总量为112所,985大学总量🐖为39所,可以看出,接近62%🐻的211高校都发布了调🐒剂信息,所有的985高校👅都发布过调剂信息。

💙可以得出,调剂中还🐂是有很大很大机会💙可以进入211,985高校的,每🐒个高校都会发布招🐂生机会,但是能不能🐕把握住!就要看自己⭐了!

Python爬取考研数据:所🐂有985高校、六成211高校均🔥可调剂

这可能就是,⭐机会就在眼前,能不⭐能把握就看自己了。🐖用Matplotlib画出来的饼状图🐂如下图所示:

Python爬取考:satisfied:研数据:所有985高校、六👅成211高校均可调剂

2.学🐒校类型分析

接下来,:satisfied:看看各大高校的学🎲校类别,都是什么类🐒型的学校,这个简单,🐂一个SQL解决。

Python爬取考研🔥数据:所有985高校、六成211:satisfied:高校均可调剂

哇,可🎲以看到语言、政法、体👅育类的高校,调剂信👅息很少,都是个位数。🔥而主要是理工、综合🐖类型的高校调剂机🐂会比较多,小同学们,🐖这下在搜集高校调🎲剂信息的时候,就可🐂以更有侧重点了。

通🐻过Matplotlib绘制出这个饼状:satisfied:图片:

Python爬取考研数据:🐕所有985高校、六成211高校💙均可调剂

3.学校地域🐖分析

同理,对调剂学💙校所在的省市进行🐻数据分析,得出如下👅柱状图:

Python爬取考研数🐖据:所有985高校、六成211高🎲校均可调剂

可以看🐂到调剂机会遍布全🐖国,只要你认真把握,🐕一定可以去的了自🐕己理想的城市,寻找🐖理想的TA!

4.专业/技能/领🎲域分析

通过对专业👅进行分类筛选,绘制🎲出专业云图,通过Jieba分🔥词,与自建词典集合👅相似词语聚类算法,:satisfied:发现调剂中总共涉🐂及的【技能/专业/领域】⭐词汇达到6006种,真可谓⭐是门类广阔啊,也是🔥每个小众学科的福:satisfied:音。

其中几大热门专:satisfied:业和研究方向如下👅所示:经管仍是调剂🔥中最吃香的专业,其🐒次就是理工科了。本🎲人就是生物医学工🎲程专业出生的,在这🐒里看到了自己的专🐖业,还挺欣慰。

Python爬取考🐂研数据:所有985高校、六🐂成211高校均可调剂Python爬🐒取考研数据:所有985高🔥校、六成211高校均可调⭐剂

总结

经过从Selenium爬虫⭐开发,到数据库Select查询,🐕再到Matplotlib图表绘制,仅仅:satisfied:通过三大步骤,就可👅以发现考研调剂是🔥一个机遇与风险并🐖存的大事件,在这里🔥全国所有985和超半数👅的211,几乎全部的高校🐂都在向你敞开怀抱,⭐每一个考生需要有🐒充分的耐心去把握🔥住属于自己的机会,🐻不泄气,不骄不躁。

【end】

CSDNx巨🐂杉大学联合认证学⭐习,免费开放!“ 分布式🐖数据库集训营
”帮助:satisfied:您从零开始学习分👅布式数据库、分布式:satisfied:架构知识,现在加入💙活动,完成课程还将⭐专属礼品。快来参加🐒吧~

了解详情:

http://www.sequoiadb.com/cn/university-camp

Python爬取考⭐研数据:所有985高校、六🎲成211高校均可调剂

  • CNN vs RNN vs ANN——3种:satisfied:神经网络分析模型,💙你pick谁?

  • 从知青、终身教⭐授到芯原创始人,戴⭐伟民的中国“芯”之路

  • 2020,:satisfied:人工智能和深度学:satisfied:习未来的五大趋势

  • 🐕被盗巨鲸用户可能🐂遭到了持续性攻击

  • RabbitMQ VS Kafka:🐂消息队列与流处理🐻平台之争

  • 复工第一🐂周:食堂吃出了高考👅的感觉……

周:食堂吃出🐻了高考的感觉……

未经允许不得转载:来笔趣阁 » Python3 爬取考研数据,所有985高校,六成211高校均可调剂