【欧巴的教程】我学会它之后,逃离了内卷,收入也翻倍了

之前在新东方教书,收入和带的学生量成正比。带的学生越多,课时费就越多。

但问题是,学生多,每天要处理的信息也多,同时还得准备大量备考材料,所以老师带的学生量是有天花板的。

虽然那时候“内卷”这个词儿还没火,但我已经感觉整个人在被慢慢掏空。

每天做的都是重复性劳动,纯粹用时间换金钱。

为了防止情况恶化,我就硬着头皮学了些编程技巧,让电脑帮我分担了这部分体力活儿。

比如,在备考网站上,把需要的材料都复制粘贴下来(爬虫)

Image

比如,根据学生做的阅读题,自动生成生词表,来督促他复习(python)

Image

比如,把听力音频逐句切割,发给学生练习听力(ffmpeg)

Image

等我利用编程和各种工具,把一半的工作分给电脑后,发现自己能带的学生,比其他老师多了3~5倍,原来的天花板被我给掀翻了。

更重要的发现是:

编程这东西没多难。

主要是市面上的教程都太理论化。总是冲着“大而全”来设计,目标是把你培养成一个程序员。

可我没必要成为一个程序员啊!我就想解决点工作中的小问题啊!

我只想让电脑帮我做点体力活儿,减轻我的工作压力,让我多点空闲时间,这个要求不高啊!

我想多数人和我的想法是一样的。

比如,前段时间和一个朋友聊天,他从事证券行业,需要在网上批量搜集公司信息。上百家公司的内容,需要一次次复制粘贴,效率实在太低。

Image

了解了他的需求之后,我用之前学的爬虫工具,十分钟帮他搞定了一天的工作。

Image

Image

关键是,掌握这个工具,并不需要你报几千块的课,花几个月时间。只要你有电脑,愿意抽出1~2个小时就行。

想到很多读者和我这位朋友一样,被重复性工作绑架,宝贵的时间和精力都被浪费了,我就觉得应该好好写一套系列教程,把我之前如何逃离“内卷”,提升效率的经验总结下。

第一个给大家介绍的,就是这个爬取工具:

Web Scraper

利用这个工具,可以实现绝大部分网页的爬取,关键在于:

不需要编程基础

所以大家不必担心学不会,只要跟着后面的教程一步步操作,基本上都可以掌握。

这个过程中,你能感觉掌握一个高级工具之后,自己的工作生活能有多大的质量提升。

课前准备

Web Scraper 是一个浏览器插件,目前支持谷歌浏览器和火狐浏览器。

因为一些朋友无法访问谷歌,所以我将所需的文件资源都存放到了网盘中,大家在公众号后台回复关键词“爬虫”,就可以看到提取的链接。

Image

不论你是否能访问谷歌,都建议你采用这个方式来安装。

因为这是我验证过的一个版本,后面的教程也都会依照此版本进行。

打开网盘链接后,根据自己的电脑系统(Windows/苹果),选择对应的文件夹下载。

Image

下载完成之后,首先安装浏览器(谷歌/火狐)

Windows用户推荐安装火狐浏览器,苹果用户推荐安装谷歌浏览器。

(如果电脑中已有某款浏览器,可以跳过这部分,直接看插件的安装步骤)

安装过程和其他软件相同,双击打开软件,按照导引操作即可。

Image (Windows,火狐浏览器,双击后安装)

Image (苹果系统,谷歌浏览器,双击后拖动到应用文件夹)

下面介绍下,浏览器中插件的安装,以及爬虫的初体验。

火狐浏览器

安装好浏览器之后,打开浏览器,选择右上角的“三杠”,点击“更多工具”,然后选择“面向开发者的扩展”。

Image

进入插件页面之后,在右上角搜索栏里,搜索“Web Scraper”,点击下拉菜单中的搜索结果,跳转到安装页面,点击“添加到Firefox”进行安装。

Image

在弹框中点击“添加”,随后勾选弹框中的选项,点击“好的”完成安装。

Image

在浏览器中打开任意网页,点击右键,然后选择其中的“检查”,调出“开发者工具”窗口。

“开发者工具”是我们操作爬虫的界面,里面看起来很高大上,但我们用到的不多,所以大家不必担心。

只要看到最后一栏有“Web Scraper”的标志,就说明我们已经安装好了,前期的工作已经完成。

Image

注意:

如果你调出的“开发者工具”窗口不在下方,而在侧方,可能查看不到“Web Scraper”的标志。

这时,只需要点击“开发者工具”右上角的三个点,然后选择上下分栏的停靠侧,即可把“开发者工具”的窗口,调至下方。

Image

谷歌浏览器

安装好浏览器之后,打开浏览器,选择右上角的三个点,选择“更多工具”,然后选择“扩展程序”。

Image

将右上角的“开发者模式”点开。

Image

随后在刚才下载的“爬虫资源”文件夹中找到WebScraper.crx,拖拽到浏览器窗口中,并点击“添加扩展程序”完成插件的安装。

Image

Image

Image

同火狐浏览器一样,打开任意网页后,点击右键,然后选择其中的“检查”,调出“开发者工具”窗口。

只要看到最后一栏有“Web Scraper”的标志,就说明我们已经安装好了。

Image

注意:

如果你调出的“开发者工具”窗口不在下方,而在侧方,可能查看不到“Web Scraper”的标志。

这时,只需要点击“开发者工具”右上角的三个点,然后选择上下分栏的停靠侧,即可把“开发者工具”的窗口,调至下方。

Image

提示:

建议大家还是学会如何访问谷歌,这样不光能减少很多不必要的麻烦,而且还能获取更多资源(比如YouTube上的优质教程等)。

关于如何访问谷歌,我在网盘的资料中也附加了相应的方法,大家下载的时候,可以参考使用。

不同的系统,只在浏览器安装过程略有差别。

后续的所有操作都将在浏览器当中进行,所以系统差异可以忽略不计,我将使用苹果系统下的谷歌浏览器作为示范。

快速体验爬虫

在开始后续的教学步骤之前,我们可以先来体验一下,这个工具在运转时的状态。

我准备了几个已经编辑好的爬虫规则,大家可以拿过来直接用。

在刚才打开的“开发者工具”中,点击Web Scraper,可以看到软件的界面。

Image

点击 “Create new sitemap”, 选择“Import Sitemap”,随后出现如下界面。

Image

在之前下载的“爬虫资源”文件夹中,有一个import文件夹,里面就是已经编辑好的爬虫规则,我们称之为“网页地图”。

大家可以打开任意一个文档,把里面的内容复制粘贴到“Sitemap JSON”对话框里,并给它任意取个名字(三个英文字母以上),随后点击“Import Sitemap”。

Image (以“豆瓣读书列表”为例)

随后,界面会跳转到这个地图的内部,我们暂时不用管。

点击界面中的第二栏“Sitemap xxx”(这里的xxx应该会显示你刚才保存的名称,我取的是douban),选择其中的Scrape。

出现两个时间的设定,使用默认值即可,然后点击“Start Scraping”。

Image

随后你就会看到,电脑新建了一个浏览器,并且开始自己爬取网页的内容了。

爬取结束后,刚才弹出的浏览器会自动关闭。

Image (倍速播放爬取过程)

你可以点击界面中出现的“refresh”键,刷新一下,查看刚才爬取的结果。

Image

还是点击界面中的第二栏“Sitemap xxx”,选择“Export Data”,选择其中的任意格式,就能把爬取的内容下载成文件了(都是表格形式)

Image

在谷歌浏览器中,下载的文件会自动出现在窗口底部,点击即可打开。

在火狐浏览器中,下载的文件会在右上角的下载图标中,点击后可以查看。

Image

Image

Image

网盘文件中存放了几个不同的“网页地图”,大家可以按照上述流程,都拿过来试试。

所谓“网页地图”,就是我们给爬虫下达的指令,告诉它我们需要在哪些网站,按照什么规则,去爬取什么内容。

创建好的“网页地图”会被收藏在第一栏的“sitemaps”中,方便后期的调用和修改。

Image

我们后面的教学,就是围绕着如何创建这种“网页地图”展开的。

这些看起来复杂的“网页地图”,其实都是电脑后期自动生成的,我们需要做的只是点点鼠标而已,大家不必担心。

因为我不是专业的程序员,所以专业的东西我也不太懂。

不过这反倒可以成为一个优势:

1.我能站在新手的角度,用小白能听懂的话,尽量把事儿说清楚。2.只把教程做到“够用”的程度,让读者能真正用起来。

所以不管是这个爬虫的教程,还是后续的编程系列教程,都会遵守这个原则来编排。

预告:下一篇我们讲解下Web Scraper的基础框架。

在基础框架上,稍加变形,就可以应对几乎所有的爬虫情况,所以掌握这部分内容还是挺重要的。