【欧巴的教程】我学会它之后，逃离了内卷，收入也翻倍了

2022.2.9

之前在新东方教书，收入和带的学生量成正比。带的学生越多，课时费就越多。

但问题是，学生多，每天要处理的信息也多，同时还得准备大量备考材料，所以老师带的学生量是有天花板的。

虽然那时候“内卷”这个词儿还没火，但我已经感觉整个人在被慢慢掏空。

每天做的都是重复性劳动，纯粹用时间换金钱。

为了防止情况恶化，我就硬着头皮学了些编程技巧，让电脑帮我分担了这部分体力活儿。

比如，在备考网站上，把需要的材料都复制粘贴下来（爬虫）

比如，根据学生做的阅读题，自动生成生词表，来督促他复习（python）

比如，把听力音频逐句切割，发给学生练习听力（ffmpeg）

等我利用编程和各种工具，把一半的工作分给电脑后，发现自己能带的学生，比其他老师多了3~5倍，原来的天花板被我给掀翻了。

更重要的发现是：

编程这东西没多难。

主要是市面上的教程都太理论化。总是冲着“大而全”来设计，目标是把你培养成一个程序员。

可我没必要成为一个程序员啊！我就想解决点工作中的小问题啊！

我只想让电脑帮我做点体力活儿，减轻我的工作压力，让我多点空闲时间，这个要求不高啊！

我想多数人和我的想法是一样的。

比如，前段时间和一个朋友聊天，他从事证券行业，需要在网上批量搜集公司信息。上百家公司的内容，需要一次次复制粘贴，效率实在太低。

了解了他的需求之后，我用之前学的爬虫工具，十分钟帮他搞定了一天的工作。

关键是，掌握这个工具，并不需要你报几千块的课，花几个月时间。只要你有电脑，愿意抽出1~2个小时就行。

想到很多读者和我这位朋友一样，被重复性工作绑架，宝贵的时间和精力都被浪费了，我就觉得应该好好写一套系列教程，把我之前如何逃离“内卷”，提升效率的经验总结下。

第一个给大家介绍的，就是这个爬取工具：

Web Scraper

利用这个工具，可以实现绝大部分网页的爬取，关键在于：

不需要编程基础

所以大家不必担心学不会，只要跟着后面的教程一步步操作，基本上都可以掌握。

这个过程中，你能感觉掌握一个高级工具之后，自己的工作生活能有多大的质量提升。

课前准备

Web Scraper 是一个浏览器插件，目前支持谷歌浏览器和火狐浏览器。

因为一些朋友无法访问谷歌，所以我将所需的文件资源都存放到了网盘中，大家在公众号后台回复关键词“爬虫”，就可以看到提取的链接。

不论你是否能访问谷歌，都建议你采用这个方式来安装。

因为这是我验证过的一个版本，后面的教程也都会依照此版本进行。

打开网盘链接后，根据自己的电脑系统（Windows/苹果），选择对应的文件夹下载。

下载完成之后，首先安装浏览器（谷歌/火狐）

Windows用户推荐安装火狐浏览器，苹果用户推荐安装谷歌浏览器。

（如果电脑中已有某款浏览器，可以跳过这部分，直接看插件的安装步骤）

安装过程和其他软件相同，双击打开软件，按照导引操作即可。

（Windows，火狐浏览器，双击后安装）

（苹果系统，谷歌浏览器，双击后拖动到应用文件夹）

下面介绍下，浏览器中插件的安装，以及爬虫的初体验。

火狐浏览器

安装好浏览器之后，打开浏览器，选择右上角的“三杠”，点击“更多工具”，然后选择“面向开发者的扩展”。

进入插件页面之后，在右上角搜索栏里，搜索“Web Scraper”，点击下拉菜单中的搜索结果，跳转到安装页面，点击“添加到Firefox”进行安装。

在弹框中点击“添加”，随后勾选弹框中的选项，点击“好的”完成安装。

在浏览器中打开任意网页，点击右键，然后选择其中的“检查”，调出“开发者工具”窗口。

“开发者工具”是我们操作爬虫的界面，里面看起来很高大上，但我们用到的不多，所以大家不必担心。

只要看到最后一栏有“Web Scraper”的标志，就说明我们已经安装好了，前期的工作已经完成。

注意：

如果你调出的“开发者工具”窗口不在下方，而在侧方，可能查看不到“Web Scraper”的标志。

这时，只需要点击“开发者工具”右上角的三个点，然后选择上下分栏的停靠侧，即可把“开发者工具”的窗口，调至下方。

谷歌浏览器

安装好浏览器之后，打开浏览器，选择右上角的三个点，选择“更多工具”，然后选择“扩展程序”。

将右上角的“开发者模式”点开。

随后在刚才下载的“爬虫资源”文件夹中找到WebScraper.crx，拖拽到浏览器窗口中，并点击“添加扩展程序”完成插件的安装。

同火狐浏览器一样，打开任意网页后，点击右键，然后选择其中的“检查”，调出“开发者工具”窗口。

只要看到最后一栏有“Web Scraper”的标志，就说明我们已经安装好了。

注意：

如果你调出的“开发者工具”窗口不在下方，而在侧方，可能查看不到“Web Scraper”的标志。

这时，只需要点击“开发者工具”右上角的三个点，然后选择上下分栏的停靠侧，即可把“开发者工具”的窗口，调至下方。

提示：

建议大家还是学会如何访问谷歌，这样不光能减少很多不必要的麻烦，而且还能获取更多资源（比如YouTube上的优质教程等）。

关于如何访问谷歌，我在网盘的资料中也附加了相应的方法，大家下载的时候，可以参考使用。

不同的系统，只在浏览器安装过程略有差别。

后续的所有操作都将在浏览器当中进行，所以系统差异可以忽略不计，我将使用苹果系统下的谷歌浏览器作为示范。

快速体验爬虫

在开始后续的教学步骤之前，我们可以先来体验一下，这个工具在运转时的状态。

我准备了几个已经编辑好的爬虫规则，大家可以拿过来直接用。

在刚才打开的“开发者工具”中，点击Web Scraper，可以看到软件的界面。

点击 “Create new sitemap”，选择“Import Sitemap”，随后出现如下界面。

在之前下载的“爬虫资源”文件夹中，有一个import文件夹，里面就是已经编辑好的爬虫规则，我们称之为“网页地图”。

大家可以打开任意一个文档，把里面的内容复制粘贴到“Sitemap JSON”对话框里，并给它任意取个名字（三个英文字母以上），随后点击“Import Sitemap”。

（以“豆瓣读书列表”为例）

随后，界面会跳转到这个地图的内部，我们暂时不用管。

点击界面中的第二栏“Sitemap xxx”(这里的xxx应该会显示你刚才保存的名称，我取的是douban)，选择其中的Scrape。

出现两个时间的设定，使用默认值即可，然后点击“Start Scraping”。

随后你就会看到，电脑新建了一个浏览器，并且开始自己爬取网页的内容了。

爬取结束后，刚才弹出的浏览器会自动关闭。

（倍速播放爬取过程）

你可以点击界面中出现的“refresh”键，刷新一下，查看刚才爬取的结果。

还是点击界面中的第二栏“Sitemap xxx”，选择“Export Data”，选择其中的任意格式，就能把爬取的内容下载成文件了（都是表格形式）

在谷歌浏览器中，下载的文件会自动出现在窗口底部，点击即可打开。

在火狐浏览器中，下载的文件会在右上角的下载图标中，点击后可以查看。

网盘文件中存放了几个不同的“网页地图”，大家可以按照上述流程，都拿过来试试。

所谓“网页地图”，就是我们给爬虫下达的指令，告诉它我们需要在哪些网站，按照什么规则，去爬取什么内容。

创建好的“网页地图”会被收藏在第一栏的“sitemaps”中，方便后期的调用和修改。

我们后面的教学，就是围绕着如何创建这种“网页地图”展开的。

这些看起来复杂的“网页地图”，其实都是电脑后期自动生成的，我们需要做的只是点点鼠标而已，大家不必担心。

因为我不是专业的程序员，所以专业的东西我也不太懂。

不过这反倒可以成为一个优势：

1.我能站在新手的角度，用小白能听懂的话，尽量把事儿说清楚。2.只把教程做到“够用”的程度，让读者能真正用起来。

所以不管是这个爬虫的教程，还是后续的编程系列教程，都会遵守这个原则来编排。

预告：下一篇我们讲解下Web Scraper的基础框架。

在基础框架上，稍加变形，就可以应对几乎所有的爬虫情况，所以掌握这部分内容还是挺重要的。