Skip to content

崩溃于爬虫

约 696 字大约 2 分钟

日常杂谈

2024-03-02

小记:

昨天晚上玩游戏玩high了,搞的我今天早上11点才起床。然后洗了个澡就去泡工作室里面去了。

今天写爬虫是有两个原因,第一个就是之前有一个爬虫的任务一直没忙得过来去弄;另一个是之前答应了一个学长,他想用pyqt去写一个个性化的课表,让我帮他把数据拿下来,顺道分析了转化成他能够读取的数据。

这就是今天万恶的开始。

课表

一开始去爬课表的时候,那个原始数据很好拿。一个get请求就把内容拿下来了,然后就到了痛苦的根源,数据的处理。

好好好,一看那个数据,我就不想去弄了。

image-20231002204335446

数据数据对不齐,那数据里面的文字也是,有时候有空格,有时候没空格,真让人头大 (*  ̄︿ ̄) , 写爬虫最讨厌数据不整齐,不老老实实的给我拿(bushi)。

这个问题还好处理了,重新遍历一下,把缺信息的补上就行。然后就到了最恶心的环节,上课时间的处理。这个真是最恶心的一部分。还好有 sunrt233 , 他给了提供了一个数据存储的方式,这个也算让我确定了数据拆分的方向。

然后就一直弄一直弄,这个课表,爬取1分钟,分析2小时,真的吐了呀。。。。

最后还是搞下来了,顺道存进了mysql里面,我滴任务就算完了,后面就不管我的事,写不出来就是学长自己的问题,嘿嘿嘿.....(ヾ(•ω•`)o)。 image-20231002205913874

古诗词

今天的另一个爬虫项目,就是去爬取一个网站的古诗词,要求包含诗人,诗词名,诗词内容。要求有5w条以上的数据。这肯定得用scrapy框架+redis分布式解决滴啦。

具体过程就说了,反正搞了4个多小时......

最主要的是,我开ip代理,又换ua值,但是还是给我挂了.....目前不知道怎么去解决这个问题

有知道的大神告诉我啊....(┬┬﹏┬┬)

image-20231002205516281

总结

今天就搞了两个爬虫,然后就过去了。我的golang还没有学,我的算法还没有练...........有点小崩,但是问题不大.....O.o