文章主题:爬虫脚本, Python, ChatGPT, 网站变更

666AI工具大全,助力做AI时代先行者!

都知道最近ChatGPT聊天机器人爆火,我也想方设法注册了账号,据说后面要收费了。

ChatGPT是一种基于大语言模型的生成式AI,换句话说它可以自动生成类似人类语言的文本,把梳理好的有逻辑的答案呈现在你面前,这完全不同于传统搜索工具

ChatGPT不光可以回答人文、科学、情感等传统问题,还可以写代码、改bug,程序员可就急了,简直是在抢饭碗,所以网上出现各种ChatGPT让你失业的焦虑言论。

俗话说“百闻不如一见”,我试着让ChatGPT用Python去写爬虫脚本,看它到底行不行?

1、爬取知乎上的专栏文章

提问:

帮我用python写代码爬取这个网站的文章 https://zhuanlan.zhihu.com/p/595050104

ChatGPT:

ChatGPT与Python爬虫:一次令人惊喜的合作

把给到的代码放进PyCharm中跑一遍,发现没有报错,且打印出了内容。

import requests from bs4 import BeautifulSoup url = “https://zhuanlan.zhihu.com/p/595050104” response = requests.get(url) soup = BeautifulSoup(response.text, “html.parser”) title = soup.find(“h1″, class_=”Post-Title”).text.strip() body = soup.find(“div”, class_=”Post-RichText”).text.strip() print(“Title:”, title) print(“Body:”, body)
ChatGPT与Python爬虫:一次令人惊喜的合作

ChatGPT生成的代码虽然能够运行,但是它也指出了一个重要的问题,那就是由于爬取的网站可能会随时改变,也就是说HTML结构可能会发生变化,因此,为了确保代码的正常运行,可能需要针对具体情况对代码进行相应的调整。

凡是写过爬虫的同学应该都能理解,人工写的爬虫代码也没法一劳永逸,需要随时改。

这一点ChatGPT提示的很有道理。

后来我测试了medium、百家号上的文章,ChatGPT提供的代码形式几乎和上面一致,没法直接执行获取结果,需要微调后才能跑。

2. 爬取京东某商品的评论

为了给ChatGPT增加难度,我试着让它去爬取某电商网站的用户评论

提问:

请用python写代码爬取这个京东商品的所有用户评论 https://item.jd.com/13652780.html

ChatGPT:

ChatGPT与Python爬虫:一次令人惊喜的合作

可能这个网页是动态页面,ChatGPT提供的方法并不能爬取评论。

我接着问:

爬取的结果是空值怎么办?

ChatGPT:

ChatGPT与Python爬虫:一次令人惊喜的合作

ChatGPT提供了3种可能存在的原因,但并没有帮我修改代码。

于是我又问:

还是空值 请帮我重新写代码爬取

ChatGPT:

ChatGPT与Python爬虫:一次令人惊喜的合作
image.png

这次就牛掰了,它重新用Selenium写了爬虫代码,并告诉我爬取动态网页需要模拟浏览器行为,因此得用selenium技术

在未对代码进行实际运行测试的情况下,我对于ChatGPT的表现感到十分惊讶。它能够灵活地把握对话的上下文,并针对问题提出精确的解决方案,这无疑给我留下了深刻的印象。

3.继续更多的测试

上面只是蜻蜓点水的玩玩,ChatGPT就已经吸引到我,

我准备多花时间去测试ChatGPT应对各种爬虫的解决方案,以及它对bug的修复能力。

ChatGPT在编写代码方面的能力已经达到了中高级程序员的水平,其掌握的知识范畴也超越了地球上最杰出的程序员。不过,要想全面评价ChatGPT的能力,不能仅从编程一个方面来看待。还需要考虑其他领域,例如自然语言处理、机器学习、数据挖掘等。在这些领域,ChatGPT同样表现出了卓越的实力,甚至有时候还能展现出超越人类的能力。因此,在评估ChatGPT的能力时,需要综合考虑多方面的因素。

ChatGPT能够根据对话生成人想要的内容,这是AI巨大的突破,未来它的应用之广难以想象。

ChatGPT与Python爬虫:一次令人惊喜的合作

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!