TV电影在线

TV电影在线

当前位置: 主页 > 美剧TV >

美剧迷是如何使用Python的

时间:2018-04-28 16:31来源:未知 作者:admin 点击:
另有历程中碰到一个很熬煎我的问题是文件名的保留,必需在此埋怨一下, txt 文本格局的文件名能有空格,可是不克不迭有斜线、反斜线、括号等。就是这个问题,一早上的时间都花

  另有历程中碰到一个很熬煎我的问题是文件名的保留,必需在此埋怨一下, txt 文本格局的文件名能有空格,可是不克不迭有斜线、反斜线、括号等。就是这个问题,一早上的时间都花在这上面的,一起头我认为是抓取数据的错误,后面查了半天才发觉是爬取的剧名中带有斜杠,这可把我坑苦了。前往搜狐,查看更多

  厥后发觉,其电视剧链接都是在文章内里,然后文章url后面有个数字编号,就像如许的,所以机警的我又用了之前写过的爬虫经验,处理方式就是主动天生url,其后面的数字不是能够变的吗,并且每部剧的都是独一的,所以测验测验了一下大要有几多篇文章,然后用range函数间接持续天生数来机关url。

  完备版代码,此中还用到了多线程,可是感受没什么用,由于 Python 的 GIL 的来由吧,看似有两万多部剧,本认为要很永劫间才能抓取完成,可是除去 url 错误的和没婚配到的,总共抓取时间20分钟不到。搞得我原来还想利用 Redis 在两台 Linux 上爬取,可是折腾了一番之后感受没需要,所以就如许吧,后面必要更大数据的时候再去弄。

  虽说找到了资本网站能够下载了,可是每次都要翻开浏览器,输入网址,找到该美剧,然后点击链接才能下载。时间长了就感觉历程好繁琐,并且有时候网站链接还会打不开,会有点贫苦。正好不断在进修Python爬虫,所以昨天就心血来潮来写了个爬虫,抓取该网站上所有美剧链接,并保具有文本文档中,想要哪部剧就间接翻开复制链接到迅雷就能够下载啦。

  不断有爱看美剧的习惯,一方面熬炼一下英语听力,一方面丁宁一下时间。之前是能在视频网站上面在线看的,但是自从广电总局的制约令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了。可是,作为一个宅diao的我又怎甘愿宁肯没剧追呢,所以网上随意查了一下就找到一个能用迅雷下载的美剧下载网站【天天美剧】,各类资本随意下载,比来迷上的BBC的高清记载片,大天然美得不要不要的。

  实在一起头筹算写那种发觉一个 url ,利用 requests 翻开抓取下载链接,从主页起头爬彻底站。可是,很多几多反复链接,另有其网站的 url 不是我想的那么法则,写了半天也没有写出我想要的那种发散式的爬虫,也许是本人火候还不到吧,继续勤奋。。。

  可是良多 url 是不具有的,所以会间接挂掉,别担忧,咱们用的但是 requests ,其自带的 status_code 就是用来果断请求前往的形态的,所以只需是前往的形态码是404的咱们都把它跳过,其他的都进去爬取链接,这就处理了 url 的问题了。

  其余的就进行的很成功了,网上找到古人写的雷同的爬虫,可是只是爬取一篇文章的,所以自创了一下其正则表达式。本人用了 BeautifulSoup 还没有正则结果好,所以判断弃了,学海无涯啊。可是结果也不是那么抱负,有一半摆布的链接不克不迭准确抓取,还需继续优化。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
推荐内容