全部評論(1條)
-
- 哈哈哈哈去* 2016-12-16 00:00:00
- 由于項目需求收集并使用過一些爬蟲相關庫,做過一些對比分析。以下是我接觸過的一些庫: Beautiful Soup。名氣大,整合了一些常用爬蟲需求。缺點:不能加載JS。 Scrapy??雌饋砗軓姶蟮呐老x框架,可以滿足簡單的頁面爬?。ū热缈梢悦鞔_獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對于稍微復雜一點的頁面,如weibo的頁面信息,這個框架就滿足不了需求了。 mechanize。優(yōu)點:可以加載JS。缺點:文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。 selenium。這是一個調用瀏覽器的driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。 cola。一個分布式爬蟲框架。項目整體設計有點糟,模塊間耦合度較高,不過值得借鑒。 以下是我的一些實踐經(jīng)驗: 對于簡單的需求,比如有固定pattern的信息,怎么搞都是可以的。 對于較為復雜的需求,比如爬取動態(tài)頁面、涉及狀態(tài)轉換、涉及反爬蟲機制、涉及高并發(fā),這種情況下是很難找到一個契合需求的庫的,很多東西只能自己寫。 至于題主提到的: 還有,采用現(xiàn)有的Python爬蟲框架,相比與直接使用內置庫,優(yōu)勢在哪?因為Python本身寫爬蟲已經(jīng)很簡單了。 third party library可以做到built-in library做不到或者做起來很困難的事情,僅此而已。還有就是,爬蟲簡不簡單,完全取決于需求,跟Python是沒什么關系的。
-
贊(18)
回復(0)
熱門問答
- python網(wǎng)絡數(shù)據(jù)采集 用python寫網(wǎng)絡爬蟲 哪個好
2016-12-15 07:11:56
462
1
- htmlparser 網(wǎng)絡爬蟲 數(shù)據(jù)采集
- 我用的是htmlparser初學者,到ie.html()就報這個錯希望大神們幫我看看java.lang.IllegalArgumentException:Value204doesnotbelongtospecifiedcom.jniwrapper.win32.ie.event.StatusCo... 我用的是htmlparser 初學者,到ie.html()就報這個錯 希望大神們幫我看看 java.lang.IllegalArgumentException: Value 204 does not belong to specified com.jniwrapper.win32.ie.event.StatusCode enumeration at com.jniwrapper.util.Enums.getItem(SourceFile:44) at com.jniwrapper.win32.ie.event.StatusCode.create(SourceFile:79) at com.jniwrapper.win32.ie.aB.navigateError(SourceFile:525) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at com.jniwrapper.win32.com.server.IDispatchServer.invoke(SourceFile:209) at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at com.jniwrapper.win32.com.server.CoInterfaceVTBL$VirtualMethodCallback.b(SourceFile:239) at com.jniwrapper.win32.com.server.CoInterfaceVTBL$VirtualMethodCallback.callback(SourceFile:142) at com.jniwrapper.Callback.enterPoint(SourceFile:222) at com.jniwrapper.Function.invokeCFunc(Native Method) at com.jniwrapper.FunctionCall.a(SourceFile:126) at com.jniwrapper.FunctionCall.call(SourceFile:34) at com.jniwrapper.Function.invoke(SourceFile:164) at com.jniwrapper.Function.invoke(SourceFile:188) at com.jniwrapper.win32.MessageLoopThread$LoopThread.run(MessageLoopThread.java:489)ps:分不夠了啊~~~~ 展開
2014-01-12 07:12:40
429
2
- 異構數(shù)據(jù)采集技術和網(wǎng)絡爬蟲采集有什么區(qū)別?
2017-09-14 17:03:06
487
2
- python 做監(jiān)控數(shù)據(jù)采集,怎么做.新手請教
2015-01-31 15:20:56
461
1
- 承德軟件開發(fā) Python和Ruby哪個就業(yè)好
2018-07-17 01:11:53
615
1
- 學習python,用什么軟件?
2012-12-01 01:12:11
309
4
- python 數(shù)據(jù)分析 用什么軟件
2016-10-23 00:37:06
351
2
- python和r數(shù)據(jù)分析哪個更好
2015-09-02 12:22:33
493
3
- 網(wǎng)絡爬蟲抓取數(shù)據(jù) 有什么好的應用
2016-06-29 17:10:20
488
1
- python 監(jiān)控視頻分析
- 我有一段視頻,想做個分析看那個時間段圖像有變化,有沒有什么現(xiàn)在工具或者用python寫個分析代碼。... 我有一段視頻,想做個分析看那個時間段圖像有變化,有沒有什么現(xiàn)在工具或者用python寫個分析代碼。 展開
2017-01-10 11:19:51
532
1
- wan能數(shù)據(jù)采集引擎和一般的網(wǎng)絡爬蟲程序有什么區(qū)別
2018-02-04 01:15:54
403
1
- 高緯數(shù)據(jù)用python什么工具包繪圖好
2016-06-12 18:09:27
382
1
- 如何評價利用python制作數(shù)據(jù)采集,計算,可視化界面
2016-09-19 17:54:54
305
1
- C#實現(xiàn)網(wǎng)絡數(shù)據(jù)采集
- Z近看到個題目,從一個網(wǎng)頁上采集數(shù)據(jù),根據(jù)采集到的數(shù)據(jù)進行數(shù)據(jù)庫更新等操作。用C#的話,該怎么實現(xiàn)呢,怎么在網(wǎng)頁上采集數(shù)據(jù)呢我該看看哪些資料呢誰有代碼或者資料啊傳來看看哦先... Z近看到個題目,從一個網(wǎng)頁上采集數(shù)據(jù),根據(jù)采集到的數(shù)據(jù)進行數(shù)據(jù)庫更新等操作。 用C#的話,該怎么實現(xiàn)呢,怎么在網(wǎng)頁上采集數(shù)據(jù)呢 我該看看哪些資料呢 誰有代碼或者資料啊 傳來看看哦 先謝謝啦 我的郵箱 tonglei12345@126.com 網(wǎng)頁上的一個Table 里面的數(shù)據(jù)采集下來 根據(jù)采集到得數(shù)據(jù)對數(shù)據(jù)庫進行更新的操作 怎么弄呢 初學者 還望說詳細點哈 Z好舉例說明哦 展開
2009-04-10 23:23:05
462
2
- 怎么用VBA或網(wǎng)絡爬蟲程序抓取網(wǎng)站數(shù)據(jù)
2017-03-29 07:14:03
460
1
- python 如何添加計時器
- 如何在每一步運行之前查看程序已經(jīng)運行了多久
2016-05-15 13:20:36
324
1
- python要不要加數(shù)據(jù)類型
2018-12-02 20:23:07
368
0
- java和python編碼
- 運行Java和python代碼時中文亂碼,sublime有提示錯誤
2018-11-30 22:51:31
309
0
- python的GUI設計用什么軟件?
2017-12-10 04:26:31
396
2
- 利用python進行數(shù)據(jù)分析 用什么軟件
2017-11-10 17:45:43
578
2
4月突出貢獻榜
推薦主頁
最新話題





參與評論
登錄后參與評論