国产三级在线看完整版-内射白嫩大屁股在线播放91-欧美精品国产精品综合-国产精品视频网站一区-一二三四在线观看视频韩国-国产不卡国产不卡国产精品不卡-日本岛国一区二区三区四区-成年人免费在线看片网站-熟女少妇一区二区三区四区

儀器網(wǎng)(yiqi.com)歡迎您!

| 注冊2 登錄
網(wǎng)站首頁-資訊-話題-產(chǎn)品-評測-品牌庫-供應商-展會-招標-采購-知識-技術-社區(qū)-資料-方案-產(chǎn)品庫-視頻

問答社區(qū)

python網(wǎng)絡數(shù)據(jù)采集 用python寫網(wǎng)絡爬蟲 哪個好

13128044119 2016-12-15 07:11:56 462  瀏覽
  •  

參與評論

全部評論(1條)

  • 哈哈哈哈去* 2016-12-16 00:00:00
    由于項目需求收集并使用過一些爬蟲相關庫,做過一些對比分析。以下是我接觸過的一些庫: Beautiful Soup。名氣大,整合了一些常用爬蟲需求。缺點:不能加載JS。 Scrapy??雌饋砗軓姶蟮呐老x框架,可以滿足簡單的頁面爬?。ū热缈梢悦鞔_獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對于稍微復雜一點的頁面,如weibo的頁面信息,這個框架就滿足不了需求了。 mechanize。優(yōu)點:可以加載JS。缺點:文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。 selenium。這是一個調用瀏覽器的driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。 cola。一個分布式爬蟲框架。項目整體設計有點糟,模塊間耦合度較高,不過值得借鑒。 以下是我的一些實踐經(jīng)驗: 對于簡單的需求,比如有固定pattern的信息,怎么搞都是可以的。 對于較為復雜的需求,比如爬取動態(tài)頁面、涉及狀態(tài)轉換、涉及反爬蟲機制、涉及高并發(fā),這種情況下是很難找到一個契合需求的庫的,很多東西只能自己寫。 至于題主提到的: 還有,采用現(xiàn)有的Python爬蟲框架,相比與直接使用內置庫,優(yōu)勢在哪?因為Python本身寫爬蟲已經(jīng)很簡單了。 third party library可以做到built-in library做不到或者做起來很困難的事情,僅此而已。還有就是,爬蟲簡不簡單,完全取決于需求,跟Python是沒什么關系的。

    贊(18)

    回復(0)

    評論

熱門問答

python網(wǎng)絡數(shù)據(jù)采集 用python寫網(wǎng)絡爬蟲 哪個好
 
2016-12-15 07:11:56 462 1
htmlparser 網(wǎng)絡爬蟲 數(shù)據(jù)采集
我用的是htmlparser初學者,到ie.html()就報這個錯希望大神們幫我看看java.lang.IllegalArgumentException:Value204doesnotbelongtospecifiedcom.jniwrapper.win32.ie.event.StatusCo... 我用的是htmlparser 初學者,到ie.html()就報這個錯 希望大神們幫我看看 java.lang.IllegalArgumentException: Value 204 does not belong to specified com.jniwrapper.win32.ie.event.StatusCode enumeration at com.jniwrapper.util.Enums.getItem(SourceFile:44) at com.jniwrapper.win32.ie.event.StatusCode.create(SourceFile:79) at com.jniwrapper.win32.ie.aB.navigateError(SourceFile:525) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at com.jniwrapper.win32.com.server.IDispatchServer.invoke(SourceFile:209) at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at com.jniwrapper.win32.com.server.CoInterfaceVTBL$VirtualMethodCallback.b(SourceFile:239) at com.jniwrapper.win32.com.server.CoInterfaceVTBL$VirtualMethodCallback.callback(SourceFile:142) at com.jniwrapper.Callback.enterPoint(SourceFile:222) at com.jniwrapper.Function.invokeCFunc(Native Method) at com.jniwrapper.FunctionCall.a(SourceFile:126) at com.jniwrapper.FunctionCall.call(SourceFile:34) at com.jniwrapper.Function.invoke(SourceFile:164) at com.jniwrapper.Function.invoke(SourceFile:188) at com.jniwrapper.win32.MessageLoopThread$LoopThread.run(MessageLoopThread.java:489)ps:分不夠了啊~~~~ 展開
2014-01-12 07:12:40 429 2
異構數(shù)據(jù)采集技術和網(wǎng)絡爬蟲采集有什么區(qū)別?
 
2017-09-14 17:03:06 487 2
python 做監(jiān)控數(shù)據(jù)采集,怎么做.新手請教
 
2015-01-31 15:20:56 461 1
承德軟件開發(fā) Python和Ruby哪個就業(yè)好
 
2018-07-17 01:11:53 615 1
學習python,用什么軟件?
 
2012-12-01 01:12:11 309 4
python 數(shù)據(jù)分析 用什么軟件
 
2016-10-23 00:37:06 351 2
python和r數(shù)據(jù)分析哪個更好
 
2015-09-02 12:22:33 493 3
網(wǎng)絡爬蟲抓取數(shù)據(jù) 有什么好的應用
 
2016-06-29 17:10:20 488 1
python 監(jiān)控視頻分析
我有一段視頻,想做個分析看那個時間段圖像有變化,有沒有什么現(xiàn)在工具或者用python寫個分析代碼。... 我有一段視頻,想做個分析看那個時間段圖像有變化,有沒有什么現(xiàn)在工具或者用python寫個分析代碼。 展開
2017-01-10 11:19:51 532 1
wan能數(shù)據(jù)采集引擎和一般的網(wǎng)絡爬蟲程序有什么區(qū)別
 
2018-02-04 01:15:54 403 1
高緯數(shù)據(jù)用python什么工具包繪圖好
 
2016-06-12 18:09:27 382 1
如何評價利用python制作數(shù)據(jù)采集,計算,可視化界面
 
2016-09-19 17:54:54 305 1
C#實現(xiàn)網(wǎng)絡數(shù)據(jù)采集
Z近看到個題目,從一個網(wǎng)頁上采集數(shù)據(jù),根據(jù)采集到的數(shù)據(jù)進行數(shù)據(jù)庫更新等操作。用C#的話,該怎么實現(xiàn)呢,怎么在網(wǎng)頁上采集數(shù)據(jù)呢我該看看哪些資料呢誰有代碼或者資料啊傳來看看哦先... Z近看到個題目,從一個網(wǎng)頁上采集數(shù)據(jù),根據(jù)采集到的數(shù)據(jù)進行數(shù)據(jù)庫更新等操作。 用C#的話,該怎么實現(xiàn)呢,怎么在網(wǎng)頁上采集數(shù)據(jù)呢 我該看看哪些資料呢 誰有代碼或者資料啊 傳來看看哦 先謝謝啦 我的郵箱 tonglei12345@126.com 網(wǎng)頁上的一個Table 里面的數(shù)據(jù)采集下來 根據(jù)采集到得數(shù)據(jù)對數(shù)據(jù)庫進行更新的操作 怎么弄呢 初學者 還望說詳細點哈 Z好舉例說明哦 展開
2009-04-10 23:23:05 462 2
怎么用VBA或網(wǎng)絡爬蟲程序抓取網(wǎng)站數(shù)據(jù)
 
2017-03-29 07:14:03 460 1
python 如何添加計時器
如何在每一步運行之前查看程序已經(jīng)運行了多久
2016-05-15 13:20:36 324 1
python要不要加數(shù)據(jù)類型
 
2018-12-02 20:23:07 368 0
java和python編碼
運行Java和python代碼時中文亂碼,sublime有提示錯誤
2018-11-30 22:51:31 309 0
python的GUI設計用什么軟件?
 
2017-12-10 04:26:31 396 2
利用python進行數(shù)據(jù)分析 用什么軟件
 
2017-11-10 17:45:43 578 2

4月突出貢獻榜

推薦主頁

最新話題