全部評論(2條)
-
- 卷毛96 2014-10-29 00:00:00
- 這個軟件操作很簡單啊,Z近八爪魚采集器用的人蠻多的,你加他們的群,有人教的
-
贊(3)
回復(fù)(0)
-
- 木魚來了aCh2i 2018-04-26 00:00:00
- 步驟1 打開網(wǎng)頁登陸八爪魚7.0采集器→點擊左上角的“+”圖標→選擇自定義采集(也可以點擊主頁中自定義采集下方的“立即使用”),進入到任務(wù)配置頁面。然后輸入網(wǎng)址→保存網(wǎng)址,系統(tǒng)會進入到流程設(shè)計頁面并自動打開前面輸入的網(wǎng)址。 網(wǎng)頁打開后,我們可以對任務(wù)名進行修改,不修改則默認以網(wǎng)頁標題命名。在運行采集前可隨時修改任務(wù)名。步驟2 提取數(shù)據(jù)在網(wǎng)頁中,直接選中需要提取的數(shù)據(jù)即可,窗口右上角會有對應(yīng)的提示。本教程中我們以提取新聞標題、日期、正文為例,請各位靈活運用,各取所需。提取數(shù)據(jù)設(shè)置好,即可點擊保存并開始運行采集。但是此時的字段名為系統(tǒng)自動生成的。為了更加符合自己需求,可點擊右上角“流程”進入流程頁面對字段名進行修改。首先選中要修改中字段名,此時下拉框中會有備選字段名,可直接選取使用。如果沒自己想要的,就輸入新的字段名。修改好字段名后,點擊“確定”進行保存。保存后即可運行采集。 所有版本均可運行本地采集,旗艦版及以上版本可運行云采集和設(shè)置定時云采集,但運行云采集前先運行本地采集進行測試。任務(wù)運行完采集后,可選Excel、CSV、HTML等格式進行導(dǎo)出或?qū)霐?shù)據(jù)庫。數(shù)據(jù)導(dǎo)出后可點擊鏈接進入數(shù)據(jù)存放文件夾內(nèi)查看數(shù)據(jù),文件默認以任務(wù)名命名。1.八爪魚采集原理八爪魚網(wǎng)頁數(shù)據(jù)采集客戶端使用的開發(fā)語言是C#,運行在Windows系統(tǒng)??蛻舳酥鞒绦蜇撠?zé)任務(wù)配置及管理,任務(wù)的云采集控制,云集成數(shù)據(jù)的管理(導(dǎo)出,清理,發(fā)布)。數(shù)據(jù)導(dǎo)出程序負責(zé)數(shù)據(jù)的導(dǎo)出Excel,SQL,TXT,MYSQL等,支持一次導(dǎo)出別數(shù)據(jù)。本地采集程序負責(zé)根據(jù)工作流對網(wǎng)頁進行打開,抓取,采集數(shù)據(jù),通過正則表達式與Xpath原理,快速獲取網(wǎng)頁數(shù)據(jù)。整個采集流程基于Firefox內(nèi)核瀏覽器,通過模擬人的思維操作方式(如打開網(wǎng)頁,點擊網(wǎng)頁中的某個按鈕),對網(wǎng)頁內(nèi)容進行全自動提取。系統(tǒng)完全可視化流程操作,無需專業(yè)知識,輕松實現(xiàn)數(shù)據(jù)采集。通過對網(wǎng)頁源碼中各個數(shù)據(jù)XPath路徑的精確定位,八爪魚可以批量化jing準采集出用戶所需數(shù)據(jù)。2.八爪魚實現(xiàn)的功能 八爪魚網(wǎng)頁數(shù)據(jù)采集系統(tǒng)以完全自主研發(fā)的分布式云計算平臺為核心,可以在很短的時間內(nèi),輕松從各種不同的網(wǎng)站或者網(wǎng)頁獲取大量的規(guī)范化數(shù)據(jù),幫助任何需要從網(wǎng)頁獲取信息的客戶實現(xiàn)數(shù)據(jù)自動化采集、編輯、規(guī)范化,擺脫對人工搜索及收集數(shù)據(jù)的依賴,從而降低獲取信息的成本、提GX率。涉及到政府、高校、企業(yè)、銀行、電商、科研、汽車、房產(chǎn)、媒體等眾多行業(yè)及領(lǐng)域。八爪魚作為一款通用的網(wǎng)頁數(shù)據(jù)采集器,其并不針對于某一網(wǎng)站某一行業(yè)的數(shù)據(jù)進行采集,而是網(wǎng)頁上所能看到或網(wǎng)頁源碼中有的文本信息幾乎都能采集,市面上98%的網(wǎng)頁都可以用八爪魚進行采集。使用本地采集(單機采集),除了可以實現(xiàn)絕大多數(shù)網(wǎng)頁數(shù)據(jù)的爬取,還可以采集過程中對數(shù)據(jù)進行初步的清洗。如使用程序自帶的正則工具,利用正則表達式將數(shù)據(jù)格式化。在數(shù)據(jù)源頭即可實現(xiàn)去除空格、篩選日期等多種操作。其次八爪魚還有提供分支判斷功能,可對網(wǎng)頁中信息進行是與否的邏輯判斷,實現(xiàn)用戶篩選需求。云采集除具有本地采集(單機采集)的全部功能之外,還可以實現(xiàn)定時采集,實時監(jiān)控,數(shù)據(jù)自動去重并入庫,增量采集,自動識別驗證碼,API接口多元化導(dǎo)出數(shù)據(jù)以及修改參數(shù)。同時利用云端多節(jié)點并發(fā)運行,采集速度將遠超于本地采集(單機采集),多IP在任務(wù)啟動時自動切換還可避免網(wǎng)站的IP封鎖,實現(xiàn)采集數(shù)據(jù)的Z大化。
-
贊(12)
回復(fù)(0)
熱門問答
- 有人會用八角魚采集器的嗎?
2014-10-28 12:47:15
467
2
- 八角魚采集器怎么使用?
2017-12-19 18:07:03
443
1
- curvelet工具包有人會用嗎
2018-11-15 08:49:24
349
0
- 請問,有人會用這種室溫控制器嗎
2016-12-10 01:52:54
438
1
- ??扑?FOCUS ABT-100 紅外探測報警器有人會用嗎?線路怎么接?
- ??扑?FOCUS ABT-100 紅外探測報警器有人會用嗎?線路怎么接? 電源 + -都接好了,還有電路板上的1 2 3 4 5 6 怎樣連接
2013-07-09 19:28:18
293
2
- 塑料加工會用專用蠟嗎?
2012-08-02 00:48:14
393
2
- 經(jīng)常聽說的精油,你會用嗎
2018-11-24 17:45:12
359
0
- 有人擴增魚的COI基因嗎,為什么擴增出了單一條帶后,測序測不出來?
2014-12-15 09:44:08
495
1
4月突出貢獻榜
推薦主頁
最新話題





參與評論
登錄后參與評論