爬山虎采集器是一款數據采集軟件,可以幫助用戶自動采集網絡上的資源,將資源地址復制到軟件就可以按照步驟采集數據,最后將采集的數據下載到電腦上保存使用,例如可以直接對京東商品列表采集,可以對京東商品評論采集,也可以采集新聞,支持采集博客園新聞、采集新浪新聞采集,讓用戶可以輕松獲取指定網站上的內容,批量采集數據到電腦繼續使用,這款軟件使用還是比較簡單的,啟動軟件就可以新建采集任務,輸入采集地址就可以按照步驟執行下一步,操作過程還是很簡單的,按照引導步驟就可以執行采集任務,需要就下載吧!
1、使用點擊式界面,在幾分鐘內從任何網站抓取數據。
2、適用于各種網站,能夠采集互聯網99%的網站,包括單頁應用、Ajax加載等等動態類型網站
3、支持各種結構的網頁數據,并且保存到Txt、excel以及數據庫中。
4、它能夠采集互聯網上的大部分網站數據,并且將數據導出為各種格式的文件或者數據庫,比如csv、excel、mysql、sqlserver、sqlite、access,甚至可以通過指定接口發布到你的網站。
5、快速高效,內置一套高速瀏覽器內核,加上HTTP引擎模式,實現快速采集數據
6、自動識別列表數據,通過智能算法,一鍵提取數據。
7、自動識別分頁技術,通過算法智能識別、采集分頁數據
8、混合瀏覽器引擎和HTTP引擎,兼顧了易用性和效率。
1、爬山虎采集器可以輕松采集網頁上的數據,在軟件新建任務就可以開始采集
2、可以對多個站點內容采集,直接在軟件輸入多個地址一次采集
3、支持查看采集的頁面,軟件自動讀取網頁上的內容,將可采集的內容顯示在列表
4、可以設置過濾方式,刪除不需要采集的內容
5、大部分網站都可以采集。可以采集需要登錄的網站
6、支持多個頁面識別,如果你輸入的地址有多個頁面就可以自動識別分頁內容
7、可以在軟件選擇對頁面上的圖像下載,可以選擇對數據處理
8、支持文本替換、正則匹配、清除HTML標簽、添加前后綴、字符轉碼、執行JavaScript等數據處理功能
9、支持執行C#代碼、正文提取、字符映射、HTTP請求等數據處理功能
10、支持過濾設置:修改名稱、刪除字段、選擇元素、添動加新元素、手動設置XPatl、設置取值屬性
11、支持文件下載、使用自定義值、增量更新、取值屬性、瀏覽器引擎和HTTP引|擎、POST請求等功能
12、支持自定義數據、批量生成起始網址、來集前執行腳本、JSON數據來集
1、將爬山虎采集器直接安裝到電腦,等待軟件安裝結束
2、可以選擇簡易采集,可以選擇自定義采集
3、進入簡易采集界面,這里是軟件的其他功能界面,如果有需要就可以點擊使用
4、點擊新建任務就可以進入地址設置界面,將需要采集的地址輸入到軟件,點擊下一步
5、這里是數據抓取的界面,自動識別當前的網頁內容,如果識別到數據就在軟件底部列表顯示,點擊下一步
6、設置一些采集的參數,支持瀏覽器設置,支持代理服務器設置,支持自動采集計劃任務設置
7、開始采集,軟件自動分區頁面上可以采集的數據,等待采集結束就可以導出數據
8、淘寶商品搜索
按照輸入的關鍵詞,采集淘寶商品搜索的結果數據。包含商品標題、鏈接、價格、付款人數店鋪名稱、位置字段。
9、如果對軟件不了解可以點擊幫助文檔查看官方提供的教程,從而學習各種功能的操作方式
10、任務運行時不顯示窗口、任務完成之后關閉窗口、任務運行窗口最大化
任務并行數量15
網頁超時設置30(秒)
運行日志保存最近3(天)
11、記住軟件窗口大小
跳過已下載文件
支持https tls 1.2協議
文件下載線程數:8
數據導出
爬山虎采集器支持多個格式的數據導出(發布),包括TXT、CSV、Excel、Access、MySQL、SQLServer、SQLite以及發布到網站接口(Api)。
導出方式有2種:
手動導出,通過右擊任務-> 導出任務,或者是在查看數據中導出。
自動導出,在編輯任務的第三步中設置導出。
在數據導出后,會被標記為已導出,在下次導出時,不會再導出。 如果想要導出全部數據,而不區分已導出,可以在查看數據中選擇導出全部。
導出到Excel、CSV、TXT
可以將數據導出到Excel、CSV、TXT文件中,每次導出將會生成新的文件。 軟件支持對導出的文件名設置變量,目前有2種格式變量,按照任務名和日期格式。
導出TXT目前支持一條記錄保存為一個文件。可以根據字段值來定義文件名稱,導出的內容格式也可以自定義模板
盖楼回复X
(您的评论需要经过审核才能显示)
網友評論