有些網站可能我們用系統做好的規則在采集的時候可能明明已經采集最后一頁了,就是不停止,一直在最后一頁循環采集,這種情況其實是由于Xpath定位不對導致的,我們需要通過修改Xpath來解決這個翻頁問題。


在出現這個問題的時候,我們可以直接在流程里面找到問題所在,下面的規則是直接按照新手入門的步驟做的:


一?


如上圖中,瀏覽器中要采集的數據已經在最后一頁了,可是我們在循環列表中依舊能找到下一頁的按鈕,代表一直都可以點擊這個按鈕進行采集,循環是結束不了的。那么我們點開循環列表的高級設置按鈕,可以看下一頁的Xpath如下圖所示:

二


我們把這個Xpath復制到火狐里面去,發現在第一頁是的確可以定位到下一頁的,并且可以看到這個Xpath在火狐里面每一頁都能定位。那么我們看一下第一頁和第二頁里面源碼的區別:


三

? ? ??

可以看到第一頁和第三頁下一頁的class屬性是不一樣的,我們只需要前面幾頁的下一頁能正確定位,但是最后一頁是不需要的,這樣可以直接用class來區別,手動在火狐里面直接寫,只需要將li里面的屬性改為li[@class='next'],然后將.//*[@id='gkaTable_page']/table/tbody/tr/td/div/ul/li[@class='next']這條Xpath再復制到八爪魚里面。


五?

配置完成之后單機采集可以看到規則能正常完成。


六

?