織夢dede采集方法教程
方法/步驟
1、首先我們打開織夢后臺點擊
采集——采集節(jié)點管理——增加新節(jié)點
2、這里我們以采集普通文章為例,我們選擇普通文章,然后確定
3、我們進入了采集的設置頁面,填寫節(jié)點名稱,就是給這個新節(jié)點取個名字,這里你可以任意填寫。
然后打開你想要采集的文章列表頁,打開鏈接這個頁面,右鍵——查看源文件
找到目標頁面編碼,就在chart后面
4、頁面基本信息其他的一般就不用管了,填完了如圖
5、現(xiàn)在我們來填寫列表網(wǎng)址獲取規(guī)則
看看文章列表第一頁的地址jianzhanxinde/list_49_1.html
對比第二頁的地址jianzhanxinde/list_49_2.html
我們發(fā)現(xiàn)了他們除了49_后面的數(shù)字不一樣,其他的都一樣,所以我們可以這樣寫
/jianzhanxinde/list_49_(*).html
就是把1換成了(*)
因為這里只有2頁,所以我們就填從1到2
每頁遞增當然是1了,2-1...是等于1吧
這里我們就填寫完了
6、可能大家采集的有些列表沒有規(guī)則,那就只有手工指定列表網(wǎng)址了,如圖
7、每行寫一個頁面地址
列表規(guī)則寫完了,我們就開始寫文章網(wǎng)址匹配規(guī)則了,回到文章列表頁
右鍵查看源文件
找到區(qū)域開始的HTML,就是找文章列表開始的標志。
8、我們很容易的找到了如圖中的“新聞列表”
。從這里開始,后面就是文章列表里
我們再找文章列表結束的HTML
9、就是這個了,一個很容易找到的標志
如果鏈接中含有圖片:
不處理
采集為縮略圖
這里根據(jù)自己的需要選擇
對區(qū)域網(wǎng)址進行再次篩選:
(使用正則表達式)
必須包含:
(優(yōu)先級高于后者)
不能包含:
打開源文件,我們可以很清楚的看到,文章鏈接都是以.html結束的
所以,我們在必須包含后面填.html
如果遇到有些列表很麻煩,還可以填寫后面的不能包含
8、我們點擊保存設置進入下一步,可以看到我們獲得的文章網(wǎng)址
看到這些就是對的了,我們保存信息進入下一步設置內(nèi)容字段獲取規(guī)則
我們看看文章有沒有分頁,隨便進入一篇文章看看。。我們看到這里的文章沒有分頁
所以這里的我們就默認了
9、我們現(xiàn)在來找文章標題等等
隨便進入一篇文章,右鍵查看源文件
看看這些
10、依照源碼填寫
11、我們再來填寫文章內(nèi)容的開始,結束
和上面的一樣,找到開始和結束標志
12、開始:
12、結束:
13、你想過濾文章中的什么內(nèi)容就到過濾規(guī)則里寫吧,比如要過濾文章中的圖片
選擇常用規(guī)則
14、再勾選IMG,然后確定
15、這樣我們就把正文中的圖片過濾了
設置完畢后點保存設置并預覽
這樣一個采集規(guī)則就寫好了,很簡單吧有些網(wǎng)站很難寫,可要多下點功夫了哦
16、我們點保存并開始采集——開始采集網(wǎng)頁
一會的功夫就采集完了
17我們看看我們采集到的文章
18、看來是成功了,我們導出數(shù)據(jù)吧
織夢微信采集規(guī)則怎么寫,單頁采集規(guī)則就行謝謝。
命名采集節(jié)點名稱,填寫引用網(wǎng)址,引用網(wǎng)址就是你需要采集的網(wǎng)址所在的網(wǎng)址,網(wǎng)址匹配區(qū)域就是所在網(wǎng)址的區(qū)域。我舉個例子
比如在某某網(wǎng)頁上有一堆網(wǎng)址列表,而你需要的就是采集這些網(wǎng)址,那你就只要查看它的源代碼,找到開始代碼和
結束代碼就可以了。內(nèi)容頁面配置也是同理,你找到你需要采集的網(wǎng)頁,查看他的源代碼
,你需要從哪個標簽開始采集
就些那個標簽
中間是內(nèi)容
然后那個標簽結束
就填寫結束標簽。舉例
我從目標網(wǎng)頁的<body>標簽開始采集
,采集到</body>標簽結束
那么
我的采集內(nèi)容匹配
就是
<body>[內(nèi)容]</body>過濾規(guī)則就是
你需要過濾特定的內(nèi)容
然后在過濾規(guī)則填上就行。
織夢微信采集規(guī)則怎么寫,單頁采集規(guī)則就行謝謝。
命名采集節(jié)點名稱,填寫引用網(wǎng)址,引用網(wǎng)址就是你需要采集的網(wǎng)址所在的網(wǎng)址,網(wǎng)址匹配區(qū)域就是所在網(wǎng)址的區(qū)域。我舉個例子 比如在某某網(wǎng)頁上有一堆網(wǎng)址列表,而你需要的就是采集這些網(wǎng)址,那你就只要查看它的源代碼,找到開始代碼和 結束代碼就可以了。內(nèi)容頁面配置也是同理,你找到你需要采集的網(wǎng)頁,查看他的源代碼 ,你需要從哪個標簽開始采集 就些那個標簽 中間是內(nèi)容 然后那個標簽結束 就填寫結束標簽。舉例 我從目標網(wǎng)頁的<body>標簽開始采集 ,采集到</body>標簽結束 那么 我的采集內(nèi)容匹配 就是 <body>[內(nèi)容]</body>過濾規(guī)則就是 你需要過濾特定的內(nèi)容 然后在過濾規(guī)則填上就行。
dedecms(織夢)的采集功能怎么用
在網(wǎng)站建設初期,若CMS系統(tǒng)沒有一個采集功能,那更新文章的工作量是可想而知的,使用采集功能可以方便地在網(wǎng)站中加入豐富的內(nèi)容。在左側的面板列表中依次選擇“采集管理”→“采集節(jié)點管理”,接著點擊“添加新節(jié)點”按鈕進入采集規(guī)則編寫頁面(如圖6)。在編寫采集規(guī)則時,是用“[Var:內(nèi)容]”標記來表示所有的變量,例如編寫文章標題的采集規(guī)則,通過查看采集頁面源文件發(fā)現(xiàn)其代碼如下:
<span style="font-size:12pt"><b>快速上手 企業(yè)建站DedeCms一馬當先”</b></span>
那么“文章標題”中的采集規(guī)則就可寫為<span style="font-size:12pt"><b>[Var:內(nèi)容]</b></span>,非常的簡單。