織夢采集規(guī)則

更新時間:2023-03-01 19:57:53 閱讀：評論：0

織夢dede采集方法教程

方法/步驟
1、首先我們打開織夢后臺點擊
采集——采集節(jié)點管理——增加新節(jié)點
2、這里我們以采集普通文章為例，我們選擇普通文章，然后確定
3、我們進入了采集的設置頁面，填寫節(jié)點名稱，就是給這個新節(jié)點取個名字，這里你可以任意填寫。
然后打開你想要采集的文章列表頁，打開鏈接這個頁面，右鍵——查看源文件
找到目標頁面編碼，就在chart后面
4、頁面基本信息其他的一般就不用管了，填完了如圖
5、現(xiàn)在我們來填寫列表網(wǎng)址獲取規(guī)則
看看文章列表第一頁的地址jianzhanxinde/list_49_1.html
對比第二頁的地址jianzhanxinde/list_49_2.html
我們發(fā)現(xiàn)了他們除了49_后面的數(shù)字不一樣，其他的都一樣，所以我們可以這樣寫
/jianzhanxinde/list_49_(*).html
就是把1換成了(*)
因為這里只有2頁，所以我們就填從1到2
每頁遞增當然是1了，2-1...是等于1吧
這里我們就填寫完了
6、可能大家采集的有些列表沒有規(guī)則，那就只有手工指定列表網(wǎng)址了，如圖
7、每行寫一個頁面地址
列表規(guī)則寫完了，我們就開始寫文章網(wǎng)址匹配規(guī)則了,回到文章列表頁
右鍵查看源文件
找到區(qū)域開始的HTML，就是找文章列表開始的標志。
8、我們很容易的找到了如圖中的“新聞列表”
。從這里開始，后面就是文章列表里
我們再找文章列表結束的HTML
9、就是這個了，一個很容易找到的標志
如果鏈接中含有圖片：
不處理
采集為縮略圖
這里根據(jù)自己的需要選擇
對區(qū)域網(wǎng)址進行再次篩選：

(使用正則表達式)
必須包含：
(優(yōu)先級高于后者)
不能包含：
打開源文件，我們可以很清楚的看到，文章鏈接都是以.html結束的
所以，我們在必須包含后面填.html
如果遇到有些列表很麻煩，還可以填寫后面的不能包含
8、我們點擊保存設置進入下一步，可以看到我們獲得的文章網(wǎng)址
看到這些就是對的了，我們保存信息進入下一步設置內(nèi)容字段獲取規(guī)則
我們看看文章有沒有分頁，隨便進入一篇文章看看。。我們看到這里的文章沒有分頁
所以這里的我們就默認了
9、我們現(xiàn)在來找文章標題等等
隨便進入一篇文章，右鍵查看源文件
看看這些
10、依照源碼填寫
11、我們再來填寫文章內(nèi)容的開始，結束
和上面的一樣，找到開始和結束標志
12、開始：
12、結束：
13、你想過濾文章中的什么內(nèi)容就到過濾規(guī)則里寫吧，比如要過濾文章中的圖片
選擇常用規(guī)則
14、再勾選IMG，然后確定
15、這樣我們就把正文中的圖片過濾了
設置完畢后點保存設置并預覽
這樣一個采集規(guī)則就寫好了，很簡單吧有些網(wǎng)站很難寫，可要多下點功夫了哦
16、我們點保存并開始采集——開始采集網(wǎng)頁
一會的功夫就采集完了
17我們看看我們采集到的文章
18、看來是成功了，我們導出數(shù)據(jù)吧

織夢微信采集規(guī)則怎么寫，單頁采集規(guī)則就行謝謝。

命名采集節(jié)點名稱，填寫引用網(wǎng)址，引用網(wǎng)址就是你需要采集的網(wǎng)址所在的網(wǎng)址，網(wǎng)址匹配區(qū)域就是所在網(wǎng)址的區(qū)域。我舉個例子
比如在某某網(wǎng)頁上有一堆網(wǎng)址列表，而你需要的就是采集這些網(wǎng)址，那你就只要查看它的源代碼，找到開始代碼和
結束代碼就可以了。內(nèi)容頁面配置也是同理，你找到你需要采集的網(wǎng)頁，查看他的源代碼
，你需要從哪個標簽開始采集
就些那個標簽
中間是內(nèi)容
然后那個標簽結束
就填寫結束標簽。舉例
我從目標網(wǎng)頁的<body>標簽開始采集
,采集到</body>標簽結束
那么
我的采集內(nèi)容匹配
就是
<body>[內(nèi)容]</body>過濾規(guī)則就是
你需要過濾特定的內(nèi)容
然后在過濾規(guī)則填上就行。

織夢微信采集規(guī)則怎么寫，單頁采集規(guī)則就行謝謝。

命名采集節(jié)點名稱，填寫引用網(wǎng)址，引用網(wǎng)址就是你需要采集的網(wǎng)址所在的網(wǎng)址，網(wǎng)址匹配區(qū)域就是所在網(wǎng)址的區(qū)域。我舉個例子比如在某某網(wǎng)頁上有一堆網(wǎng)址列表，而你需要的就是采集這些網(wǎng)址，那你就只要查看它的源代碼，找到開始代碼和結束代碼就可以了。內(nèi)容頁面配置也是同理，你找到你需要采集的網(wǎng)頁，查看他的源代碼，你需要從哪個標簽開始采集就些那個標簽中間是內(nèi)容然后那個標簽結束就填寫結束標簽。舉例我從目標網(wǎng)頁的<body>標簽開始采集 ,采集到</body>標簽結束那么我的采集內(nèi)容匹配就是 <body>[內(nèi)容]</body>過濾規(guī)則就是你需要過濾特定的內(nèi)容然后在過濾規(guī)則填上就行。

dedecms(織夢)的采集功能怎么用

在網(wǎng)站建設初期，若CMS系統(tǒng)沒有一個采集功能，那更新文章的工作量是可想而知的，使用采集功能可以方便地在網(wǎng)站中加入豐富的內(nèi)容。在左側的面板列表中依次選擇“采集管理”→“采集節(jié)點管理”，接著點擊“添加新節(jié)點”按鈕進入采集規(guī)則編寫頁面（如圖6）。在編寫采集規(guī)則時，是用“[Var:內(nèi)容]”標記來表示所有的變量，例如編寫文章標題的采集規(guī)則，通過查看采集頁面源文件發(fā)現(xiàn)其代碼如下：
快速上手企業(yè)建站DedeCms一馬當先”
那么“文章標題”中的采集規(guī)則就可寫為[Var:內(nèi)容]，非常的簡單。

本文發(fā)布于:2023-02-28 20:22:00，感謝您對本站的認可！

本文鏈接：http://www.newhan.cn/zhishi/a/167767187385167.html

本文word下載地址：織夢采集規(guī)則.doc

本文 PDF 下載地址：織夢采集規(guī)則.pdf

上一篇：防走光

下一篇：返回列表

標簽：規(guī)則

留言與評論（共有 0 條評論）