欧美另类日韩中文色综合,天堂va亚洲va欧美va国产,www.av在线播放,大香视频伊人精品75,奇米777888,欧美日本道免费二区三区,中文字幕亚洲综久久2021

織夢(mèng)CMS普通文章采集 -電腦資料

電腦資料 時(shí)間:2019-01-01 我要投稿
【www.lotusphilosophies.com - 電腦資料】

   

    以織夢(mèng)官方站為例,我們采集站長(zhǎng)學(xué)院下的PHP教程欄目,打開列表地址http://www.dedecms.com/web-art/PHP_jiaocheng,

織夢(mèng)CMS普通文章采集

。

    登錄后臺(tái),進(jìn)入“采集節(jié)點(diǎn)管理”,新建一個(gè)節(jié)點(diǎn),選擇內(nèi)容模型為“普通文章”。

    1.設(shè)置節(jié)點(diǎn)基本信息

    先填寫一個(gè)方便記憶的節(jié)點(diǎn)名稱,選擇目標(biāo)頁面編碼為GB2312,防盜鏈模式不做設(shè)置,因目標(biāo)站沒做限制,這一項(xiàng)就不做修改,系統(tǒng)默認(rèn)超時(shí)時(shí)間10秒。

    2.設(shè)置列表網(wǎng)址獲取規(guī)則

    這一步我們要做些設(shè)置,獲取文章列表地址,回到目標(biāo)站列表頁,觀察分頁間的變化,可以發(fā)現(xiàn)只有“14_”后的數(shù)字有規(guī)律的遞增變化。

    首頁:http://www.dedecms.com/web-art/PHP_jiaocheng/

    中間:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html

    末頁:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html

    復(fù)制一個(gè)分頁地址,回到“新增采集節(jié)點(diǎn)”頁面,選擇“來源屬性”為“批量生成列表網(wǎng)址”,把粘貼地址到“匹配網(wǎng)址”中,修改規(guī)律變化處為(*),“批量生成地址設(shè)置”處(*)輸入1到172,這里的意思是生成出列表第一頁到最后172頁的所有地址。

    測(cè)試一下,在彈出框中我們可以看到循環(huán)出172條地址記錄,很順利的就設(shè)置好了。有時(shí)候會(huì)碰到較難獲取的列表,那我們可以把把沒規(guī)律的地址復(fù)制到”手工指定列表網(wǎng)址“文本框中來采集。

    3.設(shè)置文章網(wǎng)址匹配規(guī)則

    上面指定好了文章地址來源頁,這一步就需要在這些頁面中找出符合要求的文章地址頁了。打開一個(gè)列表頁面觀察,左欄的方框中包含了我們需要的全部地址,這種情況區(qū)分明顯的頁面,可以利“區(qū)域開始的HTML”和“區(qū)域結(jié)束的HTMLL”設(shè)置進(jìn)行過濾,

電腦資料

織夢(mèng)CMS普通文章采集》(http://www.lotusphilosophies.com)。

    不過也可以使用其他方法。把鼠標(biāo)移到各處鏈接地址,觀察瀏覽器左下角顯示的完整地址,我們需要的地址都包含“PHP_jiaocheng/20”,那我們把它填寫到“必須包含”中。

    兩種方法都能夠過濾出地址,碰上復(fù)雜頁面,可以配合起來使用,加上正則,幾乎沒有篩選不出的地址,附(圖5.1)對(duì)照。最后確定,進(jìn)入下一步“網(wǎng)頁內(nèi)容獲取規(guī)則”。

    =700) window.open('/uploads/allimg/091113/1A1501494-0.gif');" nload="if(this.width>'700')this.width='700';" src="http://img2.shangxueba.com/img/dnzg/20140916/16/FC51D8E2103C7A68F8D9FF74D3B6C143.gif" />

    (圖5.1)

    4. 網(wǎng)頁內(nèi)容獲取規(guī)則

    上面介紹了列表設(shè)置的方法,接下來我們進(jìn)入內(nèi)容獲取規(guī)則的設(shè)置,如果說采集是上菜的話,上面一到三步的作用,只是開胃菜為下面的主菜做引。接下來是介紹如何從目標(biāo)站把文章內(nèi)容采集過來,這一步是是整個(gè)采集中最為核心的部分。

    繼續(xù)回到織夢(mèng)的PHP教程列表,隨便打開一篇列表中的文章,這里我們以《正則表達(dá)式》這篇文章為例:http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html,把該地址復(fù)制到“預(yù)覽網(wǎng)址”;因?yàn)榭棄?mèng)所有文章都沒分頁,所以這里的分頁就無需設(shè)置,直接進(jìn)入“固定的采集項(xiàng)目”頁面

    (注:如果采集的內(nèi)容含有分頁,只需要將分頁導(dǎo)航部分的匹配規(guī)則設(shè)置完成即可,這里有全部列出的分頁列表、上下頁形式或不完整的分頁列表根據(jù)內(nèi)容進(jìn)行設(shè)置即可)

   

   

    [td]以下為引用的內(nèi)容:

   

   

   

    [/td]

    5. 固定的采集項(xiàng)目

    進(jìn)入這一步,就開始對(duì)頁面源碼進(jìn)行分析了,采集無非是分析HTML頁面的結(jié)構(gòu),從而獲取我們所需的內(nèi)容。所以要求我們對(duì)HTML代碼有一定的認(rèn)識(shí),能通過查看頁面源文件,找出需要的內(nèi)容,最好多開幾個(gè)頁面進(jìn)行分析,找出相同處。

最新文章