<th id="6yc0e"></th>
  • <samp id="6yc0e"><pre id="6yc0e"></pre></samp>
  • <ul id="6yc0e"><pre id="6yc0e"></pre></ul><ul id="6yc0e"><pre id="6yc0e"></pre></ul>
    <samp id="6yc0e"><pre id="6yc0e"></pre></samp>
  • <th id="6yc0e"></th>
    <samp id="6yc0e"></samp>
  • <kbd id="6yc0e"><pre id="6yc0e"></pre></kbd>
    <samp id="6yc0e"></samp>
    <ul id="6yc0e"><tbody id="6yc0e"></tbody></ul>
  • <samp id="6yc0e"></samp>
  • 在线免费成人亚洲av,无码毛片一区二区本码视频,亚洲日韩一区精品射精,国产99视频精品免费视频36

    網(wǎng)頁信息表格化提取程序的論文

    時間:2021-06-12 19:09:24 論文 我要投稿

    網(wǎng)頁信息表格化提取程序的論文

      摘 要:

    網(wǎng)頁信息表格化提取程序的論文

      本文介紹了基于MSHTML設(shè)計開發(fā)的網(wǎng)頁信息表格化提取程序的原理、程序結(jié)構(gòu)和工作流程,使用網(wǎng)頁信息提取、網(wǎng)頁元素解析、采集配置管理三大功能模塊,實現(xiàn)對網(wǎng)頁及其內(nèi)部關(guān)聯(lián)信息的提取、解析、整理和表格化顯示,創(chuàng)新使用了對網(wǎng)頁屬性值和樹路徑值進行確認(rèn)的二元檢查機制,能夠?qū)崿F(xiàn)對指定信息的準(zhǔn)確提取。本文還舉例說明了程序的操作步驟和實際效果。

      引言

      當(dāng)今是網(wǎng)絡(luò)高速發(fā)展、信息量急劇膨脹的信息時代,人們通過信息來互相交流,認(rèn)識世界。在信息中存在著大量有價值的信息要素,這些有價值的信息要素大都以網(wǎng)頁的形式存在,其內(nèi)容和格式千差萬別。如果通過瀏覽器進行瀏覽和閱讀不存在問題,但若需要將感興趣的某類信息及其內(nèi)部關(guān)聯(lián)信息保存下來并進行整理,目前常用的工具普遍存在著某些缺點,比如網(wǎng)絡(luò)蜘蛛等爬蟲工具無法實現(xiàn)對內(nèi)部關(guān)聯(lián)信息的提取。因此,本人作者使用MSHTML語言設(shè)計了網(wǎng)頁內(nèi)部表格化提取的自動程序,可以完成對網(wǎng)頁及內(nèi)部關(guān)聯(lián)信息的保存、整理和表格化顯示,能夠明顯提高對信息的利用效率。

      1、信息提取原理分析

      人們通過瀏覽器所看到的頁面,是由很多的頁面元素組裝在一起的,其中既有常見的圖片和文字,也有專門的結(jié)構(gòu)元素,所有這些頁面元素經(jīng)過一定的組合形成了我們看到的頁面。對網(wǎng)頁進行進行提取,實質(zhì)上就是使用一定技術(shù)方法將指定的網(wǎng)頁元素進行解析、特征匹配和顯示的過程。

      網(wǎng)頁信息的元素可以分為以下三種級別:

      頂級元素(Top-level element):共有html、body和frameset三種,屬于高級塊級元素,表現(xiàn)類似塊級元素。

      塊級元素(Block-level element):能夠獨立存在且元素之間可以換行分割,常用的塊級元素有p、div、ul、table等。

      內(nèi)聯(lián)元素(inline element):依附其他塊級元素存在,緊接于被聯(lián)元素之間顯示并且不換行,常用的內(nèi)聯(lián)元素包括img、span、li、br等。

      2程序的設(shè)計思想

      2.1 采集原理

      2.2 二元檢查機制

      2.3 程序功能設(shè)計

      3 程序結(jié)構(gòu)及工作流程

      3.1主要功能

      3.2 運行流程

      4程序的主要功能實現(xiàn)方法

      4.1采集配置管理

      4.2網(wǎng)頁元素解析

      5 運行測試

      5.1 讀取頁面

      5.2 配置采集

      5.3 采集網(wǎng)頁信息

      5.4查看采集結(jié)果

      6、結(jié)語

      隨著網(wǎng)絡(luò)化的`快速發(fā)展,人們對網(wǎng)頁元素的需求越來越轉(zhuǎn)向個性化分類和精確提取,以往面向全部內(nèi)容的野蠻采集方式已經(jīng)無法滿足目前的需求,對其進行針對性的研究有著積極意義。

      網(wǎng)頁信息表格化提取程序通過網(wǎng)頁信息提取、網(wǎng)頁元素解析、采集配置管理三大功能模塊的分工協(xié)作,實現(xiàn)對網(wǎng)頁及其內(nèi)部關(guān)聯(lián)信息的提取、解析、整理和表格化顯示,不僅克服了以往網(wǎng)頁信息抓取工具不能提取內(nèi)部關(guān)聯(lián)網(wǎng)頁信息的不足,使得程序的適用性、擴展性明顯提高,而且程序中創(chuàng)新使用的對網(wǎng)頁屬性值和樹路徑值進行確認(rèn)的二元檢查機制,能夠?qū)崿F(xiàn)對指定信息的準(zhǔn)確提取,極大提升了程序結(jié)果的精確性。

      雖然網(wǎng)頁信息表格化提取程序在精確性、適用性和擴展性上取得了進步,但也存在一些不足,希望以后能找到更好的解決方法....

    【網(wǎng)頁信息表格化提取程序的論文】相關(guān)文章:

    信息化建設(shè)論文精選02-19

    信息化建設(shè)論文02-18

    信息化技術(shù)論文04-05

    網(wǎng)頁設(shè)計的視覺信息傳達分析論文04-22

    信息化與網(wǎng)絡(luò)化的建設(shè)論文07-03

    網(wǎng)絡(luò)信息化有關(guān)的論文03-12

    會計信息化論文03-30

    高中信息技術(shù)《在網(wǎng)頁中插入表格》說課稿07-14

    網(wǎng)頁設(shè)計中表格和層排版的使用技巧論文04-19

    主站蜘蛛池模板: 在厨房被C到高潮A毛片奶水| 中文字幕AV无码一二三区电影| 成人免费看片又大又黄| 少妇xxxxx性开放| 国产在线超清日本一本| AV激情亚洲男人的天堂| 97夜夜澡人人爽人人模人人喊| 中文字幕亚洲无线码在线一区 | 久久经精品久久精品免费观看| 国产精品成人久久电影| 国语自产拍精品香蕉在线播放| 亚洲精品无码AV人在线观看国产| 成人做受120秒试看试看视频 | 特黄三级又爽又粗又大| 国产精品午夜精品福利| 亚洲中文字幕无码一久久区| 亚洲AV成人片不卡无码| 无码精品一区二区三区在线| 国产97视频人人做人人爱| 精品久久久久中文字幕日本| 亚洲中文字幕无码爆乳APP| 四虎在线播放亚洲成人| 把女人弄爽大黄A大片片| 亚洲成在人线AV品善网好看| 欧美伊人久久大香线蕉综合| 精品国产丝袜自在线拍国语| 最新国产精品亚洲| 国产精品麻豆成人AV电影艾秋| 人妻系列无码专区69影院| 午夜无码A级毛片免费视频| 国产99视频精品免视看9| 国产片AV国语在线观看手机版| 成人午夜福利视频| 婷婷五月综合色视频| 久久天天躁狠狠躁夜夜婷| 午夜毛片不卡免费观看视频| 国内大量揄拍人妻精品視頻| 天天综合亚洲色在线精品| 成人免费无码大片A毛片抽搐色欲| 亚洲成A人一区二区三区| 人妻丰满熟妇AV无码区动漫|