200

web日志挖掘的信息無障礙網(wǎng)站設(shè)計研究

時間: 2013-06-20 15:49:59   點擊數(shù): 65598   來源: 耐思智慧

免費會員注冊

0.引言

隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)給現(xiàn)代人們獲取信息帶來極大的便利,成為人們工作生活中非常重要的組成部分。信息無障礙即萬維網(wǎng)對任何人士(包括殘障人士)都是可訪問、可用的,殘障人士能感覺、理解和操縱Web,與Web 互動。如何借助先進的技術(shù),消除數(shù)字鴻溝,為殘疾人提供有效的輔助手段,使他們能和健全人一樣無障礙地獲取網(wǎng)上信息,得到世界各國政府和組織越來越多的重視。
1.信息無障礙網(wǎng)站存在的問題
很多部分實現(xiàn)了信息無障礙的網(wǎng)站,用戶每次訪問時,網(wǎng)站語音都得從頭到尾的播報網(wǎng)站內(nèi)容,對于該用戶曾經(jīng)訪問過本網(wǎng)站中部分頁面內(nèi)容期刊網(wǎng),系統(tǒng)不能自動過濾掉這些已經(jīng)閱讀的內(nèi)容,或者跳過這些已閱讀信息,而是依然按照布局順序重復(fù)播報。這對于閱讀障礙的用戶來說非常浪費時間和精力。避免重復(fù)瀏覽或者播報網(wǎng)站信息,將用戶曾經(jīng)閱讀過的內(nèi)容過濾掉,將沒有閱讀過的最新的感興趣的網(wǎng)頁內(nèi)容優(yōu)先播報給閱讀障礙用戶,提供智能化、個性化信息服務(wù),是信息無障礙網(wǎng)站設(shè)計應(yīng)該重視的問題。
2. web日志挖掘
web日志文件是在web服務(wù)器上每隔一定的時間產(chǎn)生的記錄文件,其內(nèi)容包括訪問用戶的IP地址,訪問時間、訪問的頁面、頁面的大小、瀏覽器類型、響應(yīng)狀態(tài)等等。web日志挖掘是對用戶訪問Web時服務(wù)器方留下的訪問記錄進行挖掘,得到用戶的訪問模式和訪問興趣。通過對Web站點的日志記錄進行預(yù)處理,將日志數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務(wù)數(shù)據(jù)形式,然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進行處理。
web日志預(yù)處理過程:
(1)數(shù)據(jù)收集 從服務(wù)器端數(shù)據(jù)、客戶端數(shù)據(jù)、代理服務(wù)器端進行。
(2)數(shù)據(jù)凈化 刪除Web日志文件中不是由用戶請求,而是由瀏覽器自動“請求”產(chǎn)生的訪問記錄。具體包括圖片和音頻文件、樣式文件和腳本文件、不是GET的HTTP方法、彈出式廣告的記錄等。
(4)會話識別 用戶在規(guī)定時間內(nèi)對服務(wù)器的一次有效訪問,通過其連續(xù)請求的頁面,可以獲得其在網(wǎng)站中的訪問行為和瀏覽興趣,有4種識別會話的模型:頁面類型模型(page type model),參引長度模型(reference length model),最大前向參引模型(maximal forwordreference model)和時間窗口模型(time window model)。最常采用的是時間窗口模型,以用戶訪問時間作為劃分會話的分界,一般間隔時間取30min。
(5)路徑補充 用戶有時瀏覽的頁面,是從本地緩存和代理服務(wù)器中調(diào)用的,不會向Web服務(wù)器發(fā)送請求,也就不會記錄日志,而這些請求可能對后續(xù)挖掘的實施有重要作用期刊網(wǎng),缺少這些頁面記錄可能會使挖掘結(jié)果不是很準確。為了能更精確的挖掘用戶的行為模式,有必要把這些缺失的路徑補充上去即路徑補充。如果當(dāng)前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK"按鈕調(diào)用緩存在本機中的頁面。如果用戶的歷史訪問記錄有多個頁面都包含與當(dāng)前請求頁的鏈接,則將請求時間最接近的Web頁的頁面作為當(dāng)前請求的來源。
3.基于web日志挖掘的網(wǎng)站設(shè)計
3.1網(wǎng)站設(shè)計架構(gòu)
網(wǎng)站為每位存在訪問障礙的用戶建立網(wǎng)站訪問記錄數(shù)據(jù)庫,用戶訪問網(wǎng)站頁面,產(chǎn)生web日志文件,通過對web站點日志文件進行數(shù)據(jù)凈化、用戶識別、會話識別,將有用數(shù)據(jù)存入事務(wù)數(shù)據(jù)庫,對該用戶訪問過的頁面進行相應(yīng)標記,再對事務(wù)數(shù)據(jù)庫進行傳統(tǒng)的數(shù)據(jù)挖掘,分析出該用戶比較感興趣的信息類型,為該用戶對網(wǎng)站所有類型信息構(gòu)造優(yōu)先顯示頁面類型序列表和對每類信息未訪問頁面、已訪問頁面分別構(gòu)造優(yōu)先序列表,當(dāng)該用戶再次訪問網(wǎng)站時利用離線分析所得的優(yōu)先序列表和網(wǎng)站文件映射數(shù)據(jù)庫將網(wǎng)頁鏈接按照用戶興趣高低動態(tài)填充到網(wǎng)站導(dǎo)航框架,這樣用戶最感興趣類型的網(wǎng)頁鏈接總是弄夠最先看到、聽到,從而達到優(yōu)先訪問的目的。
網(wǎng)站設(shè)計框架如下圖:
圖1 信息無障礙網(wǎng)站設(shè)計框架
3.2 網(wǎng)站導(dǎo)航
網(wǎng)站導(dǎo)航是根據(jù)信息無障礙網(wǎng)站結(jié)構(gòu)布局設(shè)計標準所設(shè)計的網(wǎng)站通用布局框架,除了包括信息無障礙要求的導(dǎo)航磚,通用切換等功能,還將頁面設(shè)計成由幾個通用的布局框架模塊組成,每個框架模塊將顯示網(wǎng)站上某一種類型的網(wǎng)頁信息鏈接,具體網(wǎng)頁鏈接內(nèi)容則根據(jù)序列表先后順序動態(tài)填充。網(wǎng)站所包含的信息類型可以有很多,但在網(wǎng)站導(dǎo)航中只列出用戶最感興趣的幾種類型的網(wǎng)頁鏈接,隨著用戶興趣的改變,其他類型的網(wǎng)頁鏈接將動態(tài)的填充到相應(yīng)級別的框架模塊中。
3.3 興趣提取
根據(jù)用戶瀏覽的歷史訪問記錄(內(nèi)容信息和行為信息)、訪問時間和訪問頻率等來分析計算用戶興趣度,用戶的興趣一般集中于某一個主題或者多個主題期刊網(wǎng),系統(tǒng)在通過聚類進行分析將用戶瀏覽的歷史頁面集自動地分成n個聚簇(n是聚類中聚類中心的數(shù)目),每一聚簇的頁面集體現(xiàn)了用戶的某類興趣,構(gòu)造形成用戶的興趣類。再利用用戶的隱式信息學(xué)習(xí)提取用戶興趣集,建立樹狀的用戶興趣模型。
3.4 序列模式
序列模式挖掘是對關(guān)聯(lián)規(guī)則挖掘的進一步推廣,它挖掘出序列數(shù)據(jù)庫中項集之間的時序關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則強調(diào)的是兩個項之間的關(guān)聯(lián),序列模式則加強調(diào)兩者之間的先后次序。這里我們將挖掘出兩種序列表:類型序列表和頁面序列表。類型序列表是通過對歷史訪問記錄進行挖掘統(tǒng)計出來的網(wǎng)站每種類型信息訪問優(yōu)先等級,是一組有序項集對應(yīng)表;頁面序列表則是以類型挖掘權(quán)值和更新時間2個指標得出的頁面訪問有序集對應(yīng)表?梢圆捎没贏pfiori算法的改進算法進行挖掘得到上述兩種序列表。
3.5 序列-頁面映射
根據(jù)挖掘得到的序列模式對網(wǎng)站的靜態(tài)頁面文件進行一一映射,按照興趣高低和文件序列先后動態(tài)的填充如網(wǎng)站導(dǎo)航模塊框架中。
4.結(jié)束語

本文所提出對web日志文件挖掘提取用戶的興趣類和訪問類型和頁面優(yōu)先序列,重構(gòu)站點頁面之間的鏈接關(guān)系,動態(tài)顯示網(wǎng)頁信息的設(shè)計框架,以適應(yīng)有障礙用戶的訪問興趣習(xí)慣為主要目標,在一定程度上可以避免反復(fù)無用的頁面瀏覽和語音播報所造成的對存在訪問障礙用戶產(chǎn)生的困擾和時間精力的浪費,提高了訪問效率,為消除信息鴻溝,真正做到信息人人共享發(fā)揮積極的作用。

更多網(wǎng)站建設(shè)資料:

Microsoft SQL Server Management Studio 如何導(dǎo)入導(dǎo)出數(shù)據(jù)
國內(nèi)社交網(wǎng)站創(chuàng)新研究及網(wǎng)站盈利模式
如何去建立一個好的網(wǎng)站
傳統(tǒng)文化網(wǎng)頁設(shè)計編排重點
電子商務(wù)網(wǎng)站建設(shè)規(guī)劃
上一篇:網(wǎng)站建設(shè)的本質(zhì)意義是什么,企業(yè)為什么要建設(shè)公司網(wǎng)站? 下一篇:Microsoft SQL Server Management Studio 如何導(dǎo)入導(dǎo)出數(shù)據(jù)

旗下網(wǎng)站:耐思智慧 - 淘域網(wǎng) - 我的400電話 - 中文域名:耐思尼克.cn 耐思尼克.top

耐思智慧 © 版權(quán)所有 Copyright © 2000-2024 www.testsystem.com.cn,Inc. All rights reserved

備案號碼: 粵ICP備09063828號  公安備案號: 公安備案 粵公網(wǎng)安備 44049002000123號  域名注冊服務(wù)機構(gòu)許可:粵D3.1-20240003 CN域名代理自深圳萬維網(wǎng)

聲明:本網(wǎng)站中所使用到的其他各種版權(quán)內(nèi)容,包括但不限于文章、圖片、視頻、音頻、字體等內(nèi)容版權(quán)歸原作者所有,如權(quán)利所有人發(fā)現(xiàn),請及時告知,以便我們刪除版權(quán)內(nèi)容

本站程序界面、源代碼受相關(guān)法律保護, 未經(jīng)授權(quán), 嚴禁使用; 耐思智慧 © 為我公司注冊商標, 未經(jīng)授權(quán), 嚴禁使用

法律顧問:珠海知名律師 廣東篤行律師事務(wù)所 夏天風(fēng) 律師