web日志挖掘的信息無障礙網(wǎng)站設計研究

時間: 2013-06-20 15:49:59 點擊數(shù): 65917 來源: 耐思智慧

0．引言

隨著信息技術和網(wǎng)絡技術的不斷發(fā)展，互聯(lián)網(wǎng)給現(xiàn)代人們獲取信息帶來極大的便利，成為人們工作生活中非常重要的組成部分。信息無障礙即萬維網(wǎng)對任何人士(包括殘障人士)都是可訪問、可用的，殘障人士能感覺、理解和操縱Web，與Web 互動。如何借助先進的技術，消除數(shù)字鴻溝，為殘疾人提供有效的輔助手段，使他們能和健全人一樣無障礙地獲取網(wǎng)上信息，得到世界各國政府和組織越來越多的重視。
1．信息無障礙網(wǎng)站存在的問題
很多部分實現(xiàn)了信息無障礙的網(wǎng)站，用戶每次訪問時，網(wǎng)站語音都得從頭到尾的播報網(wǎng)站內容，對于該用戶曾經(jīng)訪問過本網(wǎng)站中部分頁面內容期刊網(wǎng)，系統(tǒng)不能自動過濾掉這些已經(jīng)閱讀的內容，或者跳過這些已閱讀信息，而是依然按照布局順序重復播報。這對于閱讀障礙的用戶來說非常浪費時間和精力。避免重復瀏覽或者播報網(wǎng)站信息，將用戶曾經(jīng)閱讀過的內容過濾掉，將沒有閱讀過的最新的感興趣的網(wǎng)頁內容優(yōu)先播報給閱讀障礙用戶，提供智能化、個性化信息服務，是信息無障礙網(wǎng)站設計應該重視的問題。
2． web日志挖掘
web日志文件是在web服務器上每隔一定的時間產(chǎn)生的記錄文件，其內容包括訪問用戶的IP地址，訪問時間、訪問的頁面、頁面的大小、瀏覽器類型、響應狀態(tài)等等。web日志挖掘是對用戶訪問Web時服務器方留下的訪問記錄進行挖掘，得到用戶的訪問模式和訪問興趣。通過對Web站點的日志記錄進行預處理，將日志數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務數(shù)據(jù)形式，然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進行處理。
web日志預處理過程：
（1）數(shù)據(jù)收集從服務器端數(shù)據(jù)、客戶端數(shù)據(jù)、代理服務器端進行。
（2）數(shù)據(jù)凈化刪除Web日志文件中不是由用戶請求，而是由瀏覽器自動“請求”產(chǎn)生的訪問記錄。具體包括圖片和音頻文件、樣式文件和腳本文件、不是GET的HTTP方法、彈出式廣告的記錄等。
（4）會話識別用戶在規(guī)定時間內對服務器的一次有效訪問，通過其連續(xù)請求的頁面，可以獲得其在網(wǎng)站中的訪問行為和瀏覽興趣，有4種識別會話的模型：頁面類型模型(page type model)，參引長度模型(reference length model)，最大前向參引模型(maximal forwordreference model)和時間窗口模型(time window model)。最常采用的是時間窗口模型，以用戶訪問時間作為劃分會話的分界，一般間隔時間取30min。
（5）路徑補充用戶有時瀏覽的頁面，是從本地緩存和代理服務器中調用的，不會向Web服務器發(fā)送請求，也就不會記錄日志，而這些請求可能對后續(xù)挖掘的實施有重要作用期刊網(wǎng)，缺少這些頁面記錄可能會使挖掘結果不是很準確。為了能更精確的挖掘用戶的行為模式，有必要把這些缺失的路徑補充上去即路徑補充。如果當前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接，那么用戶很可能使用了瀏覽器上的“BACK"按鈕調用緩存在本機中的頁面。如果用戶的歷史訪問記錄有多個頁面都包含與當前請求頁的鏈接，則將請求時間最接近的Web頁的頁面作為當前請求的來源。
3．基于web日志挖掘的網(wǎng)站設計
3.1網(wǎng)站設計架構
網(wǎng)站為每位存在訪問障礙的用戶建立網(wǎng)站訪問記錄數(shù)據(jù)庫，用戶訪問網(wǎng)站頁面，產(chǎn)生web日志文件，通過對web站點日志文件進行數(shù)據(jù)凈化、用戶識別、會話識別，將有用數(shù)據(jù)存入事務數(shù)據(jù)庫，對該用戶訪問過的頁面進行相應標記，再對事務數(shù)據(jù)庫進行傳統(tǒng)的數(shù)據(jù)挖掘，分析出該用戶比較感興趣的信息類型，為該用戶對網(wǎng)站所有類型信息構造優(yōu)先顯示頁面類型序列表和對每類信息未訪問頁面、已訪問頁面分別構造優(yōu)先序列表，當該用戶再次訪問網(wǎng)站時利用離線分析所得的優(yōu)先序列表和網(wǎng)站文件映射數(shù)據(jù)庫將網(wǎng)頁鏈接按照用戶興趣高低動態(tài)填充到網(wǎng)站導航框架，這樣用戶最感興趣類型的網(wǎng)頁鏈接總是弄夠最先看到、聽到，從而達到優(yōu)先訪問的目的。
網(wǎng)站設計框架如下圖：

圖1 信息無障礙網(wǎng)站設計框架

3.2 網(wǎng)站導航
網(wǎng)站導航是根據(jù)信息無障礙網(wǎng)站結構布局設計標準所設計的網(wǎng)站通用布局框架，除了包括信息無障礙要求的導航磚，通用切換等功能，還將頁面設計成由幾個通用的布局框架模塊組成，每個框架模塊將顯示網(wǎng)站上某一種類型的網(wǎng)頁信息鏈接，具體網(wǎng)頁鏈接內容則根據(jù)序列表先后順序動態(tài)填充。網(wǎng)站所包含的信息類型可以有很多，但在網(wǎng)站導航中只列出用戶最感興趣的幾種類型的網(wǎng)頁鏈接，隨著用戶興趣的改變，其他類型的網(wǎng)頁鏈接將動態(tài)的填充到相應級別的框架模塊中。
3.3 興趣提取
根據(jù)用戶瀏覽的歷史訪問記錄(內容信息和行為信息)、訪問時間和訪問頻率等來分析計算用戶興趣度，用戶的興趣一般集中于某一個主題或者多個主題期刊網(wǎng)，系統(tǒng)在通過聚類進行分析將用戶瀏覽的歷史頁面集自動地分成n個聚簇(n是聚類中聚類中心的數(shù)目)，每一聚簇的頁面集體現(xiàn)了用戶的某類興趣，構造形成用戶的興趣類。再利用用戶的隱式信息學習提取用戶興趣集，建立樹狀的用戶興趣模型。
3.4 序列模式
序列模式挖掘是對關聯(lián)規(guī)則挖掘的進一步推廣，它挖掘出序列數(shù)據(jù)庫中項集之間的時序關聯(lián)規(guī)則。關聯(lián)規(guī)則強調的是兩個項之間的關聯(lián)，序列模式則加強調兩者之間的先后次序。這里我們將挖掘出兩種序列表：類型序列表和頁面序列表。類型序列表是通過對歷史訪問記錄進行挖掘統(tǒng)計出來的網(wǎng)站每種類型信息訪問優(yōu)先等級，是一組有序項集對應表；頁面序列表則是以類型挖掘權值和更新時間2個指標得出的頁面訪問有序集對應表�？梢圆捎没贏pfiori算法的改進算法進行挖掘得到上述兩種序列表。
3.5 序列-頁面映射
根據(jù)挖掘得到的序列模式對網(wǎng)站的靜態(tài)頁面文件進行一一映射，按照興趣高低和文件序列先后動態(tài)的填充如網(wǎng)站導航模塊框架中。
4.結束語

本文所提出對web日志文件挖掘提取用戶的興趣類和訪問類型和頁面優(yōu)先序列，重構站點頁面之間的鏈接關系，動態(tài)顯示網(wǎng)頁信息的設計框架，以適應有障礙用戶的訪問興趣習慣為主要目標，在一定程度上可以避免反復無用的頁面瀏覽和語音播報所造成的對存在訪問障礙用戶產(chǎn)生的困擾和時間精力的浪費，提高了訪問效率，為消除信息鴻溝，真正做到信息人人共享發(fā)揮積極的作用。