信息檢索學術(shù)論文(2)
信息檢索學術(shù)論文
信息檢索學術(shù)論文篇二
優(yōu)惠信息檢索與分析
摘 要 處在一個信息時代,越來越多復雜且紊亂的信息充斥著我們的生活。如何從繁多散亂的信息中找到顧客需要的、感興趣的優(yōu)惠信息成為一個難點。我們的課題致力于尋找局部地區(qū)的優(yōu)惠信息并將其匯總在一個平臺上,通過顧客的點擊率等方式挖掘數(shù)據(jù)分析顧客偏好。
關(guān)鍵詞 優(yōu)惠信息;搜索;關(guān)聯(lián)規(guī)則;平臺
中圖分類號 TP39 文獻標識碼 A 文章編號 1674-6708(2016)161-0099-02
在如今的信息時代,隨著internet網(wǎng)絡的迅速發(fā)展以及信息化水平不斷的提高,網(wǎng)絡上產(chǎn)生了許多關(guān)于打折優(yōu)惠的信息。越來越多的復雜且紊亂的優(yōu)惠信息充斥著我們的生活。大部分人需要并且對優(yōu)惠信息感興趣,然而目前優(yōu)惠信息是零散分布在各個地方,沒有集中在一個地方發(fā)表。這既沒有最大化商家的利益,也沒有造福于顧客。如今如何更好地利用和挖掘出有價值的優(yōu)惠信息從而更好地服務于顧客,是它要急需解決的問題。
1 優(yōu)惠信息需求分析
優(yōu)惠信息依靠不同的介質(zhì)大面積存在,而顧客針對優(yōu)惠信息有不同的需求和偏好,我們通過生活的一些現(xiàn)象,發(fā)現(xiàn)需要將受顧客歡迎的優(yōu)惠信息收集起來,便于顧客查看和選擇。網(wǎng)上和現(xiàn)實同時進行了一次簡單的問卷調(diào)查,問卷調(diào)查范圍主要是青年人,采用不同的統(tǒng)計表達形式,分析數(shù)據(jù)后得到以下信息。65%的人會主動尋求優(yōu)惠信息,而且大部分人會知曉優(yōu)惠信息后主要去嘗試,由此可以看出青年人尤其是大學生財力不夠,沒有自己的收入或者工資不高。他們出于這些原因會希望獲得優(yōu)惠信息,不僅是節(jié)省而且可以以有限的財力來體驗更多的生活。其中美食類的優(yōu)惠信息更得大眾歡迎,休閑娛樂類第二,購物類第三。大家更多關(guān)注的還是豐富自己的精神生活,提升生活檔次,享受生活。當然這也與年輕人自身的偏好有關(guān)。他們生長于物質(zhì)和精神都更為豐富的社會,比之年長者更容易接受新事物。
就目前優(yōu)惠信息分布情況來看,基本沒有人或極少數(shù)人認為其分布是集中的。大家感受到生活中的優(yōu)惠信息是零散的。而大眾獲取優(yōu)惠信息的渠道多種多樣,最廣泛使用的是通過微信等App發(fā)現(xiàn),其次為朋友告知。調(diào)查發(fā)現(xiàn)微信對大家的影響越來越深,在生活中的應用愈加廣泛。
2 平臺建立
通過日常觀察和問卷調(diào)查,很多用戶常用微信最為日常工具,因此,建立一個微信平臺來發(fā)布我們的優(yōu)惠信息在一定程度上是可行的。
將收集的優(yōu)惠信息分類,歸為美食、休閑娛樂、購物等多種類別,類別名稱由編碼代替并定時發(fā)布在微信平臺上。有目的性查找優(yōu)惠信息的顧客可以通過選擇不同編碼,進入到不同類別的優(yōu)惠信息頁面中去,再可以點擊相關(guān)的推送來查看具體的優(yōu)惠信息內(nèi)容。平臺上每天會發(fā)送新的優(yōu)惠信息,可以方便關(guān)注我們平臺的顧客隨意點擊。在發(fā)布信息的同時,定時刪除過時的優(yōu)惠信息,不浪費顧客時間。
在顧客使用我們平臺的時候,我們將采用數(shù)據(jù)挖掘等方式來發(fā)現(xiàn)顧客的偏好,之后,我們將在顧客偏好的優(yōu)惠信息上加大收集力度。
3 信息收集
3.1 優(yōu)惠信息要求
通過查找感興趣的優(yōu)惠信息這一途徑,顧客能利用相同的價值去體驗更多的生活感受。為了確保這些優(yōu)惠信息的實用性,收集到的信息必須具備以下要求。
3.1.1 時效性
很多優(yōu)惠信息都是伴隨著某種活動產(chǎn)生的,例如節(jié)日、店慶等較為隆重的日期,可想而知,這類優(yōu)惠信息必定存在一定的期限,或長或短,時間不定。而分享給顧客的時候必須保證優(yōu)惠信息不過時,在提早發(fā)送消息的同時還要定期處理過期的優(yōu)惠信息。
3.1.2 真實性
有些商家為了得到更多顧客的關(guān)注,會編造一些虛假優(yōu)惠信息,需要運氣才能獲得,但前提是顧客關(guān)注或者轉(zhuǎn)發(fā),事實卻是完全沒有這個活動。有些優(yōu)惠信息又存在于宣傳的有差距的詐騙。這些現(xiàn)象明顯屬于欺騙消費者行為。所以信息的真實性是必備因素。
3.2 優(yōu)惠信息收集途經(jīng)
3.2.1 走訪商家
作為一種存在時間最長的收集方式,也是最基礎(chǔ)和保險的收集方式,與商家面對面的洽談存在其優(yōu)點和缺點。走訪地區(qū)內(nèi)各戶商家,與商家進行協(xié)議,體現(xiàn)誠意,便于建立長期合作。但是過程費時費勁,因此我們并不主要依靠這個方法來收集信息。
3.2.2 網(wǎng)絡收集
處在一個互聯(lián)網(wǎng)高速發(fā)展的時代,互聯(lián)網(wǎng)提供給用戶極大的便利。網(wǎng)絡信息便是其中占據(jù)大比例的存在。通過網(wǎng)絡收集各類優(yōu)惠信息是一個更為方便簡單的方法。其中主要由搜索引擎查找、微信等平臺查找構(gòu)成。
1)搜索引擎。觀察互聯(lián)網(wǎng)用戶使用較多的搜索引擎,百度、Google、雅虎等,嘗試在不同的搜索引擎中打入相同的關(guān)鍵詞,例如:“優(yōu)惠信息 松江大學城”,可以看到,不同的引擎產(chǎn)生的網(wǎng)頁是完全不同的。在百度的搜索引擎中出現(xiàn)在首頁的是多為松江大學城團購,且存在少量獨立商家的優(yōu)惠信息。而通過谷歌,可以看到大部分為松江大學城租房或買房的優(yōu)惠。兩個搜索引擎,相同的關(guān)鍵詞產(chǎn)生了差異較大的結(jié)果,這取決于網(wǎng)頁排序的規(guī)則。
網(wǎng)頁多采用鏈接分析的算法,鏈接分析排序原理啟發(fā)與文獻引文索引機制,分析網(wǎng)頁之間的鏈接結(jié)構(gòu),若一個網(wǎng)頁被引用的次數(shù)越多,表示該網(wǎng)頁越受大眾的歡迎;被越權(quán)威的網(wǎng)頁引用,表示該網(wǎng)頁質(zhì)量越高。這么看來,從這兩方面來說,這個網(wǎng)頁的價值越高。常見的算法有PageRank算法、HillTop算法、HITS算法等。根據(jù)不同的算法,會導致網(wǎng)頁結(jié)果的排序不同[ 1 ]。
例如,Google搜索引擎的最主要網(wǎng)頁排序算法就是PR算法,計算網(wǎng)頁的PR值,判斷網(wǎng)頁的重要性。若A網(wǎng)頁有個鏈接指向B網(wǎng)頁,那么B網(wǎng)頁將得到A貢獻給它的分值,值的大小取決于A的重要性。引用的網(wǎng)頁數(shù)量越多,質(zhì)量越高,排序越前面。
通過對算法原理的簡單認識,我們可以分析得到,之所以百度的搜索引擎查到的信息更豐富,這歸結(jié)于在這個搜索引擎中,這些網(wǎng)頁的價值較高,從總的基數(shù)來看,被引用的次數(shù)較多,鏈接的網(wǎng)頁價值也不錯。而在谷歌這個全球常用的搜索引擎上來看,同樣的網(wǎng)頁被引用的次數(shù)太少,而且相關(guān)鏈接的網(wǎng)頁價值不高。因此,在用搜索引擎來查詢優(yōu)惠信息時,要注意使用的搜索引擎和關(guān)鍵詞的使用。其中,關(guān)鍵詞的使用需格外注意,指明針對性。 一般以“優(yōu)惠信息 松江大學城”為關(guān)鍵詞的搜索結(jié)果范圍仍舊極大,這不利于我們仔細排查一些小商家的信息。我們嘗試先利用百度地圖尋找松江大學城附近的商家信息,努力收集各個商家的官方公眾網(wǎng)絡。隨時關(guān)注商家的動態(tài)信息變化,收集商家的優(yōu)惠活動,判斷商家活動的真實性,匯總在我們平臺上。如果能在發(fā)現(xiàn)商家的官方網(wǎng)頁的同時取得商家的聯(lián)系方式,可以與之線上商談,爭取成為長期合作伙伴。
2)微信等平臺搜索。有些小眾的網(wǎng)絡平臺同樣收集著一些值得嘗試的優(yōu)惠信息。而這些信息存在于不同的平臺上,顧客看到的較少。我們提供相關(guān)的鏈接,與那些小眾優(yōu)惠信息搭建一個橋梁,方便顧客查看。許多商家的微信公眾平臺同樣發(fā)布著一些消息,有時候會在朋友圈大范圍傳播,這個途徑收集起來的信息雖然不全面,但是也是一種較為常見的方式。
4 顧客行為信息分析
隨著平臺的不斷推廣,顧客涌入。在微信公眾號后臺,可以用直觀看到訂閱人數(shù),每條推送消息的點擊數(shù)。因此可以獲取大量的顧客消費行為數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)可以分析大量的數(shù)據(jù),對顧客進行細分,還可以從已有的歷史數(shù)據(jù)中發(fā)現(xiàn)有價值的潛在的知識,為顧客提供個性化的商品信息推薦。
建立模型以及分析:
經(jīng)過對數(shù)據(jù)的預處理,我們發(fā)現(xiàn)利用關(guān)聯(lián)規(guī)則挖掘來對數(shù)據(jù)進行處理比較好。關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)不同事務之間隱藏的聯(lián)系。我們在進行關(guān)聯(lián)規(guī)則挖掘時,主要做了兩步,第一找出頻繁項目集,然后根據(jù)頻繁項集產(chǎn)生滿足最小可信度的關(guān)聯(lián)規(guī)則。
從微信公眾平臺獲得的數(shù)據(jù),我們對其進行整理。在事務數(shù)據(jù)庫中,事務的項目集為人們檢索的優(yōu)惠信息類別編號,事務ID為人的編號。由此我們得到了事務數(shù)據(jù)庫D。
在挖掘關(guān)聯(lián)規(guī)則時我們運用了Apriori算法,使用“K?項集”產(chǎn)生“1K +?項集”的迭代方法[3]。掃描所有的事務,對每種優(yōu)惠信息類別出現(xiàn)次數(shù)計數(shù)。這里,假定最小事務支持計數(shù)為20,由此我們可以確定頻繁1-項集的集合。使用來產(chǎn)生候選集,再次掃描數(shù)據(jù)庫中事務,計算中每一個候選集的支持度計數(shù)。具有最小支持度的里面的候選2?項集組成了頻繁2?項集的集合。反復進行上述步驟,由于Apriori算法性質(zhì),頻繁項集的所有子集必須是頻繁的,因此我們計算過程中會剪去一些項集。一直反復進行下去,直至1K +?項集為空集,我們得到K?項集為最大的頻繁項集{1、2、5},也就是為{美食、休閑娛樂、購物}。
對于每個頻繁項集L,我們列出所有它的非空子集,對每一個非空子集X,計算它的可信度。在這里,我們假設(shè)最小可信度(min_conf)為60%,最終得到了4條關(guān)聯(lián)規(guī)則。在進行數(shù)據(jù)整理時,我們發(fā)現(xiàn)在每日推送的各種優(yōu)惠信息中,美食類的點擊量一直居高不下。這完全符合我們問卷調(diào)查的結(jié)果。
通過關(guān)聯(lián)規(guī)則等對顧客的行為數(shù)據(jù)進行分析,我們發(fā)現(xiàn)人們往往會希望在休息娛樂比如看電影和購物之后享受一頓美味大餐。在享受的同時也希望獲得優(yōu)惠信息,以較小的代價獲得高品質(zhì)生活。
參考文獻
[1]鄧維婕.網(wǎng)絡搜索引擎的原理、技術(shù)和發(fā)展[J].電腦與電信,2008(5):12-14.
[2]姚明.淺談網(wǎng)絡搜索引擎的研究[J].電腦知識與技術(shù):學術(shù)交流,2007,4(19):83-84.
[3]陳安,陳寧,數(shù)據(jù)挖掘技術(shù)及應用[M].北京:科學出版社,2006.
看了“信息檢索學術(shù)論文”的人還看: