【摘要】豆瓣讀書作為豆瓣網(wǎng)的一個(gè)子欄目,2005年上線后已發(fā)展成為國內(nèi)擁有信息最齊全、用戶群體規(guī)模最大且活躍的閱讀網(wǎng)站。 本文基于Python語言從豆瓣閱讀頁面中采集和獲取與金融類圖書有關(guān)的數(shù)據(jù),通過對(duì)數(shù)據(jù)進(jìn)行清洗、提取,把書名、作者、出版社等關(guān)鍵信息保存為CSV文件存儲(chǔ),并對(duì)其進(jìn)行可視化分析。 一方面探究基于用戶生成內(nèi)容(UGC)的用戶信息進(jìn)行分析,找出它們之間的關(guān)系; 另一方面通過數(shù)據(jù)可視化分析,深入挖掘豆瓣圖書信息中數(shù)據(jù)的規(guī)律,為讀者和用戶選取金融類圖書閱讀提供幫助。
【關(guān)鍵詞】Python; 數(shù)據(jù)分析; UGC; 可視化
豆瓣是目前網(wǎng)上對(duì)于圖書信息收錄最全的網(wǎng)站,圖書評(píng)論都直接由用戶提供(User-generated content, UGC),用戶對(duì)圖書的記錄是:評(píng)分、貼標(biāo)簽、寫短評(píng)等等。 豆瓣的圖書評(píng)分可以最直觀地幫助用戶進(jìn)行圖書挑選,但由于用戶愛好不同、傾向不同,評(píng)分仍會(huì)帶有一部分主觀因素,不能做到絕對(duì)客觀。 因此,本文提出基于Python的數(shù)據(jù)可視化分析研究方法,對(duì)標(biāo)簽為“金融”的豆瓣圖書進(jìn)行了更深入的分析,為讀者和用戶如何選取金融類圖書提供指導(dǎo)和建議。
圖書館論文范例: 高校圖書館利用微媒體技術(shù)進(jìn)行數(shù)字化閱讀推廣的策略
一、研究框架
本文對(duì)豆瓣金融類圖書的研究框架如圖1所示。 首先,用Python抓取網(wǎng)頁源代碼并獲得包含書名、作者、出版社等各個(gè)網(wǎng)頁元素的數(shù)據(jù)。 其次,將所抓取的圖書數(shù)據(jù)進(jìn)行處理和分析,并進(jìn)行格式化存儲(chǔ),以便于后續(xù)的可視化展示。 接著對(duì)數(shù)值數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行預(yù)處理操作,包括異常值處理、數(shù)據(jù)清洗、缺失數(shù)據(jù)補(bǔ)齊等。 最后進(jìn)行數(shù)據(jù)分析,利用Python做詞云圖、用Excel透視表繪制散點(diǎn)圖、條形圖等直觀的展示圖書各要素之間的關(guān)系,評(píng)估結(jié)果并得出結(jié)論。
二、數(shù)據(jù)分析
本文對(duì)Python抓取到的1000本豆瓣金融類圖書信息進(jìn)行了出版社詞云可視化分析、評(píng)分可視化分析、評(píng)價(jià)人數(shù)和評(píng)分可視化分析。
(一)出版社詞云可視化分析。 使用Python中的Wordcloud模塊,對(duì)1000本金融類圖書的出版社進(jìn)行分析并生成詞云圖。 從圖中可以看出,出版社這個(gè)詞出現(xiàn)的頻率最高,這是因?yàn)榇蟛糠殖霭嫔绲暮缶Y都是出版社,但也有部分后綴如出版公司、商務(wù)印書館等,因而并未對(duì)出版社此后綴做統(tǒng)一處理。 拋開此頻率最高的詞,其余頻率前三的出版社自動(dòng)加上后綴名,分別為機(jī)械工業(yè)出版社193本、中信出版社189本和中國人民大學(xué)出版社77本,說明國內(nèi)外學(xué)者們尤其是國外學(xué)者對(duì)這三個(gè)出版社的青睞度最高。
(二)評(píng)分可視化分析。 對(duì)1000本金融類圖書評(píng)分?jǐn)?shù)據(jù)進(jìn)行分析,得出評(píng)分最高的5本金融類圖書,通過Excel繪制條形圖。 評(píng)分最高的5本金融類圖書分別為:應(yīng)用公司財(cái)務(wù)、投資者養(yǎng)成指南(一)、金融隨機(jī)分析(共2冊(cè))、證券法學(xué)(第四版)和投資者文摘,評(píng)分分別為9.9分、9.8分、9.7分、9.7分和9.7分。
(三)評(píng)價(jià)人數(shù)和評(píng)分可視化分析。 對(duì)1000本金融類圖書評(píng)價(jià)人數(shù)的數(shù)據(jù)進(jìn)行整理,通過Excel繪制散點(diǎn)圖。 由圖中可以發(fā)現(xiàn),絕大部分金融類圖書的評(píng)價(jià)人數(shù)都集中在0-5000人這個(gè)區(qū)間內(nèi),其中評(píng)價(jià)人數(shù)前五的書籍為:貨幣戰(zhàn)爭(zhēng)、原則、經(jīng)濟(jì)學(xué)原理(上下)、思考快與慢和偉大的博弈,評(píng)價(jià)人數(shù)分別為43853人、24112人、16539人、14531人和12409人,評(píng)分分別為7.2分、8.3分、9.1分、8.1分和8.3分。
同時(shí)又對(duì)1000本金融類圖書中評(píng)分大于等于9.0以上的評(píng)價(jià)人數(shù)的數(shù)據(jù)進(jìn)行整理,通過Excel繪制散點(diǎn)圖。 由圖中看出,絕大部分評(píng)分大于等于9.0以上的評(píng)價(jià)人數(shù)都集中在0-4000人這個(gè)區(qū)間內(nèi),其中評(píng)價(jià)人數(shù)前五的書籍為:經(jīng)濟(jì)學(xué)原理(上下)、經(jīng)濟(jì)學(xué)原理、經(jīng)濟(jì)學(xué)原理(第7版)、期貨市場(chǎng)技術(shù)分析和彼得·林奇的成功投資,評(píng)價(jià)人數(shù)分別為16539人、10259人、2926人、2398人和2029人。
將兩張圖對(duì)比可以發(fā)現(xiàn),評(píng)價(jià)人數(shù)前五的書籍評(píng)分都不高,僅有一本書的評(píng)分大于9.0分。 其中評(píng)價(jià)人數(shù)最多的書籍是貨幣戰(zhàn)爭(zhēng),但其評(píng)分只有7.2分; 評(píng)分前五的書籍評(píng)論人數(shù)也不多,僅有經(jīng)濟(jì)學(xué)原理(上下)這本書處在評(píng)論人數(shù)前五的書籍中。 由此得出評(píng)論人數(shù)多的評(píng)分不一定高,評(píng)分高的評(píng)論人數(shù)不一定高,評(píng)論人數(shù)和評(píng)分之間的相關(guān)性較弱。
(四)評(píng)分和出版年份可視化分析。 對(duì)1000本金融類圖書評(píng)價(jià)人數(shù)的數(shù)據(jù)進(jìn)行整理,通過Excel繪制散點(diǎn)圖。 評(píng)分大于等于9.0以上的書籍出版年份集中在2005年以后,且評(píng)分大多集中在9.0分和9.1分,評(píng)分為9.7分及以上的書籍較少。 進(jìn)一步分析猜測(cè)評(píng)分大于等于9.0分以上的這些書籍可能是由于出版年份較晚,閱讀和評(píng)論人數(shù)較少。 而一本書的總體評(píng)分受每個(gè)評(píng)分人給出的評(píng)分和評(píng)論人數(shù)的影響,可能是少部分的評(píng)論人數(shù)均給出較高的評(píng)分,因而評(píng)分大于等于9.0分以上的書籍并不代表書的熱度高和受歡迎程度高,這兩者之間的相關(guān)性較弱。
三、結(jié)論
統(tǒng)計(jì)學(xué)和圖書館學(xué)等傳統(tǒng)研究方法并不能深層次地挖掘圖書信息的潛在規(guī)律。 本文基于Python語言從豆瓣讀書頁面中獲取金融類圖書相關(guān)數(shù)據(jù),并對(duì)其進(jìn)行可視化分析,得出以下結(jié)論:
圖書出版社詞云分析得出,機(jī)械工業(yè)出版社、中信出版社和中國人民大學(xué)出版社是出版金融類圖書最多的三個(gè)出版社,說明讀者對(duì)這三個(gè)出版社的青睞度最高。 在選擇圖書出版社時(shí),可優(yōu)先將自己的作品交給這三個(gè)出版社進(jìn)行出版發(fā)行,同時(shí),圖書館、書店等在采購金融類圖書時(shí)也可優(yōu)先關(guān)注這三個(gè)出版社的信息。
圖書評(píng)分分析得出,評(píng)分最高的5本金融類圖書分別為:應(yīng)用公司財(cái)務(wù)、投資者養(yǎng)成指南(一)、金融隨機(jī)分析(共2冊(cè))、證券法學(xué)(第四版)和投資者文摘,這對(duì)有意學(xué)習(xí)金融知識(shí)的人來說,具有很好的參考作用,在閱讀金融類圖書時(shí)可以更優(yōu)先考慮評(píng)分最高的金融類書籍。
圖書評(píng)價(jià)人數(shù)和評(píng)分分析得出,評(píng)價(jià)人數(shù)前五的書籍評(píng)分都不高,僅有一本書的評(píng)分大于9.0分。 其中評(píng)價(jià)人數(shù)最多的書籍是貨幣戰(zhàn)爭(zhēng),但其評(píng)分只有7.2分; 評(píng)分前五的書籍評(píng)論人數(shù)也不多,僅有經(jīng)濟(jì)學(xué)原理(上下)這本書處在評(píng)論人數(shù)前五的書籍中。 由此可見評(píng)論人數(shù)和評(píng)分之間的相關(guān)性較弱,因而在選擇金融類圖書時(shí),不能夠由評(píng)分人數(shù)的多少判定圖書的好評(píng)度,也不能由評(píng)分的高低來判斷圖書的熱度。
評(píng)分和出版年份分析得出,評(píng)分大于等于9.0以上的書籍出版年份集中在2005年以后,且評(píng)分大多集中在9.0分和9.1分,評(píng)分為9.7分及以上的書籍較少。 進(jìn)一步分析猜測(cè)評(píng)分大于等于9.0分以上的這些書籍可能是由于出版年份較晚,閱讀和評(píng)論人數(shù)較少。 而一本書的總體評(píng)分受每個(gè)評(píng)分人給出的評(píng)分和評(píng)論人數(shù)的影響,可能是少部分的評(píng)論人數(shù)均給出較高的評(píng)分,因而評(píng)分大于等于9.0分以上的書籍并不代表書的熱度高和受歡迎程度高。 由此可見這兩者之間的相關(guān)性較弱,因而在選擇金融類圖書時(shí),不能只根據(jù)評(píng)分來判定圖書的熱度和受歡迎程度,還需要考慮出版年份、評(píng)論人數(shù)等多重因素。
四、結(jié)語
綜上,本文基于Python和Excel透視表對(duì)豆瓣金融類圖書信息進(jìn)行了深入的分析,在用戶對(duì)金融類圖書的選擇上給出了更好的建議,同時(shí)也給圖書館、書店等采購金融類圖書提供了建設(shè)性意見。 但本文在數(shù)據(jù)預(yù)處理部分考慮的并不充分,此外本次研究選擇的僅是對(duì)豆瓣金融類圖書進(jìn)行分析,并未對(duì)更多標(biāo)簽下的圖書信息進(jìn)行分析,具有一定的局限性。
【參考文獻(xiàn)】
[1]朱滌塵,夏換.基于數(shù)據(jù)可視化和線性回歸的豆瓣圖書榜單數(shù)據(jù)分析[J].信息技術(shù)與信息化,2019(12): 218-220.
[2]羅培銘.虛擬社區(qū)用戶生成內(nèi)容的影響因素——以小紅書為例[J].新聞研究導(dǎo)刊,2018,9(12):60-61.
[3]徐亞茹.基于標(biāo)簽的圖書個(gè)性化推薦系統(tǒng)的設(shè)計(jì)與研究[D].山東師范大學(xué),2018.
[4]莊瑩.中國圖書排行榜研究[J].中國出版,2015 (12):64-69.
[5]胡躍鵬.豆瓣圖書排行榜運(yùn)營策略研究[D].河北大學(xué),2018.
[6]周洪斌.基于Python的豆瓣圖書評(píng)論數(shù)據(jù)獲取與可視化分析[J].沙洲職業(yè)工學(xué)院學(xué)報(bào),2018,21(04):1-6.
[7]夏洋.基于用戶參與的社交網(wǎng)站標(biāo)簽差異及有效性研究——以豆瓣讀書網(wǎng)為例[J].江蘇科技信息,2019, 36(36):67-71.
作者:揚(yáng)州大學(xué)社會(huì)發(fā)展學(xué)院 馬夢(mèng)燁; 華中師范大學(xué)信息管理學(xué)院 王涵
相關(guān)閱讀