數據説明

數據收集

香港Facebook新聞數據分析平台收錄並呈現2019年1月至2021年6月期間,17間本地新聞媒體的Facebook公開專頁數據,包括帖文及評論中的內容、URL連結、用戶互動例如讚好數量、分享數量以及帖子心情回應數量等。

本平台收錄的Facebook專頁在本項目開始時均擁有30萬名或以上追蹤者。其中「HKG報」Facebook專⾴於⼆零⼆零年⼀⽉被停⽤,隨後建⽴「HKG報2.0」,因此平台分別收錄了「HKG報」、「HKG報2.0」兩個專頁的數據。

爲保護用戶隱私,平台呈現的數據均不含任何個人用戶的檔案資訊,僅顯示公開專頁的内容;數據裡約1,670個有關發佈者的姓名(新聞工作者、主持、攝影、講者等)亦被移除。

由於數據收集的時間限制以及Facebook本身的數據開放限制,本平台收錄的數據與實際情況相比存在部分遺漏。我們把已知的數據遺漏記錄在報告內。

經過以上步驟得到的數據統計結果如圖所示。

廣告清除

經實際查看發現,數據中存在兩種廣告内容。一種是附著於正文內容後的推廣内容,大都是鼓勵用戶訂閲、參與的内容,例如「記得Follow埋我哋嘅IG」、「請支持我們,立即訂閲」;另一種是獨立成文的廣告,大都是商品促銷、服務宣傳等,例如「減價|厨具餐具低至4折」。

第一種廣告基本出現在帖文中明顯附著的標記符號後,例如一整行的「===========」、「************」,或是出現「訂閱Telegram最新」這類字眼的時候。根據以上的觀察,團隊定義了12類正則表達式,經測試後基本可以清除第一種廣告。

第二種廣告分佈則較爲零散,團隊嘗試採用定義關鍵詞的方式過濾廣告內容,但過濾內容後發現大量非廣告文本也被錯誤地過濾出來。實驗中,我們通過一條一條閲讀帖文的方式定義了一共251個關鍵詞,包括「夏日送禮十激賞」、「全港獨家」等。為保證原始文本的完整性,同時考慮到這類廣告的出現比例較低,本平台的數據並未清除這種廣告。

為更徹底清除廣告內容,團隊最後再一次透過識別註腳的方式,例如找出「===========」、「-----------------」、「************」等符號,移除它們以及它們後面的內容。

媒體分類

本平台收錄17間本地新聞媒體的Facebook公開專頁數據,並按照各新聞媒體的傳播渠道把專頁分爲四大類:「傳統報紙」、「電子傳媒」、「免費報紙」、「網媒」。由於數據收集過程會收錄部分冗餘的數據,我們將這部分數據單獨列爲「未定義」。具體的四大媒體分類如下:

傳統報紙:香港蘋果日報、TOPick 新聞、on.cc東網/東方日報、香港經濟日報hket.com、明報即時新聞
免費報紙:晴報 Sky Post、am730
電子傳媒:有線新聞 i-Cable News、香港電台視像新聞 RTHK News、Now News - 新聞
網媒:Bastillepost 巴士的報、香港01、Initium Media 端傳媒、HKG報、Stand News 立場新聞、獨立媒體 inmediahk.net、PassionTimes 熱血時報

「虛假資訊提及」的類別

本項目對大眾如何使用「虛假資訊」一詞感興趣,而非嘗試去區分 Facebook 帖子是否提供真實或虛假的信息。儀表關注的是用戶在評論新聞帖子時,有否提及「虛假資訊」或相關之詞彙。

我們首先利用Python開源工具Synonyms,計算得到與「假新聞」、「傳言」這兩個核心詞語相似度最高的前10個詞彙,之後由專業的新聞傳播學者按照香港本地語境刪除不適用的詞彙。結合Python和人工分析出來的結果,得出一個相對全面的關鍵詞列表,採用正則表達式匹配關鍵詞檢索,並統計每個關鍵詞的出現次數,最後得出三類關鍵詞:

假新聞:假新聞、fake news等
不實資訊:不實、惡意、捏造、騙局、蓄意、不負責任、造謠等
傳言:傳言、流言、傳聞、謠傳、假消息等

主題分類

針對項目關注的議題,本平台根據帖子内容是否提及某些詞彙,判斷帖子是否與主題有關。每個主題的關鍵詞均由逐條閲讀和記錄的方式獲得。關鍵詞檢索同樣以採用正則表達式匹配,統計每個關鍵詞的出現次數。最後得出以下的各主題的關鍵詞,用以對各主題進行帖子搜索。

新冠疫情:新型冠状、冠狀病毒、新型肺炎、肺炎疫情、限聚令、確診、檢測、檢疫等
維護國家安全法:國安法、港區國安法
反修例:逃犯條例、引渡條例、緊急法、五大訴求、反送中等
林鄭月娥:林鄭月娥、林鄭、行政長官、特首、777等
香港警察:香港警察、香港警員、香港警方等
美國大選:美國選舉、美國大選、特朗普、拜登等
特朗普:特朗普、Trump等
美國警察:美國警察、美國警員、美國警方等