數據説明

數據收集

香港Facebook新聞數據分析平台收錄並呈現2019年1月至2021年6月期間，17間本地新聞媒體的Facebook公開專頁數據，包括帖文及評論中的內容、URL連結、用戶互動例如讚好數量、分享數量以及帖子心情回應數量等。

本平台收錄的Facebook專頁在本項目開始時均擁有30萬名或以上追蹤者。其中「HKG報」Facebook專⾴於⼆零⼆零年⼀⽉被停⽤，隨後建⽴「HKG報2.0」，因此平台分別收錄了「HKG報」、「HKG報2.0」兩個專頁的數據。

爲保護用戶隱私，平台呈現的數據均不含任何個人用戶的檔案資訊，僅顯示公開專頁的内容；數據裡約1,670個有關發佈者的姓名（新聞工作者、主持、攝影、講者等）亦被移除。

由於數據收集的時間限制以及Facebook本身的數據開放限制，本平台收錄的數據與實際情況相比存在部分遺漏。我們把已知的數據遺漏記錄在報告內。

經過以上步驟得到的數據統計結果如圖所示。

廣告清除

經實際查看發現，數據中存在兩種廣告内容。一種是附著於正文內容後的推廣内容，大都是鼓勵用戶訂閲、參與的内容，例如「記得Follow埋我哋嘅IG」、「請支持我們，立即訂閲」；另一種是獨立成文的廣告，大都是商品促銷、服務宣傳等，例如「減價|厨具餐具低至4折」。

第一種廣告基本出現在帖文中明顯附著的標記符號後，例如一整行的「===========」、「************」，或是出現「訂閱Telegram最新」這類字眼的時候。根據以上的觀察，團隊定義了12類正則表達式，經測試後基本可以清除第一種廣告。

第二種廣告分佈則較爲零散，團隊嘗試採用定義關鍵詞的方式過濾廣告內容，但過濾內容後發現大量非廣告文本也被錯誤地過濾出來。實驗中，我們通過一條一條閲讀帖文的方式定義了一共251個關鍵詞，包括「夏日送禮十激賞」、「全港獨家」等。為保證原始文本的完整性，同時考慮到這類廣告的出現比例較低，本平台的數據並未清除這種廣告。

為更徹底清除廣告內容，團隊最後再一次透過識別註腳的方式，例如找出「===========」、「-----------------」、「************」等符號，移除它們以及它們後面的內容。

媒體分類

本平台收錄17間本地新聞媒體的Facebook公開專頁數據，並按照各新聞媒體的傳播渠道把專頁分爲四大類：「傳統報紙」、「電子傳媒」、「免費報紙」、「網媒」。由於數據收集過程會收錄部分冗餘的數據，我們將這部分數據單獨列爲「未定義」。具體的四大媒體分類如下：

傳統報紙：香港蘋果日報、TOPick 新聞、on.cc東網/東方日報、香港經濟日報hket.com、明報即時新聞
免費報紙：晴報 Sky Post、am730
電子傳媒：有線新聞 i-Cable News、香港電台視像新聞 RTHK News、Now News - 新聞
網媒：Bastillepost 巴士的報、香港01、Initium Media 端傳媒、HKG報、Stand News 立場新聞、獨立媒體 inmediahk.net、PassionTimes 熱血時報

「虛假資訊提及」的類別

本項目對大眾如何使用「虛假資訊」一詞感興趣，而非嘗試去區分 Facebook 帖子是否提供真實或虛假的信息。儀表關注的是用戶在評論新聞帖子時，有否提及「虛假資訊」或相關之詞彙。

我們首先利用Python開源工具Synonyms，計算得到與「假新聞」、「傳言」這兩個核心詞語相似度最高的前10個詞彙，之後由專業的新聞傳播學者按照香港本地語境刪除不適用的詞彙。結合Python和人工分析出來的結果，得出一個相對全面的關鍵詞列表，採用正則表達式匹配關鍵詞檢索，並統計每個關鍵詞的出現次數，最後得出三類關鍵詞：

假新聞：假新聞、fake news等
不實資訊：不實、惡意、捏造、騙局、蓄意、不負責任、造謠等
傳言：傳言、流言、傳聞、謠傳、假消息等

主題分類

針對項目關注的議題，本平台根據帖子内容是否提及某些詞彙，判斷帖子是否與主題有關。每個主題的關鍵詞均由逐條閲讀和記錄的方式獲得。關鍵詞檢索同樣以採用正則表達式匹配，統計每個關鍵詞的出現次數。最後得出以下的各主題的關鍵詞，用以對各主題進行帖子搜索。

新冠疫情：新型冠状、冠狀病毒、新型肺炎、肺炎疫情、限聚令、確診、檢測、檢疫等
維護國家安全法：國安法、港區國安法
反修例：逃犯條例、引渡條例、緊急法、五大訴求、反送中等
林鄭月娥：林鄭月娥、林鄭、行政長官、特首、777等
香港警察：香港警察、香港警員、香港警方等
美國大選：美國選舉、美國大選、特朗普、拜登等
特朗普：特朗普、Trump等
美國警察：美國警察、美國警員、美國警方等