中國投資者情緒指數
出自 MBA智库百科(https://wiki.mbalib.com/)
中國投資者情緒指數(China Investors’Sentiment Index, CISI)
目錄 |
中國投資者情緒指數(China Investors Sentiment Index, CISI)是在收集網路能反應投資者情緒的上億條金融文本大數據的基礎上,使用深度學習方法,度量文本信息,以反映中國散戶投資者情緒的新工具。該指數不僅包含過去市場信息,也能反映投資者投資意願和對市場走勢的預期。加入投資者情緒指數後,對市場收益率、波動、交易量的預測均能得到改進,可作為企業經營活動、金融機構存貸款決策、資產管理的新參考;也為政策制定部門和監管部門進行預期管理提供新信息。
從2018年11月起,北京大學國家發展研究院和百分點公司將按月聯合發佈中國投資者情緒指數體系中的關註度指數和情緒指數。其中,關註度指數度量散戶投資者對A股上市公司的關註程度,年度指數以2013年關註度為基準值100、月度指數以2013年8月關註度為基準100。關註度指數越高則關註程度越大,越低則越小。投資者情緒指數度量投資者在股票投資中表現出的樂觀或者悲觀的程度,該指數值域為0到100,其中0表示極度悲觀,50表示不悲觀也不樂觀,100表示極度樂觀。
中國投資者情緒指數體系二級子指數分板塊、行業和風格三個子指數。板塊投資者情緒子指數計算了中證500、上證50、中小板和創業板投資者情緒指數。其中中證500投資者情緒指數反映對滬深300以外市值排名前500的中小市值公司股票價格的情緒;上證50情緒指數則反映對上海市場主要反映龍頭企業的情緒;創業板指數反映投資者對暫時無法在主板上市的創業型企業、中小企業和高科技產業企業的情緒;而中小板則是對流通盤約1億人民幣以下的創業板塊的情緒。投資者行業情緒子指數則採用中信一級行業分類將滬深兩市上市公司劃分為27個行業並計算投資者情緒指數。投資者情緒風格子指數將股票分為成長、穩定、周期、金融、消費等5大類風格並分別計算情緒指數。
它一方面刻畫了2008年以來金融市場中投資者的情緒變遷,另一方面能夠實時追蹤當下投資者的情緒變化。
除了採用度量經濟和市場基本面的常見“硬”指標外,監管部門和政策制定者、投資者、企業、金融機構和學界亟需能夠反映金融市場當下以及未來波動的情緒類“軟”指標。但是,現有中國投資者情緒指數或採用有限問卷收集信息、或頻率低、地域窄、缺乏延續性、或包含了情緒之外的其他信息,無法滿足需求。
學術研究中對於投資者情緒(Investors’ Sentiment)的定義主要有兩類:(1)雜訊交易者關於股票未來股價預期偏離理性套利者信念的程度(De Long等, 1990)。(2)投資者基於對資產未來現金流和投資風險的預期而形成的一種信念(Baker和Wurgler,2006)。
國外對於投資者情緒指標的選取主要包括以下三類:(1)客觀指標。包括:封閉式基金折價,IPO發行量及首日收益,交易量,共同基金凈贖回,股票發行與債券發行比例等。(2)主觀指標。包括:個體投資者協會指數,投資者智能指數,證券分析師情緒指數,消費者信心指數。(3)複合指標。採用主成分分析法,將客觀指標和主觀指標等結合在一起。
國內現有關於投資者情緒的研究,參考國外投資者情緒指數構建方法為主。指標的選取類似於國外主觀、客觀指標,並結合國內實際情況做適當調整。各機構也編製了若幹指數,以主觀指標為主,包括:央視看盤指數,巨潮投資者信心指數,好淡指數,上海投資者信心指數。
但以上指標均存在一定的缺陷。基於交易行為的指標,是市場多種力量下的均衡結果,不止反映投資者情緒。主觀指標雖然能夠反映受訪者填寫問卷時的情緒,但不能全面反映投資者在投資過程中的情緒。此外,多數機構編製的指數存續期短,甚至不再更新。隨著互聯網和深度學習的發展,基於文本大數據的投資者情緒日益受到重視,但採用文本大數據全面度量投資者情緒的市場需求尚未滿足。
中國投資者情緒指數的構建方法[1]
1.全網收集關於全部上市公司的投資者情緒相關的文本大數據。時間上從2008年7月開始,截止至2018年5月已收集約1億5千萬條文本信息。
2.利用中文分詞技術對文本進行分詞處理。
3.利用Word2Vec技術,將文本中的詞語向量化。
4.對於國外的LM詞典(Loughran和McDonald, 2011)運用翻譯工具進行翻譯和檢查,構建中文版的LM詞典。
5.在滬深300成分股中,選取200只股票,並對每隻股票選取200條討論帖子。由北京大學國家發展研究院教授、優秀博士和碩士生、市場投資者組成人工標註團隊,對這4萬條帖子進行人工標註。兩人獨立標註一條文本信息,根據其內容將其分為正、負、不確定三類,同時對每條帖子列出其包含的正、負關鍵詞。標註完成後,保留標註分類一致的帖子,根據標註結果構建中國金融情緒詞典(GB),並獲得中國金融市場投資者情緒標註集。
6.運用多種文本情緒演算法檢驗穩健性。演算法選擇包括傳統的詞典法和機器學習方法。對於詞典法,詞典選取兩部:中文版本的LM詞典,專業標準團隊構建的中國金融情緒詞典(GB)。對每個帖子,統計帖子中正面和負面詞語的數量,分別採用等權重法(Equal-Weighted, EW)和詞頻-逆文檔法(Term Frequency-Inverse Document Frequency, TF-IDF)計算帖子的情緒得分。對於機器學習方法,分別採用支持向量分類(Support Vector Classification, SVC)和捲積神經網路方法(Convolutional Neural Network, CNN)。在SVC方法下,結合兩類詞向量表示法,第一類為獨熱表示(One-Hot),第二類為詞向量表示(Word2Vec)。
7.對於詞典法,直接計算其在測試集上(樣本外)的分類準確性。對於深度學習法,先在標註集上訓練模型,並根據驗證集上表現最好的結果來確定模型的參數,選出最優模型。比較各種模型在測試集上的分類準確性。其中,詞典法的總預測準確率約為75.65%,SVC+Word2Vec的總預測準確率約為81.45%,CNN的總預測準確率約為81.24%。
8.將訓練好的最優模型應用到全部文本數據中,計算每個帖子的情緒得分。將不同股票帖子的情緒得分按照相應標準進行加總,構建不同指標體系的投資者情緒指數。
中國投資者情緒指數指標體系[1]
中國投資者情緒指數包含一級指標(代表全部滬深股票的市場情緒指數),和按行業、按時間頻率和按板塊等分類的二級子指數。其中按照行業分類(參照Wind行業分類標準和申萬行業分類標準),包含八個大類:金融行業、製造行業、服務行業、信息行業(電腦、傳媒、通信)、醫葯衛生行業、房地產行業、能源行業、消費行業。按照時間跨度分類,包含:月度頻率、周度頻率、日度頻率(全天情緒、隔夜情緒、午間情緒)以及日內半小時情緒。按照板塊劃分,包含:滬深300、上證50、中證500、中小板、創業板情緒指數。
(1)CISI包含了投資者對市場已發生狀況的情緒反映(如:收益率、交易量、國際市場的表現)。投資者情緒指數和金融市場重大事件相吻合,如:2015年6月爆發股災,此後股市開始大跌,而投資者情緒指數在7、9月分別處於歷史(2008.07-2018.05)次低點和最低點。
(2)CISI還包含投資者對市場未來信息的預期。實證研究發現,該指數對市場收益率、波動、交易量均具有一定預測能力。
(3)不同時間段的投資者情緒表現出不同的特征。交易時間段的平均投資者情緒顯著低於非交易時間段(隔夜情緒)的平均投資者情緒。
(4)不同行業的投資者情緒在過去十年也具有不同的特征。在過去十年,醫葯行業的平均情緒最高,能源行業的平均情緒最低,消費行業的情緒波動最小,金融行業的情緒波動最大。
作為度量投資者情緒的工具, CISI不僅包含過去市場信息,也能在一定程度上反映投資意願或投資者對市場走勢的預期。
對市場收益率、波動、交易量均具有一定預測能力。
為政策制定部門和監管部門判斷市場走勢提供新的視角。
為學界理解市場運行規律提供的新抓手。