視覺化財經數據,挖掘資料金礦 - 以美國投資基金公司為例


情境

電影《華爾街之狼》中有一句話「在太陽升起之前,就投資了太陽的股票!」完美詮釋了股票買賣交易者的心境。

試想,倚賴技術分析的投資者若能自行設定想觀察的特徵數值,繪製一組市場上難以獲得的圖形,是不是能更有信心地趕上台積電、陽明海運大漲,並避免買在高點被套牢或被當韭菜收割呢?

然而數據、圖形種類有那麼多,要利用哪些數據繪製哪些圖形對於分析才有幫助呢?底下我們將透過Two Sigma的財經數據挑戰, 將技術和數據科學應用於財經預測的最前端。讓投資者們在充滿不確定性的變動環境中,仍具備運用科學驅動的方法準確預測金融走勢的能力,不再只能空喊「本多終勝」的口號!

解決方法

1. 資料簡介

首先,我們先來查看資料集的樣態,資料是由美國對沖基金投資公司 — Two Sigma所提供,每一個欄位都經過去識別化的處理,總共有111個欄位,其中包含了1欄金融工具的ID、1欄目標變數(金融工具的價值)、1欄時間戳記與108欄與金融工具相關的特徵變數,如圖1. 所示。

資料是由美國對沖基金投資公司 — Two Sigma所提供,每一個欄位都經過去識別化的處理,總共有111個欄位,其中包含了1欄金融工具的ID、1欄目標變數(金融工具的價值)、1欄時間戳記與108欄與金融工具相關的特徵變數
圖1. 原始資料集

2. 資料視覺化

為了找出表現較好的金融工具,並發掘潛力股,我們將進行以下4個資料視覺化的流程:

(1) 目標變數的分布

由於此挑戰並未說明目標變數為何,就數值多為小數且十分位為0而言,我們推測它可能是成長率,亦或是其他能以百分率表示的評估指標,代表著該金融工具的價值。首先,我們透過直方圖的形式,概覽目標變數(金融工具的價值)的分布狀況,如圖2. 所示。可發現目標變數大致上呈現常態分布,平均值落在0附近,同時可以發現極端處各有一個小峰,代表部分金融工具的價值較高,後續我們可以將這些金融工具列為目標,並搭配時間戳記觀察它長期的表現。

透過直方圖的形式,概覽目標變數(金融工具的價值)的分布狀況
圖2. 目標變數的分布圖

(2) 時間戳記的分布

接著,為了確保時間戳記的數量保持穩定,我們來查看時間戳記的數量,如圖3. 所示。可以發現時間戳記的數量有增加的趨勢,且過程中皆有一小段的向上跳躍,再些微減少,代表隨著時間的推移,有新的金融工具加入,並有些許金融工具遭到淘汰。

為了確保時間戳記的數量保持穩定,我們來查看時間戳記的數量
圖3. 時間戳記的分布圖

(3) 目標變數隨時間的變化

為了檢視變動環境中金融工具的走勢,我們藉由時間戳記觀察目標變數平均值的變動,並針對較感興趣時間戳記區間進行深入探索,如圖4. 所示。若能得知時間戳記的確切時間點,便可推估當時發生的事件,並作為歷史的借鏡,當投資者下次面臨類似的事件時便能把握住投資機會。

圖4. 目標變數隨時間的變化圖

(4) 特定金融工具的目標變數

最後就要來挑出值得投資的金融工具了!我們篩選出存在於所有時間戳記的金融工具,因為此金融工具較不會受到「蜜月期」影響,且歷史紀錄較多,再檢視目標變數隨時間的走向,以挑選出較佳的金融工具。經過一番觀察後,總共挑出了特定的5個金融工具,它們的ID分別為1548、699、697、704、1066,如圖5. 所示。

圖中的藍線表示目標變數的分布,綠線則表示累積的目標變數數值。

視覺化
圖5. 特定金融工具的目標變數圖

這五個圖表中,可觀察出ID 699的累積目標變數較穩定成長,在無法得知y為何種評斷指標的情況下,我們僅能推測它或許是表現較好的金融工具,投資者便可把握機會投資!

成果與應用

藉由完成Two Sigma金融工具視覺化的過程,我們能夠觀察到在不同時間戳記下目標變數的異動情形,藉此篩選出具有價值的金融工具。若想進一步分析與探究特定變數因子的影響,便能再利用其他機器學習模型進行分析,以預測出最可能符合市場未來走向的趨勢與價值,同時打造出更具有參考性與說服力的投資模型,有效提高分析師的可信度,並協助客戶擺脫在景氣循環中不斷隨波逐流的惡性輪迴!

作者:鄭晴文、沈明賢(臺灣行銷研究特邀作者)、徐子皓(臺灣行銷研究特邀編審)、劉加德(臺灣行銷研究特邀編審)、鍾皓軒(臺灣行銷研究有限公司創辦人)


參考資料:

Two Sigma Financial Modeling Challenge:Two Sigma Financial Modeling Challenge

Two Sigma Time Travel (EDA):Two Sigma Time Travel (EDA)

Simple Exploration Notebook:Simple Exploration Notebook

更多實戰案例及情境好文推薦

回到頂端