• 免費試用
    banner
    大數據平臺>數據可視化>數據可視化會撒謊

    MIT課程筆記:數據可視化會撒謊

    作者: afenxi來源: afenxi時間:2017-01-02 19:45:170

    這篇文章取材于David Karger教授講授的Data Visualizations課程,此課程是MIT ProfessionalEducation開設的網絡課程Tackling the Challenges of Big Data的一部分。文中部分圖片經Karger教授本人授權,請勿轉載。

    上一期的可視化專欄中,我們推出了一篇文章《人類歷史上最有影響力的5張信息圖》,相信讀過這篇文章的讀者都會對下面這幅圖有印象。這是排名第二的“戰爭死亡統計圖”,作者FlorenceNightingale(南丁格爾)是一名護士,她用數據圖表的方式展示了那些可預防疾病(藍色和灰色區域)導致的驚人死亡數字,成功的說服了將軍們投錢在醫院和醫療設施上。

    MIT課程筆記:數據可視化會撒謊-數據分析網 看到這幅圖,相信讀者都會像我一樣驚嘆于160年前的這位護士的智慧,但是在驚嘆的同時,或許你也會像我一樣有疑惑:這幅圖看起來并不是那么直觀明了,問題出在哪里呢?Karger教授解釋說,因為南丁格爾采用了圖形面積作為可視化變量來表示死亡人數,而我們的眼睛已經在某種程度上習慣于比較單一的長度或寬度,而不是面積。另外一個問題是,她把這些顏色疊放在一起,粉紅色區域的下面,還有很多藍色;而有些地方看不到任何的粉紅色,因為它被蓋在灰色的下面。下面這幅圖也存在同樣的問題。這是1979年Time雜志在石油危機爆發時發表的一張圖,用來表示1973-1979年間石油價格的變化。

    MIT課程筆記:數據可視化會撒謊-數據分析網

    這幅圖的本意是用桶的高度來表示石油價格的變化,離我們最近的桶是最遠的桶的5.5倍。但由于角度和陰影的關系,我們直覺上會認為桶的體積表示了價格的變化。盡管這個圖上的數字是正確的,1979年石油價格是1973年的5.5倍,但是由于這幅圖給我們的誤導,我們會把體積變化(270倍)當成一個與價格有關的變量。

    這是在創建可視化過程中容易進入的誤區,也是我們應該盡量避免的。一般的規則是,盡量避免使用多維變量來代表數量。如果你想用一個可視變量代表一個數,那么只使用長度或者高度, 但不要兩者同時用。下面三張圖顯示的是2000年的股市崩盤。

    MIT課程筆記:數據可視化會撒謊-數據分析網

     

    MIT課程筆記:數據可視化會撒謊-數據分析網

     

    MIT課程筆記:數據可視化會撒謊-數據分析網 看第一張圖,我們會覺得2000年的股市崩盤是災難性的。但是,如果我們把縱坐標范圍擴大到整個股票市場的價格區間0-$10,000,這個下跌曲線看起來就平緩多了。如果我們再把橫坐標的年份放大到1950-2000年,那么這個下降看起來根本就不算什么。

    下面這兩張圖可謂惡劣之作。這兩張圖出現在一本雜志的封面,企圖披露康奈爾大學在學校排名直線下降的同時學費持續飆升。讓我們來看看真實情況是怎么回事。

    MIT課程筆記:數據可視化會撒謊-數據分析網 首先,我們來看看排名。不要忘了,學校的排名是數字越小越好,所以圖中下降的曲線實際是表明康奈爾排名上升了。另外,兩幅圖表示年份的橫坐標使用的是不同的時間尺度。第一張圖的學費數據,從1965年開始;而第二張圖的排名,從1988年開始。最后,關于學費的數據也有問題。它實際上并不是圖文中所說的學費,而是學費/收入比。所以,這兩張照片放在一起,根本無法說明他們所說的問題。 再來看一個例子,下面這張圖來自紐約時報,顯示了1978年到1985年汽車燃料標準的改變。

    MIT課程筆記:數據可視化會撒謊-數據分析網

    這個圖的問題是,這里用0.6英寸代表1978年的18英里/加侖,用5.3英寸代表1985年的27.5英里/加侖,并試圖用透視圖使它看起來更漂亮。但這樣做,在視覺上大幅度放大了長度的變化。因此,我們看到的不是每加侖英里數增加了52%,而是780%。

    下面的例子是Karger教授制作的關系數據可視化圖。

    MIT課程筆記:數據可視化會撒謊-數據分析網 這是對一個特殊虛擬社交網絡的可視化圖。從圖中你會看到有幾個核心人物,周圍環繞一堆邊緣人物。但是,這其實是一種假象。事實上,這里的數據是一個對稱的圓環,也就是說任何一個人跟他周圍人的關系跟其他人和周圍人的關系是完全一樣的。而圖中的核心人物,是由于制作時把三維物體投影成兩維造成的。顯然,這張圖會給在視覺上造成很強的欺騙性。

    總的來說,可視化是一個非常強大的工具,有時候比統計數據本身更強大。這意味著它可以更好地揭示真相,但同時也可能更顯著地放大錯誤。在可視化的過程中,要經常反問自己:這個圖有沒有什么不正確的暗示?要做到這一點,需要考慮:一、顯示完整的坐標區間;二、顯示全面的數據;三、選擇適當的可視化變量。

    作者:Linda Bi

    原創文章,作者:古思特,如若轉載,請注明出處:《MIT課程筆記:數據可視化會撒謊》https://www.afenxi.com/post/5593

    banner
    看過還想看
    可能還想看
    熱點推薦
    Yonghong的價值觀:以卓越的數據技術為客戶創造價值,實現客戶成功。