科技改變生活 · 科技引領(lǐng)未來(lái)
一天深夜,一個(gè)社畜,完成了一天的工作,躑躅在深圳的街頭。就在距他100米的一個(gè)豪華酒店,人民富豪馬總正在里面觥籌交錯(cuò)。就在這一刻,以這個(gè)社畜為圓心畫一個(gè)100米的圓,在這個(gè)圓內(nèi)所有人的平均財(cái)富,一定是一個(gè)非常高的數(shù)字。那么,這一刻這個(gè)社畜的
一天深夜,一個(gè)社畜,完成了一天的工作,躑躅在深圳的街頭。就在距他100米的一個(gè)豪華酒店,人民富豪馬總正在里面觥籌交錯(cuò)。就在這一刻,以這個(gè)社畜為圓心畫一個(gè)100米的圓,在這個(gè)圓內(nèi)所有人的平均財(cái)富,一定是一個(gè)非常高的數(shù)字。那么,這一刻這個(gè)社畜的幸福感和獲得感是否會(huì)有提升呢?
這個(gè)段子告訴我們兩件事。一是,我們不能以個(gè)例來(lái)評(píng)價(jià)整個(gè)社會(huì),比如這個(gè)社畜很疲憊,很沮喪,覺(jué)得沒(méi)有前途,不代表所有人都是如此,至少馬總不是,這時(shí)候我們需要統(tǒng)計(jì)數(shù)據(jù);二是,統(tǒng)計(jì)數(shù)據(jù)也不一定靠譜,比如這個(gè)社畜的平均財(cái)富是如此之高,然而他的個(gè)人境遇并未因此有任何改變。
統(tǒng)計(jì)是門大學(xué)問(wèn)。一方面,我們能夠通過(guò)統(tǒng)計(jì)數(shù)據(jù)看清社會(huì)的真實(shí)面目,另一方面,統(tǒng)計(jì)也能欺騙我們,我們往往會(huì)被刻意修飾過(guò)的統(tǒng)計(jì)數(shù)據(jù)所誤導(dǎo)。
美國(guó)作家達(dá)瑞爾·哈夫著《怎能利用統(tǒng)計(jì)撒謊》(初版于1954年),向我們揭示統(tǒng)計(jì)數(shù)據(jù)中的各種欺騙手法。書名直譯過(guò)來(lái)應(yīng)該是《如何利用統(tǒng)計(jì)撒謊》(How to Lie with Statistics)。
這本書篇幅不長(zhǎng),也沒(méi)有什么高深的專業(yè)理論。作者以幽默的語(yǔ)言,豐富的例證,向我們揭示了統(tǒng)計(jì)中的那些花招。全書共10個(gè)小節(jié),下面我們跟隨作者的思路,一起看看60多年前統(tǒng)計(jì)是怎么欺騙我們的。
1、有偏差的樣本
當(dāng)統(tǒng)計(jì)者向我們展示一些統(tǒng)計(jì)數(shù)據(jù)時(shí),我們首先要問(wèn)的是,統(tǒng)計(jì)樣本是什么樣的狀況?有沒(méi)有代表性?
本書舉了一個(gè)很簡(jiǎn)單的例子?!稌r(shí)代雜志》文章稱,1924級(jí)的耶魯大學(xué)畢業(yè)生一般年收入25111美元,這在1950年代是極高的收入了。
問(wèn)題來(lái)了。25年前的畢業(yè)生,有多少人還能找到呢?那些人生失意者會(huì)回答這個(gè)問(wèn)卷嗎?25年過(guò)去了,當(dāng)年的畢業(yè)生,還會(huì)那么努力地回答問(wèn)卷嗎?并且一定會(huì)如實(shí)填寫嗎?如果答卷,有些人由于虛榮心或者過(guò)于樂(lè)觀,會(huì)夸大自己的收入;還有一些人,由于稅務(wù)等原因,會(huì)刻意縮小自己的收入。這兩種情況分別占多大比例?
如果想獲得統(tǒng)計(jì)數(shù)據(jù),因?yàn)檎{(diào)查成本的原因,或調(diào)查時(shí)限的原因,不可能調(diào)查所有人。這就需要抽樣調(diào)查。統(tǒng)計(jì)數(shù)字的質(zhì)量依賴于樣本,也只能代表所調(diào)查樣本的情況。
毫無(wú)疑問(wèn),上面的數(shù)據(jù)來(lái)自這樣一些樣本,即當(dāng)年全體畢業(yè)生中那些知道其住址,又肯提供答案的人,這些人可能是社會(huì)上的頭面人物。這個(gè)數(shù)字,如果是真實(shí)的,也只能代表1924級(jí)中那些知道地址而又愿意站起來(lái)報(bào)告他們掙多少錢的人。即便如此,也要假定這些人說(shuō)的都是實(shí)話。
有雜志社想知道讀者都喜歡什么雜志,于是進(jìn)行逐戶調(diào)查,結(jié)果顯示讀者喜歡《哈帕斯》而不是《真實(shí)的故事》,這與雜志社的發(fā)行量不符。問(wèn)題在哪里呢?逐戶調(diào)查未必能了解到真實(shí)情況,因?yàn)樽x者未必如實(shí)回答。更好的方法是到住戶家中收購(gòu)舊雜志。當(dāng)然,這也只能知道讀者有過(guò)什么,而不是他們現(xiàn)在喜歡什么。
河水不會(huì)高于源頭,抽樣調(diào)查的結(jié)果不會(huì)比樣本更好。抽樣調(diào)查過(guò)程可以完全符合已獲證明的數(shù)學(xué)原理,貌似很科學(xué),然而只要精心選擇樣本,調(diào)查者總能得到自己想要的結(jié)果。
2、選擇得當(dāng)?shù)钠骄鶖?shù)
當(dāng)我們獲知本地的人均年收入是X萬(wàn)元時(shí),假定我們相信統(tǒng)計(jì)者沒(méi)有作假的動(dòng)機(jī),數(shù)據(jù)真實(shí)可靠,那么這個(gè)年均收入對(duì)我們有多大參考意義?這個(gè)“平均”是哪種平均,算術(shù)平均,中位數(shù),還是眾數(shù)?
一位地產(chǎn)商為了籠絡(luò)顧客,告訴他本地住戶年均收入1.5萬(wàn)美元,是一個(gè)較好的社區(qū)。一年后,同一個(gè)人,現(xiàn)在是納稅委員會(huì)成員,向當(dāng)局申請(qǐng)降低稅率,聲稱本地住戶年均收入僅3500美元。這兩個(gè)數(shù)字差別也太大了。哪個(gè)是準(zhǔn)確的呢?可能都是。因?yàn)檫@兩個(gè)數(shù)字都是統(tǒng)計(jì)匯總的平均數(shù)。
我們經(jīng)常會(huì)用到三種平均數(shù):均值、中位數(shù)和眾數(shù)。
年收入1.5萬(wàn)美元,可能是所有住戶的年收入(算術(shù))平均值,即所有收入累加并除以住戶數(shù)。年收入3500美元,可能是所有住戶年收入的中位數(shù),即一半的住戶在這個(gè)數(shù)字之上,另一半在這個(gè)數(shù)字之下;還可能是眾數(shù),即最多的住戶是這個(gè)水平。
就是說(shuō),不加限定的平均數(shù)可能是沒(méi)有任何意義的。
某些數(shù)據(jù)會(huì)符合正態(tài)分布,在這種情況下,均值、中位數(shù)和眾數(shù)三者差別不大。然而,就小區(qū)住戶收入而言,可能并不如此。如果有某幾家住戶擁有高額財(cái)產(chǎn),只是偶爾度假才在此居住,則可急劇拉高均值,然而并不會(huì)拉高中位數(shù)和眾數(shù)。
所以,當(dāng)你獲知某公司年均收入多少,或某地、某國(guó)年均收入多少,首先要問(wèn),這個(gè)年均收入是哪個(gè)平均值,是均值,中位數(shù),還是眾數(shù)?統(tǒng)計(jì)部門擁有詳盡的數(shù)據(jù),他們有能力得到某項(xiàng)數(shù)據(jù)的各種平均值。如果他們發(fā)布了一項(xiàng)指標(biāo),而不說(shuō)明是均值、中位數(shù)還是眾數(shù),這值得你深思。
回應(yīng)本文開(kāi)頭的段子,如果計(jì)算以這個(gè)社畜為圓心的100米范圍內(nèi)人群的收入水平,中位數(shù)或眾數(shù)更能反映真實(shí)情況。
3、沒(méi)有透露的小數(shù)字
偶爾,我們讀到一份報(bào)告,告知我們一點(diǎn)很有意思的信息。然而,報(bào)告中常常會(huì)有一些小數(shù)字,告知我們一些更有意思的信息:樣本數(shù)非常少,試驗(yàn)只做了很少幾次,……,這往往是我們會(huì)忽略的。
某公司廣告稱使用他們的牙膏可使蛀牙減少23%。是不是覺(jué)得很不錯(cuò)?然而,仔細(xì)閱讀廣告的小字說(shuō)明,參加實(shí)驗(yàn)的用戶只有12人。某牙粉廣告宣稱在治療齲齒方面相當(dāng)成功。然而這個(gè)實(shí)驗(yàn)只進(jìn)行了6次,并且是先入為主的。醫(yī)藥界很多新藥都是如此炮制出來(lái)的,即只進(jìn)行了較少的實(shí)驗(yàn)。
怎樣識(shí)破這些花招呢?你并不需要成為統(tǒng)計(jì)專家。
有一個(gè)簡(jiǎn)單易懂的顯著性檢驗(yàn)法,這不過(guò)是一種說(shuō)明實(shí)驗(yàn)數(shù)據(jù)能夠在多大程度上代表真實(shí)情況,而不是某種偶然出現(xiàn)假象的方法,這就是查一查那些沒(méi)有透露的小數(shù)字。
表示這種顯著程度的最簡(jiǎn)單的方法,就是概率。
對(duì)大多數(shù)用途來(lái)說(shuō),任何顯著水平達(dá)到5%就夠好了。而對(duì)某些用途來(lái)說(shuō),對(duì)顯著水平的要求是1%。
還有一種不公開(kāi)的小數(shù)字,就是說(shuō)明事物的范圍,或者與給出的平均數(shù)之間的離差的數(shù)據(jù)。
未透露的小數(shù)字的欺騙性在于它的失蹤經(jīng)常無(wú)人察覺(jué)。
在《時(shí)代周刊》,1948年的一個(gè)電力公司的廣告上說(shuō):“現(xiàn)在美國(guó)四分之三以上的農(nóng)場(chǎng)可以獲得電力……”。似乎很好。然而,這個(gè)“可以獲得”可以隨意接解釋,它并不意味著四分之三的農(nóng)場(chǎng)已經(jīng)獲得電力。這可能意味著電線經(jīng)過(guò)他們的村莊,或者電線距他們不到10英里或100英里而已。
4、無(wú)事空忙
我們對(duì)數(shù)據(jù)進(jìn)行比較時(shí),如果兩個(gè)數(shù)據(jù)相差很小,因?yàn)閿?shù)據(jù)測(cè)量本身就存在誤差,那么在統(tǒng)計(jì)意義上,這兩個(gè)數(shù)據(jù)實(shí)際上并沒(méi)有實(shí)質(zhì)區(qū)別,完全不能說(shuō)較低的數(shù)據(jù)就代表著較差的表現(xiàn)。這是我們需要警惕的。
比如,有兩個(gè)孩子,智商測(cè)試表明,彼得智商是98分,琳達(dá)是 101分。能不能說(shuō)明琳達(dá)比彼得更機(jī)靈呢?
常用的智商測(cè)試的誤差率是3%。所以彼得的智商應(yīng)該表述為98±3;琳達(dá)則是101±3。也就是,彼得的智商在95-101之間,琳達(dá)在98-104之間。從這里可以看出,彼得的智商是有可能高于琳達(dá)的。
對(duì)待這種情況的唯一辦法是看它所表示的范圍。將差別不大的數(shù)字比較是毫無(wú)意義的。
《讀者文摘》組織人對(duì)多種品牌的香煙進(jìn)行分析,并公布了結(jié)果。人們發(fā)現(xiàn)危害成分排名,“老金”牌香煙排在最后?!袄辖稹毕銦煹拿曇蛑笤?,“老金”公司也趁機(jī)大做廣告,但是刪掉了排行中危害成分含量的差距微乎其微的內(nèi)容。雖然后來(lái)“老金”廠商被命令停止宣傳,但是他們已經(jīng)從早期的宣傳中撈到了足夠的好處。
5、驚人的曲線
一圖勝千言。有些情況下,數(shù)字、表格太枯燥,而文字說(shuō)明又難以解釋清楚時(shí),這時(shí),圖是最適合的表現(xiàn)形式。然而,我們往往會(huì)被精心設(shè)計(jì)的圖表嚴(yán)重誤導(dǎo)。
有多種方法讓一個(gè)很平凡的數(shù)據(jù)產(chǎn)生強(qiáng)大的視覺(jué)沖擊力。
比如,一個(gè)折線圖中,將縱坐標(biāo)的起點(diǎn)取為某個(gè)較大的數(shù)值,而不是從0開(kāi)始;將縱坐標(biāo)的間隔取較小的數(shù)值,都能讓實(shí)際變化較小的數(shù)據(jù)顯示為比較陡峭的曲線。例如:
這個(gè)圖中的數(shù)據(jù),銷售額從1月20.03百萬(wàn)元到12月的20.1百萬(wàn)元,僅上升了0.35%,然而精心設(shè)定縱坐標(biāo)的起點(diǎn)和間隔,卻能顯示為一條陡峭的折線。
這并不是作者編造的。1951年《新聞周刊》就是這么干的,它顯示的圖形剪掉了下面的80個(gè)刻度,以顯示“股票市場(chǎng)創(chuàng)21年來(lái)新高”。1952年哥倫比亞煤氣公司在《時(shí)代周刊》的廣告,從數(shù)據(jù)可以得知10年來(lái)生活費(fèi)上漲60%,煤氣費(fèi)下跌約4%;然而通過(guò)精心選定的縱坐標(biāo)起點(diǎn),給人的視覺(jué)觀感是生活費(fèi)上漲了3倍,而煤氣費(fèi)降低了1/3。
有很多公司和每天使用這樣的花招誤導(dǎo)讀者。
6、平面圖
形象圖經(jīng)常用來(lái)對(duì)兩個(gè)指標(biāo)進(jìn)行對(duì)比。形象圖的前身是條形圖或柱狀圖。條形圖也可以通過(guò)精心選擇縱坐標(biāo)的起點(diǎn)以誤導(dǎo)讀者。
而形象圖就更容易做到這一點(diǎn)了。例如,比較兩個(gè)人的工資,一個(gè)人周薪30美元,另一個(gè)人是60美元。用兩個(gè)錢袋的形象圖表示兩者的對(duì)比,其中一個(gè)錢袋的高度是另一個(gè)高度的2倍。然而這完全是誤導(dǎo)性的。因?yàn)橛疫呭X袋的高度是左邊的2倍,寬度也是2倍,視覺(jué)觀感上右邊錢袋的面積是第一個(gè)的4倍;這還不算完,讀者會(huì)將這兩個(gè)錢袋想象為立體圖,這樣右邊錢袋的體積就是左邊錢袋的8倍。
《新聞周刊》就干過(guò)這樣的事。他們繪制了一張圖,用來(lái)吹噓從30年代到40年代美國(guó)鋼鐵生產(chǎn)能力的進(jìn)步。為了表示生產(chǎn)能力從30年代的1000萬(wàn)噸上升到40年代的1425萬(wàn)噸,繪制了一個(gè)高爐形象圖,生產(chǎn)能力增加了42.5%,然而從圖上看來(lái),生產(chǎn)能力似乎提高了好幾倍。
這些問(wèn)題也許可以認(rèn)為是制圖員的失誤,然而就像超市柜員在找回零錢時(shí)的偶爾失誤一樣,如果每一次失誤都有利于柜員,那么這個(gè)問(wèn)題就值得深思。
7、牽強(qiáng)附會(huì)的數(shù)字
我們看到的報(bào)告,有時(shí)候會(huì)列舉一些數(shù)字,如果不細(xì)究,這些數(shù)字會(huì)給我們以震撼,令我們很自然相信某種結(jié)論。然而這些常常是精心挑選的、牽強(qiáng)附會(huì)的數(shù)字,目的就是誤導(dǎo)我們。
藥廠為了證明某種感冒藥的神效,發(fā)布一個(gè)試驗(yàn)報(bào)告,宣稱僅僅1/2英兩的藥物,就在11秒鐘內(nèi)殺死了試管中的31108個(gè)細(xì)菌。挑選一個(gè)有名的,或名字令人印象深刻的實(shí)驗(yàn)室,拍一個(gè)穿白大褂的醫(yī)生模特的照片,印在報(bào)告邊上。但是千萬(wàn)不要告訴公眾,這種藥物在咽喉中可能無(wú)效,也不要講殺死的細(xì)菌是哪一類。報(bào)告里面列舉的細(xì)菌,也許與引起感冒的某種東西,并無(wú)直接聯(lián)系,誰(shuí)知道呢。
有很多這樣的花招。比如,吹噓某種榨汁機(jī)能多榨出26%的果汁。然而比什么多榨26%?舊式的手搖榨汁機(jī)。這種榨汁機(jī)也許是市場(chǎng)上最差的。去年在飛行事故中喪生的人員遠(yuǎn)比1910年多,是不是現(xiàn)代飛機(jī)更不安全呢?根本不是,現(xiàn)在乘飛機(jī)的人是以前的千萬(wàn)倍。最近因鐵路事故死亡的人達(dá)4721人,是不是鐵路更不安全呢?不是。
很多數(shù)字和事件之間并無(wú)關(guān)聯(lián)關(guān)系,把這兩者列在一起,完全是牽強(qiáng)附會(huì),就是為了誤導(dǎo)。
《哈帕斯》雜志的讀者為A&P商店辯解說(shuō),該店純利潤(rùn)只占銷售額的1.1%,誰(shuí)會(huì)因這么低的利潤(rùn)率而受到譴責(zé)呢?實(shí)際上這里的騙人之處是混淆了投資收益和銷售收益。例如,每天上午以0.99美元買入,下午以1.0美元賣出,賺的錢只是銷售額的1%,然而卻是一年投資額的365%。
1940年以前美國(guó)南方每年都有成千上萬(wàn)的瘧疾病例,而現(xiàn)在卻很少報(bào)告。原因是現(xiàn)在證明是瘧疾的才會(huì)被記錄下來(lái),而以前南方很多地方口語(yǔ)中的感冒和傷風(fēng)也被認(rèn)為是瘧疾。
美國(guó)和西班牙戰(zhàn)爭(zhēng)中海軍的死亡率是9‰,而同一時(shí)期紐約市民死亡率是16‰。是不是戰(zhàn)爭(zhēng)更安全呢?海軍士兵是健康的年輕人,而紐約市民包括從嬰兒到老年人的廣大范圍。
8、死灰復(fù)燃的偽因果論
兩個(gè)數(shù)字,似乎是有關(guān)聯(lián)的,宣傳者也極力將這個(gè)兩個(gè)數(shù)字聯(lián)系起來(lái),讓人覺(jué)得似乎這兩者之間存在某種因果關(guān)系,然而事實(shí)并非如此。這種一種常見(jiàn)的花招,即將統(tǒng)計(jì)關(guān)聯(lián)宣傳為因果關(guān)聯(lián)。
有人想弄清楚學(xué)生抽煙與成績(jī)的關(guān)系。結(jié)果確實(shí)抽煙的學(xué)生成績(jī)差些。于是要想成績(jī)好就得戒煙。進(jìn)一步的邏輯是抽煙使大腦麻木。然而實(shí)際情況可能相反,可能因?yàn)榈头?,沒(méi)有去借酒消愁,而是吞云吐霧。
B事件是在A之后發(fā)生的,因此,A是B的原因。這不一定是事實(shí)。甚至還有一種可能,這兩件事都是第三種因素的產(chǎn)物。
要避免上這種偽因果論的當(dāng),必須嚴(yán)格檢查任何說(shuō)明相互關(guān)系的材料。關(guān)于不同數(shù)字的相關(guān)性,實(shí)際上由好幾種:
一種是偶然的相關(guān)。也許有一次,搜集的數(shù)字證明了相關(guān)性;但是再來(lái)一次,可能又證明不了相關(guān)性。人們往往會(huì)拋棄不想要的結(jié)果,并大量報(bào)道想要的結(jié)果。
還有一種普遍的協(xié)變關(guān)系,就是相關(guān)性確實(shí)存在,但是哪一個(gè)是原因,哪一個(gè)是結(jié)果,卻不可能弄清。這里,因和果可以不時(shí)互換位置。
還有一種比較棘手的情況,兩個(gè)變量中一種對(duì)另外一種具有明顯的影響,然而它們之間確實(shí)存在著真實(shí)的相關(guān)。許多不光彩的勾當(dāng)就利用了這一點(diǎn)。比如抽煙與成績(jī)之間的關(guān)系,還有很多醫(yī)學(xué)統(tǒng)計(jì)數(shù)字也是如此,相互關(guān)系被證明是真實(shí)的,但是因果性質(zhì)僅僅是臆想。
9、怎樣變統(tǒng)計(jì)戲法
利用統(tǒng)計(jì)資料可以向人們傳遞錯(cuò)誤信息,可以說(shuō)是利用統(tǒng)計(jì)進(jìn)行操縱。
歪曲統(tǒng)計(jì)數(shù)據(jù)和為了某種目的而操縱統(tǒng)計(jì)數(shù)據(jù)的事,并不總是專業(yè)統(tǒng)計(jì)人員干的。統(tǒng)計(jì)人員手里的實(shí)事求是的數(shù)據(jù)一到商人、公共關(guān)系專家、新聞?dòng)浾吆蛷V告商手上,就會(huì)扭曲、夸大,過(guò)分簡(jiǎn)單化,或在篩選過(guò)程中變形。
1949年美國(guó)普通家庭年收入是多少呢?美國(guó)普查局說(shuō)是3100美元;拉塞爾·塞奇基金會(huì)說(shuō)是5004美元。普查局的數(shù)據(jù)一般是中位數(shù),塞奇基金會(huì)的數(shù)據(jù)可能是均值,即便如此,也不至于差距這么大。這是為什么呢?這是一個(gè)戲法。基金會(huì)將全美國(guó)的個(gè)人總收入除以全美人口數(shù),然后乘以4(假定一家4口),就得到了5004美元。這種算法是完全錯(cuò)誤的,四口之家的富裕程度決不是兩口之家的2倍。
廣告稱現(xiàn)在購(gòu)買圣誕禮物可以節(jié)省100%的錢,這不過(guò)是基數(shù)混亂,實(shí)際上是減價(jià)50%。
《標(biāo)準(zhǔn)石油公司史》說(shuō):“西南部的減價(jià)幅度……在14%至220%之間。”這是在倒貼嗎?
上面說(shuō)的這些花招似乎太陳舊、太露骨了,然而一直有人這么用。比如,每次發(fā)生罷工,就有人宣稱罷工每天造成幾百萬(wàn)美元的損失。這是將罷工時(shí)間乘以該時(shí)間的產(chǎn)出額。
有人宣稱,對(duì)出版公司來(lái)說(shuō),由于各個(gè)環(huán)節(jié)成本上升,如車間成本提高了10-12%,原材料上漲了6-9%……,各項(xiàng)相加,總計(jì)成本上漲了33%,對(duì)小的出版商則是40%。然而即便每個(gè)環(huán)節(jié)都上漲了10%,總成本最多上漲了10%。這種各個(gè)環(huán)節(jié)百分比累加的邏輯純粹是無(wú)稽之談。
一個(gè)路邊兔肉三明治小販解釋他的三明治為何如此便宜,他說(shuō),我不得不摻些馬肉,我是對(duì)半摻的,一只兔子摻一匹馬。這個(gè)小販深得數(shù)字戲法真諦。
還有百分比和百分點(diǎn)的混淆。投資利潤(rùn)率從第一年的3%提高到第二年的6%,可以說(shuō)是提高了3個(gè)百分點(diǎn),似乎很小,然而這個(gè)數(shù)字還可以描繪為利潤(rùn)增加了100%。
盡管統(tǒng)計(jì)學(xué)是以數(shù)學(xué)為基礎(chǔ),但它既是科學(xué),也是藝術(shù)。在規(guī)定的適當(dāng)范圍內(nèi)變點(diǎn)戲法,甚至歪曲,都是可能的。
10、如何識(shí)別統(tǒng)計(jì)數(shù)字的真實(shí)性和有用性
面對(duì)統(tǒng)計(jì)數(shù)據(jù),我們并不能用化學(xué)分析或金屬純度檢驗(yàn)?zāi)菢拥姆椒ㄟM(jìn)行檢驗(yàn),然而,可以用下面的5個(gè)問(wèn)題試探一下。
(1)誰(shuí)這么說(shuō)的?
實(shí)驗(yàn)室為了支持某種理論,為了榮譽(yù)或金錢而證實(shí)某種東西,報(bào)紙為了聳人聽(tīng)聞的消息,工廠或廠房為了控制性命攸關(guān)的工資水平,這些都可能產(chǎn)生偏見(jiàn)。
這些偏見(jiàn)之下,可能會(huì)瞪著眼瞎說(shuō),也可能說(shuō)一些含糊之詞;可能會(huì)選擇有利的數(shù)據(jù),回避不利的數(shù)據(jù);也可能改變計(jì)算的標(biāo)準(zhǔn)。
(2)他是怎么知道的?
要密切注意選擇的樣本:是由于選擇不當(dāng),還是由于只選擇迎合自己的樣本,這個(gè)樣本是否大到足以作出任何可靠的結(jié)論。
關(guān)于相關(guān)系數(shù),也要問(wèn)一下,是否大到足以說(shuō)明問(wèn)題,是否從足夠多的實(shí)例得出,是否有一定的顯著性。
(3)缺了什么東西?
要密切注意未加說(shuō)明的平均數(shù),任何情況下,均值和中位數(shù)有很大的差別。
(4)有人偷換概念了嗎?
檢驗(yàn)統(tǒng)計(jì)數(shù)字時(shí),要注意在原始數(shù)字和結(jié)論之間某個(gè)環(huán)節(jié)上可能發(fā)生的變動(dòng),將一種東西報(bào)導(dǎo)成另外一種,這樣的事太多了。
(5)這有意義嗎?
每當(dāng)聽(tīng)到以沒(méi)有得到證實(shí)的假設(shè)為基礎(chǔ)的長(zhǎng)篇大論時(shí),可以想一想,這有意義嗎?這個(gè)問(wèn)題可以使統(tǒng)計(jì)數(shù)字恢復(fù)它的本來(lái)面目。
許多統(tǒng)計(jì)資料一下就看出是假的,僅僅是由于數(shù)字的魔法鎮(zhèn)住了常識(shí),它才得以蒙混過(guò)關(guān)。
雖然這本書初版距今已經(jīng)67年,這并不意味著這本書所介紹的統(tǒng)計(jì)花招已經(jīng)過(guò)時(shí),我們?cè)诿襟w上依然能看到各種各樣的欺騙性的統(tǒng)計(jì)數(shù)據(jù)。當(dāng)然,時(shí)代在前進(jìn),新的花招也層出不窮。比如,如果某個(gè)統(tǒng)計(jì)數(shù)據(jù)很難看,怎么辦?調(diào)整其中某項(xiàng)指標(biāo)的權(quán)重即可。如果調(diào)整權(quán)重仍然難看呢?也很容易,將這幾項(xiàng)指標(biāo)直接踢出去。
有關(guān)部門或企業(yè)為什么要進(jìn)行這種統(tǒng)計(jì)欺騙呢?當(dāng)然是為了某些目的,這還用得著說(shuō)嗎?
英國(guó)前首相迪斯雷利說(shuō)過(guò),謊話有三種,謊言,彌天大謊和統(tǒng)計(jì)。我們要了解社會(huì),當(dāng)然離不開(kāi)統(tǒng)計(jì)數(shù)據(jù),然而我們要睜大眼睛,仔細(xì)分辨這些數(shù)據(jù)背后的真相,凡事要多問(wèn)幾個(gè)為什么。
王陽(yáng)一
版權(quán)所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證備案號(hào):遼ICP備14006349號(hào)
網(wǎng)站介紹 商務(wù)合作 免責(zé)聲明 - html - txt - xml