人類并非可靠的決策者;他們的判斷受到不相關(guān)因素嚴重影響,比如當時的情緒。我們將這種隨機變量稱為“判斷噪聲”。對很多公司的利潤而言,噪聲都是一筆隱形成本。
研究表明,在股票估價、鑒定房地產(chǎn)、審判罪犯、評估工作表現(xiàn)以及審計財務(wù)報表等很多任務(wù)中,專家的決策十分不穩(wěn)定。不可避免的結(jié)論是,專業(yè)人士經(jīng)常做出與自己、同事以及他們聲稱所遵循的規(guī)則大相徑庭的決策。
人們早已知道,簡單統(tǒng)計學(xué)算法做出的預(yù)測和決策往往比專家更準確,哪怕專家能獲得比算法更多的信息。但鮮有人知的是,算法的關(guān)鍵優(yōu)勢在于沒有噪聲:與人類不同,輸入相同信息,公式得出的結(jié)果也相同。因為穩(wěn)定,哪怕是簡單甚至有瑕疵的算法,也比人類專家的準確性高。
噪聲VS.偏見
當人們考慮判斷和決策中的差錯時,想到的總是社會性偏見,比如對少數(shù)族裔的成見、自負等認知偏差以及盲目樂觀。而被我們稱作“噪聲”的無用變量屬于一種不同的差錯。
為了理解兩者區(qū)別,你可以想想浴室的體重秤。如果讀數(shù)太高或太低,我們可以說,體重秤出現(xiàn)了偏差。如果你的體重取決于腳的位置,那么可以說體重秤有噪聲。如果體重秤的顯示總是比準確體重少4磅,那么就存在嚴重偏差,但沒有噪聲。如果兩次稱重時顯示不同的重量,那么體重秤存在噪聲。很多計量差錯既包括偏差也包括噪聲。
為了能更直觀地展示這種區(qū)別,請看下圖。圖中展示了4人團隊,每人射擊一次的打靶訓(xùn)練結(jié)果。
A隊很準確:所有隊員都打中靶心,彈孔離得很近。而另3支隊伍都各有各的不準。
B隊有噪聲:彈孔在靶心四周,但彼此很分散。
C隊有偏差:彈孔都沒有擊中靶心,但彼此離得很近。
D隊既有偏差也有噪聲。
正如A隊和B隊所示,在沒有偏差時,噪聲增多常會影響準確性。當偏差存在時,噪聲增多反而可能歪打正著,比如D隊的情況。當然沒有組織愿意靠運氣取勝。噪聲通常不受歡迎,有時甚至具有災(zāi)難性。
顯然,弄清員工決策時的偏差和噪聲情況,對組織幫助很大,但很難直接收集相關(guān)信息。在評估這些差錯時會出現(xiàn)不同問題。其中一大問題是,決策帶來的結(jié)果只有在未來才能看到(如果產(chǎn)生了結(jié)果的話)。比如信貸員往往要在數(shù)年后才能發(fā)現(xiàn)他們批準的貸款結(jié)果如何。他們幾乎從不知道自己拒絕申請者的后續(xù)情況。
“噪聲”審查
噪聲審查的意義不在于出報告,目的是提高決策質(zhì)量。只有部門leader能夠接受不理想的結(jié)果,并有所行動時,審查才能成功。如果高管能將這種調(diào)查看作自己的分內(nèi)事,目標更易達成。
近期,我們幫助兩家金融服務(wù)機構(gòu)進行了噪聲審查。我們研究的兩個團隊擁有非常不同的職責(zé)和專業(yè)知識,但它們都需要評估較為復(fù)雜的材料,決定往往涉及數(shù)十萬美元。我們在兩家機構(gòu)中都遵循了同樣規(guī)則。
首先,我們讓相關(guān)專業(yè)團隊的負責(zé)人整理出若干個現(xiàn)實項目的文件以供評估。為防止實驗信息外泄,整個過程在同天完成。員工被要求用半天時間分析2到4個項目。他們將按常規(guī)估算出每個項目的錢數(shù)。為防止串通,參與者不知道本調(diào)查與可靠性有關(guān)。。
我們?yōu)槊總€項目設(shè)計了噪聲指數(shù),對下面這個問題做出了解答:“兩個隨機選擇的員工做出的判斷相差多大?”我們將該差異量化為他們平均值的百分比。比如兩個員工對同一項目的估值為600美元和1000美元,他們估算的平均值就是800美元,他們估值的差距是400美元,所以兩人的噪聲指數(shù)就是50%。我們用同樣方法計算了所有員工配對的估值,然后計算出了每個項目的平均噪聲指數(shù)。
審查前的訪問中,兩家機構(gòu)的高管表示他們預(yù)計專業(yè)員工決策的差異在5%到10%左右——關(guān)乎判斷力,他們認為這個范圍可以接受。但結(jié)果令人震驚。A機構(gòu)6個項目的噪聲指數(shù)從34%到62%不等,平均為48%。機構(gòu)B的4個項目噪聲指數(shù)為46%到70%,平均為60%??赡芰钊耸氖牵ぷ鹘?jīng)驗并沒有降噪的作用。在具有5年或以上工作經(jīng)驗的專業(yè)員工中,平均差異為:A機構(gòu)46%,B機構(gòu)62%。
沒有人想到結(jié)果如此。但因為他們對該審查負責(zé),兩個機構(gòu)的高管都接受了結(jié)論:專業(yè)員工的判斷不可靠,且無法容忍其嚴重程度。所有高管很快同意,采取措施控制局面。因為審查結(jié)果與之前對專業(yè)判斷不可靠的研究結(jié)果一致,我們并未感到驚訝。我們主要困惑的是,兩個機構(gòu)之前都沒有意識到可靠性的問題。
在商業(yè)世界其實幾乎沒人關(guān)注噪聲問題;我們發(fā)現(xiàn),專業(yè)判斷力被作為問題提出,讓受眾很驚訝。是什么讓公司沒有意識到員工的判斷力有噪聲呢?答案能從兩個常見現(xiàn)象中找到:富有經(jīng)驗的專業(yè)員工對自己的判斷信心足;對同事的專業(yè)水平評價也很高。這兩點加起來,導(dǎo)致對共識估計過高。
當被問及同事的想法時,專業(yè)員工預(yù)計,其他人的判斷和自己差不多,實際遠非如此。當然多數(shù)情況下,有經(jīng)驗的專業(yè)員工不關(guān)心其他人的想法,默認自己給出的是答案。噪聲隱于無形的一個原因是,人們在生活中不會去思考他們做出每個決策的可行替換選項。
期待他人同意你的意見有時是合理的,尤其是當判斷力十分老練,成為一種本能的時候。比如,高段位的象棋手和司機經(jīng)過練習(xí),判斷可近乎。大師級棋手評判棋局,會對當前形勢給出類似的判斷,比如白方皇后有危險,或者黑方國王防守薄弱。駕駛也同理,如果我們不默認周圍的司機和我們在路口和環(huán)島做出的判斷一致,無法想象交通會有多么危險。達到高度的技術(shù)鮮有或沒有噪聲。達到象棋和駕駛的高水平技術(shù)須在可預(yù)測的環(huán)境中練習(xí)多年,做出的行動須及時和清晰的回應(yīng)。
可遺憾的是,專業(yè)人士很難有這樣的行動環(huán)境。多數(shù)工作中,人們學(xué)習(xí)判斷的渠道來自上級和同事的解釋和評論——與從自己的錯誤中學(xué)習(xí)相比,可靠度大打折扣。長期工作經(jīng)驗總會增加人們對判斷的自信,但如果沒有迅速反饋,自信不能保證準確或達成共識。
一言以蔽之,只要做出判斷,就會產(chǎn)生噪聲,而且噪聲往往比你想象得嚴重。一般來說,專業(yè)員工和他們的leader都無法準確估測出他們判斷力的可靠性。獲得準確評估的辦法是進行噪聲審查。至少在有些情況下,噪聲嚴重到了需要采取行動的地步。
降低噪音
解決噪聲根本的辦法是,以正式規(guī)則“算法”,來取代人工判斷。算法利用項目相關(guān)數(shù)據(jù)進行預(yù)測或決策。
過去60年間,人們在數(shù)百場競賽中比拼算法的準確性,競賽題目從預(yù)測癌癥病人壽命到畢業(yè)生成功率。在大約一半的研究中,算法比人類專家更準確,而在另一半研究中與人類平手。即便是平手,實際上也說明算法勝出,因為它性價比更高。
當然很多情況下,算法并不實際。當輸入數(shù)據(jù)異常,或很難形成統(tǒng)一形式的編碼時,規(guī)則就很難應(yīng)用。如果判斷或決策涉及多層面或者需要與另一方談判,也不太適合應(yīng)用算法。即使當原則上可以應(yīng)用算法時,組織出于種種考慮,有時也不愿實施算法。以軟件取代現(xiàn)有員工的過程十分痛苦,除非被取代的員工有更享受的工作可做,不然他們會抵制算法。
但在條件合適時,開發(fā)和實施算法驚人的簡單。常見的看法是,算法需要對大量數(shù)據(jù)進行統(tǒng)計分析。例如,我們訪問的大多數(shù)人認為,開發(fā)預(yù)測商業(yè)貸款違約的公式,需要數(shù)千份貸款申請及其結(jié)果的數(shù)據(jù)。但很少有人知道,不需要任何結(jié)果數(shù)據(jù),只需少量項目的輸入信息,就能開發(fā)出足夠的算法。因為基于常識性論證,我們將這種不需要結(jié)果數(shù)據(jù)的預(yù)測性公式稱為“論證規(guī)則”(reasoned rules)。
制定論證規(guī)則首先要選擇若干(約6到8個)肯定與預(yù)測結(jié)果相關(guān)的變量。如果得出結(jié)果是貸款違約,資產(chǎn)和負債要包括在變量中。下一步是直接在預(yù)測公式中賦予這些變量同樣權(quán)重,確定它們明顯的方向(比如資產(chǎn)是有利的,負債是不利的)。然后就可以通過幾種簡單計算,制定規(guī)則。
大量研究得出了驚人結(jié)論:很多情景下,論證規(guī)則與利用結(jié)果數(shù)據(jù)形成的統(tǒng)計模型準確性相當。標準統(tǒng)計模型集合預(yù)測性變量,這些變量的權(quán)重由它們與所預(yù)測結(jié)果的關(guān)系,以及變量彼此間的關(guān)系決定。然而很多情況下,這些權(quán)重統(tǒng)計上既不穩(wěn)定,現(xiàn)實中也不重要。將權(quán)重平均分給所選變量的簡單規(guī)則依舊有效。為各變量平均分配權(quán)重,而且不依靠結(jié)果數(shù)據(jù)的算法在很多應(yīng)用領(lǐng)域都被證實成功,例如人員選拔、大選預(yù)測、足球賽預(yù)測等等。
總之,如果你計劃利用算法降噪,那么不需要等待結(jié)果數(shù)據(jù)出來。利用常識選擇變量,并遵照可能的簡單規(guī)則組合變量,就能大有收獲。
當然,無論應(yīng)用哪種算法,人需要掌握控制權(quán)。算法需要隨項目數(shù)量進行監(jiān)督和調(diào)整。管理者還要留意個人決定,并在局勢很清晰時具有否決算法。重要的是,高管應(yīng)該決定如何把算法的結(jié)果轉(zhuǎn)化為行動。算法能告訴你,所有申請中,哪些候選貸款是前5%,哪些是末10%,但需要有人決定怎么處理這些信息。
對拍板的專業(yè)員工而言,算法有時是一種信息的中間來源。例如,public safety assessment公式被開發(fā)用來幫助美法官決定在等待審判期間被告能否被保釋。在肯塔基州使用該公式的6個月內(nèi),審前釋放被告的犯罪率降低了15%,而審前釋放的人數(shù)百分比增加了。這里顯然人類法官要有決定權(quán):如果公正交由公式?jīng)Q定,輿論肯定嘩然。
盡管這個建議可能令人不適,但研究顯示,人類雖然能為公式提供有用信息,但算法在決策上表現(xiàn)更佳。如果避免差錯是評判標準,應(yīng)強烈建議管理者,只有在極其特殊情況下,才能否決算法的結(jié)論。
建立判斷規(guī)則
任何專業(yè)判斷產(chǎn)生噪聲時,都應(yīng)考慮以算法取代人工決策。但在多數(shù)情況下,這種辦法太極端,或者不現(xiàn)實。替代方法之一是,采取改善一致性的流程,其手段是:保證職責(zé)相同的員工使用類似方法尋找信息,將信息整合到項目概念中,并將概念轉(zhuǎn)化為決策。
培訓(xùn)無疑至關(guān)重要,但經(jīng)過集體培訓(xùn)的專業(yè)員工可能放任自己,自說自話。為避免類似放任,公司有時組織圓桌會議,把決策者聚在一起審查項目。遺憾的是,多數(shù)圓桌會議的組織方式過于簡單,以至于很難達成一致,因為與會者很快會一邊倒向首先提出的意見或自信發(fā)言者的意見。為防止這種“偽共識”,每名圓桌與會者都應(yīng)該獨立研究項目,形成他們要辯護的意見,然后在會議前就把意見提交給團隊leader。這樣的圓桌會議才能有效提供噪聲審查,還可以增添小組討論環(huán)節(jié),讓大家探討不同意見。
作為圓桌會議的替代或補充選項,應(yīng)該給專業(yè)員工提供方便使用的工具,比如清單和仔細設(shè)計的問題,以便指導(dǎo)他們收集項目信息,做出中間判斷,并做出決定。每一階段中都會發(fā)生的變數(shù),公司能夠也應(yīng)該測試出工具能降噪的程度。
如今,公眾對“偏差”這個術(shù)語的了解程度,還停留在認為它和“差錯”能夠互換。而“噪聲”比偏差還要難理解得多,但并不鮮見,企業(yè)為之付出的代價也不會更少。(劉錚箏 |譯 王晨 |校 鈕鍵軍 |編輯)
丹尼爾 ·卡內(nèi)曼是普林斯頓大學(xué)尤金 ·希金斯心理學(xué)榮譽退休教授。他因與阿莫斯 ·特沃斯基(Amos Tversky)合著關(guān)于認知偏差的研究,在2002 年獲得諾貝爾經(jīng)濟學(xué)獎。安德魯 ·羅森菲爾德是The Greatest Good Group(TGG集團)CEO 和執(zhí)行合伙人。琳娜 ·甘迪和湯姆 ·布萊澤是TGG 集團董事總經(jīng)理。
公司名稱:陜西宏興物流快運有限公司
公司地址:西安市未央?yún)^(qū)豐產(chǎn)路相家巷東26號宏興物流園
大宗業(yè)務(wù)電話:86693300 (多線電話)
業(yè)務(wù)電話:84629119、89107773
投訴:84629118
公眾號 | 手機站 | 小程序 |