GPT-4取代數(shù)據(jù)分析師?
夢晨 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI
【資料圖】
GPT-4替代初級數(shù)據(jù)分析師的成本只有0.71%,換成高級數(shù)據(jù)分析師則是0.45%……
你沒看錯,是百分之零點七一,不是百分之七十一。
按新加坡行情,年薪 8.6萬-9萬美元(60-63萬人民幣) 的高級數(shù)據(jù)分析師,換成GPT-4就只需要 三四百美元(2000多人民幣) 了。
這項結論來自 阿里達摩院 與 新加坡南洋理工大學 的新論文,被網(wǎng)友評價為對AI和數(shù)據(jù)分析領域感興趣的必讀論文。
具體來說,結論中高級分析師指在金融行業(yè)擁有多年工作經驗的數(shù)據(jù)分析師。
而GPT-4的表現(xiàn),在大多數(shù)指標上能 與一位6年工作經驗的人類相當 ,正確性低于人類,但復雜性和一致性指標高于人類。
在與另一位5年工作經驗的分析師對比中,GPT-4在信息的正確性、圖表的美觀性、洞察的復雜性等方面輸給人類。
如果與2年工作經驗的初級分析師對比,GPT-4在正確性上表現(xiàn)更好,而且能完成更多的工作。
但GPT-4完成所有類型的任務都要比人類快得多。
在假設每個月有21個工作日,每天8小時工作時間,按市場價支付工資的前提下,得出最終結論。
GPT-4當數(shù)據(jù)分析師,都能干什么
論文重點考察了GPT-4作為數(shù)據(jù)分析師的以下幾種能力:
生成SQL和Python代碼 執(zhí)行代碼獲得數(shù)據(jù)和圖表 從數(shù)據(jù)和外部知識源中分析數(shù)據(jù),得出結論200個樣本的實驗表明,對于 繪制圖表任務 ,GPT-4能夠理解指令含義,且對圖表類型有一定背景知識,從而繪制出正確的圖表。
圖表大部分清晰可見,沒有任何格式錯誤,圖標的美觀性指標滿分3分,GPT-4平均得分2.73。
但手工檢查還是能發(fā)現(xiàn)一些小錯誤,圖表準確性指標滿分1分,GPT-4平均得分0.78。
論文中特別說明他們的評估標準非常嚴格,只要x軸或y軸的任何數(shù)據(jù)或任何標簽有錯誤,都要扣分。
對于 數(shù)據(jù)分析任務 ,GPT-4在一致性和流暢性中平均得到滿分,驗證了生成流暢且語法正確的句子對GPT-4來說絕對不是問題。
有意思的是,到了數(shù)據(jù)分析這一步的準確性要比圖表信息的準確性高得多,說明盡管GPT-4畫了錯誤的圖表但分析出了正確的結論。
在案例分析中,研究團隊還總結出三條GPT-4與人類數(shù)據(jù)分析師的主要區(qū)別:
人類分析師可以用個人思想和情感來表達 ,比如在分析時寫“令人驚訝的是……”;人類讀者容易從這樣的表述中理解數(shù)據(jù)是符合預期還是不正常的。 人類分析師傾向于結合背景知識得出結論 ,如寫到“……常見于……”;GPT-4通常只關注提取到的數(shù)據(jù)本身,允許GPT-4上網(wǎng)搜索實時在線信息可以改善這一點。 當提供見解或建議時, 人類分析師傾向于保守 ,如聲明“假如數(shù)據(jù)沒有問題的話……”;GPT-4會以自信的語氣直接給出建議,不會提及假設。另外團隊表示,由于預算有限,主要是雇一個來與GPT-4對比的高級分析師太貴了,人工評估和數(shù)據(jù)標注的數(shù)量相對較少。
在最后的結論則是:
實驗結果和分析表明,GPT-4在數(shù)據(jù)分析上有與人類相當?shù)男阅埽欠窨梢匀〈鷶?shù)據(jù)分析師需要近一步研究才能得出結論。
論文: https://arxiv.org/abs/2305.15038
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態(tài)
標簽:
- 01 河南瓦店遺址發(fā)現(xiàn)夏代早期大型祭祀遺跡
- 02 河南省人民政府關于印發(fā)河南省深化普通高等學??荚囌猩C合改革實施方案的通知
- 03 河南省十三屆人大常委會第三十三次會議舉行
- 04 全國疫情最新消息|6月27日新增本土確診1例、本土無癥狀21例
- 05 6月27日河南無新增本土確診病例、無癥狀感染者
- 06 點贊!河南省政府通報表揚這15個單位
- 07 旱情得到緩解!河南省7月上旬前將轉為多雨期
- 08 樓陽生在全省防汛視頻調度會上強調 始終不麻痹不僥幸不猶豫不懈怠 以保過程降雨安全保汛期安全 王凱出席
- 09 鄭州:8所民辦初中計劃29日進行電腦派位
- 010 河南瓦店遺址發(fā)現(xiàn)夏代早期大型祭祀遺跡