智能公交一卡通極大地方便了人們的出行,研究人員又在開發(fā)它的新功能:抓小偷!他們在北京測試了這種大數(shù)據(jù)挖掘方法,結(jié)果成功地“驗(yàn)證”了近93%的小偷。
美國羅格斯大學(xué)熊輝教授等人日前在舊金山舉行的知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘大會(huì)上報(bào)告了這一成果。其原理如下:絕大多數(shù)乘客乘坐公交車或地鐵出行時(shí),會(huì)選擇最優(yōu)出行方案,要么用時(shí)最短,要么換乘次數(shù)最少;但有極少數(shù)人的乘車路線很奇怪,比如會(huì)繞行一大圈或者突然改變乘車路線,沒有什么規(guī)律可言,如果某人的異常行為足夠多,那么他有可能是小偷。
道理看似簡單,但要找到真正的小偷難度不小。研究人員指出,自動(dòng)售檢票系統(tǒng)收集了數(shù)百萬名乘客的海量出行記錄,其中只有很少部分人可能是小偷,在如此大規(guī)模的數(shù)據(jù)中識(shí)別出這么一小群人無異于大海撈針。
為此,研究人員通過兩個(gè)步驟分析了北京市2014年4月至6月間約16億次公交卡刷卡數(shù)據(jù)記錄,共涉及約600萬名乘客。第一步,他們把北京劃分為居住、工作、教育、購物、娛樂、醫(yī)療等多個(gè)小功能區(qū)塊,建立起包括896條公交路線、近4.5萬個(gè)公交車站與18條地鐵路線、320個(gè)地鐵站的公共交通網(wǎng)絡(luò)數(shù)據(jù)集,通過數(shù)據(jù)建模從龐大的公交卡記錄中過濾掉普通乘客;第二步,結(jié)合從警方報(bào)告和微博上收集到的失竊信息,通過機(jī)器學(xué)習(xí)算法從異常出行信息中挖掘出潛在的小偷。
結(jié)果顯示,如果以后來確認(rèn)的小偷驗(yàn)證,按上述方法可以歸為“行為異!钡臏(zhǔn)確率高達(dá)92.7%。但是反過來的精度有點(diǎn)低:每篩選出14個(gè)“行為異!钡目梢烧,只有1人后來被確認(rèn)為小偷。
盡管如此,熊輝認(rèn)為,使用閉路攝像頭監(jiān)控少部分可疑者遠(yuǎn)比追蹤數(shù)以百萬計(jì)的乘客更高效。但是如果小偷頻繁換用公交卡呢?他說,就算換卡也有辦法,比如小偷經(jīng)常團(tuán)伙活動(dòng),這也是一個(gè)明顯的特征。
也有專家對這種技術(shù)表示質(zhì)疑。英國《經(jīng)濟(jì)學(xué)人》雜志援引倫敦交通局首席技術(shù)官沙!ぞS爾馬的話說,從倫敦的有關(guān)記錄看,大量普通乘客出行時(shí)也會(huì)有各種“怪異、精彩、復(fù)雜”的行為,要從海量乘客中篩選出極少數(shù)罪犯不像聽起來那么容易。