-
人工智能與媒體未來(lái)|當(dāng)昔日的碼農(nóng)對(duì)資深媒體人發(fā)表演講,他沒(méi)說(shuō)出的才可怕
關(guān)鍵字: 今日頭條今日頭條的算法新媒體革命一點(diǎn)資訊今日頭條艾瑞咨詢天天快報(bào)深入透視頭條的算法
我注意到今日頭條在拉勾網(wǎng)打出一個(gè)百萬(wàn)美元年薪的廣告,招募算法架構(gòu)師,要求擅長(zhǎng):貝葉斯學(xué)派相關(guān)算法,超大規(guī)模離散LR,深度神經(jīng)網(wǎng)絡(luò),各種tree-based的算法等。其他算法工程師崗位要求大同小異。
這些在技術(shù)人士眼中并不特別,很多IT公司必備,多和概率統(tǒng)計(jì)學(xué)有關(guān)。比如貝葉斯算法,常用的郵件客戶端上就有出現(xiàn)。
Foxmail截圖(所以張小龍他也是很精通貝葉斯算法的)
我想盡我所能簡(jiǎn)單介紹一下這位百萬(wàn)年薪工程師具備的算法知識(shí),不從數(shù)學(xué)專業(yè)角度(專業(yè)角度我也不懂),而是從用戶角度思考“算法想要什么”。
算法如何閱讀新聞
以招聘啟事中的tree-based算法為例。為了處理信息,算法的初始訴求往往是對(duì)海量信息做分類聚合。人類眼中的詞匯在它眼里都是參數(shù)(維度),一千個(gè)不同詞匯組成的一篇文章就是一千個(gè)維度組成的一個(gè)向量。然后機(jī)器在代數(shù)世界里衡量不同向量的相似度——簡(jiǎn)單向量距離分類法、貝葉斯算法、KNN(K最近鄰居)算法、線性回歸、邏輯回歸……
維度太多,于是算法進(jìn)化了,不再把每個(gè)詞當(dāng)作維度,而是把html代碼里的節(jié)點(diǎn)標(biāo)記(DOM)作為維度,這樣就大大減少了維度個(gè)數(shù)。人類看見(jiàn)的標(biāo)題、文字、圖片,被代碼放在不同的DOM節(jié)點(diǎn)里,比如head,比如body,比如TR、TD(表示表格的代碼),構(gòu)成樹(shù)狀結(jié)構(gòu)。算法以這些節(jié)點(diǎn)為維度,用各種算法對(duì)比不同的文檔異同——k means(硬聚類)算法,minimax(極小化極大算法)……再進(jìn)一步,引入圖論范疇的模式樹(shù),就有了更高級(jí)的tree-based算法。
下圖是個(gè)常見(jiàn)的html dom展示,不需要看懂,只要了解機(jī)器眼中的文章是什么樣子。
算法五花八門,我說(shuō)的也不準(zhǔn),主要看氣質(zhì)——算法這個(gè)孩子不知道新聞?wù)f了什么,只知道哪些新聞是同類,哪些是熱點(diǎn)(點(diǎn)的人多當(dāng)然就是熱點(diǎn),機(jī)器可以通過(guò)一種“組合”算法來(lái)判斷,可以參見(jiàn)南京大學(xué)新聞傳播學(xué)院助理研究員、奧美數(shù)據(jù)科學(xué)實(shí)驗(yàn)室主任王成軍的文章《“今日頭條”怎么計(jì)算:“網(wǎng)絡(luò)爬蟲(chóng)+相似矩陣”技術(shù)運(yùn)作流程》)。文章標(biāo)簽、關(guān)鍵詞等也起到作。
算法匹諾曹的行為很有趣,好像在努力用各種辦法躲避對(duì)內(nèi)容靈魂本身的認(rèn)知,只通過(guò)外貌的形式特征去猜內(nèi)容的相關(guān)度。
算法如何研究讀者
讀者身上沒(méi)有關(guān)鍵詞,沒(méi)有標(biāo)簽,算法如何把握?數(shù)學(xué)家們有辦法,貝葉斯算法就是一種。
經(jīng)典的貝葉斯問(wèn)題在小學(xué)奧數(shù)里就有(美劇《生活大爆炸》里也有):假如分別有A、B兩個(gè)口袋,口袋A里有7個(gè)紅球和 3個(gè)白球,口袋B里有1個(gè)紅球和9個(gè)白球,現(xiàn)從這兩個(gè)口袋里任意抽出了一個(gè)球,且是紅球,問(wèn)這個(gè)紅球是來(lái)自容器A的概率是多少?
(圖片來(lái)自“機(jī)器之心”網(wǎng)站)
讓我們換一個(gè)更具新聞性的表達(dá)方式:假如已知韓國(guó)5年發(fā)射一次衛(wèi)星且每次爆炸失敗率是60%,朝鮮2年發(fā)射一次衛(wèi)星且每次爆炸失敗率是40%?,F(xiàn)在從朝鮮半島傳來(lái)一聲衛(wèi)星發(fā)射失敗爆炸的巨響,請(qǐng)問(wèn)這枚火箭來(lái)自朝鮮的概率是多少?
根據(jù)貝葉斯公式【P(B|E) = P(B) × P(E|B) / P(E))】就可以推導(dǎo)出這個(gè)概率來(lái),也就是逆向計(jì)算概率。恰好頭條自己提供了一個(gè)范例:
2015年10月,在中國(guó)傳媒大學(xué)新媒體研究院和今日頭條聯(lián)合舉辦的“洞見(jiàn)數(shù)據(jù)的力量——電視媒體高峰論壇”上,一位叫做安娜的女士說(shuō):
“頭條有個(gè)獨(dú)特的算法能推算用戶的年齡,即使你沒(méi)在頭條訂閱。系統(tǒng)根據(jù)已確定年齡人群的動(dòng)作、特點(diǎn)和興趣做了一個(gè)模型,由協(xié)同原則判斷讀者是否符合這個(gè)模型,這時(shí)機(jī)器先預(yù)判是否為該年齡段的用戶,同時(shí)機(jī)器再根據(jù)你的閱讀動(dòng)作最終確定年齡段?!?span>
這個(gè)獨(dú)特的算法可能就是貝葉斯算法(當(dāng)然也許不止一種算法,比如也可能存在專門用于挖掘不同數(shù)據(jù)集合間關(guān)聯(lián)性的Apriori算法等)。我猜想算法架構(gòu)師會(huì)預(yù)先根據(jù)心理學(xué)、社會(huì)學(xué)統(tǒng)計(jì)數(shù)據(jù)以及以往讀者點(diǎn)擊數(shù)據(jù),構(gòu)建一個(gè)用概率來(lái)描述的人格特征模型,比如男性模型的特征之一是在閱讀新聞時(shí)點(diǎn)擊軍事新聞的概率是40%,而女性模型是4%。一旦一個(gè)讀者點(diǎn)擊了軍事新聞,算法就開(kāi)始逆推TA的性別,加上TA點(diǎn)擊其他新聞的行為數(shù)據(jù),綜合計(jì)算,就能比較準(zhǔn)確地判斷TA的性別。綜合ip地址(地理信息)、點(diǎn)擊時(shí)間、評(píng)論參與、點(diǎn)贊行為這些明確的信息,就能區(qū)分出不同讀者的取向、興趣。
如果我們回看商業(yè)史,就會(huì)看到這樣的算法精神一直孕育在資本主義消費(fèi)市場(chǎng)之內(nèi)。歐美的商業(yè)家們?cè)缇驮谧粉櫹M(fèi)者的喜好數(shù)據(jù),沃爾瑪超市里的商品就是典型,什么商品放在什么位置都是有講究的,大賣場(chǎng)長(zhǎng)期跟蹤用戶在商場(chǎng)里的行為和銷售數(shù)據(jù),入口處堆放的商品就好比新聞首頁(yè)推薦的頭條。一開(kāi)始是通過(guò)人工記錄、報(bào)表分析,有了攝像頭,就可以分析錄像中顧客的行動(dòng)軌跡?;ヂ?lián)網(wǎng)推薦技術(shù)則使得這種跟蹤細(xì)化到了個(gè)人。
原理不難理解,但做起來(lái)考驗(yàn)智慧和耐心。同時(shí),算法面臨著自己的巨大困境:
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 請(qǐng)支持獨(dú)立網(wǎng)站,轉(zhuǎn)發(fā)請(qǐng)注明本文鏈接:
- 責(zé)任編輯:藏劍
-
“英美貿(mào)易協(xié)議這項(xiàng)‘毒丸’條款,中方狠批” 評(píng)論 108“不被特朗普唬住,中國(guó)打了個(gè)樣” 評(píng)論 119“顯然特朗普先退一步,雖尷尬但有用” 評(píng)論 77歐盟深吸一口氣:這也太荒謬了 評(píng)論 238陣容龐大!關(guān)鍵時(shí)刻,拉美伙伴“力挺”中國(guó) 評(píng)論 91最新聞 Hot
-
“英美貿(mào)易協(xié)議這項(xiàng)‘毒丸’條款,中方狠批”
-
眼瞅著中美談成了,日本心里急啊…
-
日本:民間飛機(jī)別在釣魚(yú)島飛了,不要“刺激中國(guó)”
-
特朗普宣布解除對(duì)敘利亞制裁:祝好運(yùn)
-
“不夠啊,巴西還是比美國(guó)有優(yōu)勢(shì)”
-
特朗普喊話鮑威爾:像歐洲、中國(guó)那樣降息
-
被戳痛點(diǎn),印方火速打臉特朗普
-
普京:烏克蘭像抓狗一樣在街頭抓人
-
印巴相互驅(qū)逐一名外交官
-
百萬(wàn)粉絲網(wǎng)紅對(duì)5歲女孩開(kāi)黃腔,已被封禁
-
法國(guó)知名影星德帕迪約被判犯性侵罪
-
非法占地50多畝,汕頭違建豪宅“英之園”被責(zé)令拆除
-
美凱龍董事兼總經(jīng)理車建興,被留置
-
“不被特朗普唬住,中國(guó)打了個(gè)樣”
-
“特朗普已經(jīng)毀掉了圣誕節(jié)”
-
特朗普突然提“統(tǒng)一”,臺(tái)當(dāng)局緊急回應(yīng)
快訊- 125%→10%、24%稅率暫停90天,對(duì)美關(guān)稅開(kāi)始調(diào)整
- 國(guó)臺(tái)辦:民進(jìn)黨當(dāng)局刻意刁難大陸配偶 這是不折不扣的政治迫害
- 盧拉:與中國(guó)走近,不害怕特朗普?qǐng)?bào)復(fù)
- 報(bào)告:DeepSeek使用率下降一半,快手可靈登頂視頻組
- 中俄就共建月球核電站簽署合作備忘錄
- 賴清德稱臺(tái)灣同日本關(guān)系“像家人” ,國(guó)臺(tái)辦:背叛民族令人不齒
- “好萊塢都是騙人的,真后悔…”
- 金利來(lái)私有化“告吹”,中國(guó)男裝市場(chǎng)正在面臨結(jié)構(gòu)性困境
-