智能數(shù)據(jù)夠收斂并且取得很好的效果 |
最近幾年談到大規(guī)模機器學習的框架,經(jīng)常被提起的是Parameter Sever,它是為了解決超大規(guī)模、超大維度吸收數(shù)據(jù)的機器學習的問題。因為它很簡單,就分成了Parameter Sever和worker兩組的節(jié)點。Parameter Sever可以把模型分布式在各個節(jié)點上,每個Work去進行算法的局部訓練,然后同步地去跟Parameter Sever來更新模型或者獲取**的模型。這種模式,如果是稠密數(shù)據(jù),比如有億維度數(shù)據(jù)是密的,肯定是不可行的。為什么呢?因為中間的通信會變得非常龐大。幸運的是超大規(guī)模機器學習的問題一般是稀疏的,所以目前Parameter Sever解決大規(guī)模機器學習最關注的一個方向。
市面上開源的大規(guī)模機器學習的框架并不是特別多或特別成熟。比如基于Hadoop Map Reduce Mahout,有很大的問題,效率很低。我曾經(jīng)跑過一個算法,在幾百臺機器上花了50分鐘,數(shù)據(jù)是100+G,找了大內存機器去跑,自己寫了一個算法5分鐘就跑完了。實際上,基于Hadoop來做機器學習的效率非常低。后來Spark出現(xiàn)了,各種機制、調度比Hadoop更加優(yōu)化一點。所以MLLib里面算法的效率是大大高于基于Hadoop的算法的效率。Graph-Basc有一個項目是Graphlab,后來基于Graphlab成立了一個公司叫Dato, 前幾個月剛改名Turi,剛剛被蘋果收購了。Parameter Sever開源的有ps-Lite,這個項目我們也做過一些調研,發(fā)現(xiàn)它總體來說是比較輕量級的框架,但是對于實際應用上來說,可能還不夠完善。另外一個是Petuum,在機器學習界很多人應該也知道它,我們現(xiàn)在也在跟他們在談一些合作,看看怎么把Petuum真正帶到實際應用中來。
我們現(xiàn)在要反思一下,我們看到前面的大規(guī)模機器學習解決的路徑是什么?基本上是在考慮如何能夠更好地并行,提高并行的效率。然后通過增加機器,計算能力和內存資源來解決計算的瓶頸。 但是大規(guī)模機器學習的計算瓶頸是算法本身造成的問題,一個是計算量跟數(shù)據(jù)量的超線性增長帶來的,一個是多次迭代帶來的。如果我們的算法能夠解決這兩個問題,在進行大規(guī)模機器學習的時候,對系統(tǒng)的壓力會減輕很多。我們的理想算法是什么樣子的?是線性算法,而且**是迭代一次就能夠收斂并且取得很好的效果。
本文來源:http://www.chinapex.com.cn/news/company-news
智能數(shù)據(jù)運算時間也是有很大的優(yōu)勢
在這一塊,我們也做了很多的研究工作。之前我在IBM做機器學習研究的時候,看到了一個很有意思的算法,就是范偉博士在2003年提出來的隨機決策樹的算法。這個算法跟一般的決策樹或隨機決策樹有很大的不同,每一顆樹的構建過程是完全隨機的,隨機構建空樹以后,把數(shù)據(jù)灌進去,然后統(tǒng)計每個節(jié)點的分布。預測的時候,每個樹給出一個正常的預測過程,給出一個預測的概率,然后把多顆樹的結果做平均就可以了。我在2010年對算法的復雜度做過一些分析,應該說這是一個線性的算法,計算了跟數(shù)據(jù)量增長呈線性關系。
而且通常在單機上測的話比決策樹速度要快兩個數(shù)量級以上,通常跑的更精準,而且更不容易over fitting,算是比較好的base line算法。但是也有一個問題,因為樹結構的算法,并行化是比較困難,單機上比較好實現(xiàn)。怎么在構建的過程中同步樹的狀態(tài),其實是非常麻煩的事情。
我們后來基于對隨機決策樹理論的研究,發(fā)現(xiàn)其實隨機決策樹起作用的不是因為用了決策樹這個結構。其實隨機決策樹起到的作用,僅僅是把數(shù)據(jù)隨機打散,每一個數(shù)據(jù)是不同的打散方式。我們想著用局部敏感哈希來代替樹的功能,就提出了隨機決策哈希的算法。這個文章發(fā)表在了2015年KDD的Bigmine Workshop上面。我們看看這兩個算法的精度跟傳統(tǒng)的算法的精度,后面三個分別是決策樹, SVM和Logistc Regression我們可以看到精度上面,這兩個都有比較大的優(yōu)勢。而且和傳統(tǒng)的算法相比,運算時間也是有很大的優(yōu)勢。
本文來源:http://www.chinapex.com.cn/news/company-news
資訊來源:http://www.chinapex.com.cn/news/company-news
|
友情提示:
信息由用戶自行發(fā)布,如果發(fā)現(xiàn)錯誤或不符合法規(guī)或造成侵權,請及時通知本站更正或刪除,具體聯(lián)系方式見頁面底部聯(lián)系我們,謝謝。 |
當前頁在本站[名站在線]7天內點擊次數(shù)(點擊次數(shù)為零的日期不顯示): |
信息評估: |
(還沒有網(wǎng)友對該信息作出評估,你想為該信息提供第一個評估嗎?) |
污水處理知多少污水處理工崗位應知應會
應把握的根本常識
污水與污泥處理是分不開的,污水處理工要做到“四懂四會”。
“四懂”
☆懂污水處理的根本常識,
☆懂污水處理場內各構筑物的效果和管理方法,
☆懂污水處理場內各種管道的散布和運用方法,
☆懂污水處理系統(tǒng)分析化驗目標的意義及其運用。
“四會”
☆會合理配水配泥,
☆會合理調度空氣,
☆會準確回流與排放污泥,
☆會掃除運轉中的常見故障。
初級工“應知應會”水平規(guī)范
常識請求...A50L-0001-0260/SA50L-0001-0260/S電話021-61994515189641897981376432116715021620388
工業(yè)自動化**代理,工業(yè)自動化全國總代理現(xiàn)貨特價代理
吳先生021-60486253021-61994515021-60488026021-60529741
021-3701057915316378289
1530170097815316601659153163782381531737298915316361738
153163728871531636173813764321167189641897981531639327813331940519
扣扣604883516983036640113843769311987450464165280521287700751914897162649211700...A50L-0001-0261#SA50L-0001-0261#S電話021-61994515189641897981376432116715021620388
工業(yè)自動化**代理,工業(yè)自動化全國總代理現(xiàn)貨特價代理
吳先生021-60486253021-61994515021-60488026021-60529741
021-3701057915316378289
1530170097815316601659153163782381531737298915316361738
153163728871531636173813764321167189641897981531639327813331940519
扣扣604883516983036640113843769311987450464165280521287700751914897162649211700...A50L-0001-0261/AA50L-0001-0261/A電話021-61994515189641897981376432116715021620388
工業(yè)自動化**代理,工業(yè)自動化全國總代理現(xiàn)貨特價代理
吳先生021-60486253021-61994515021-60488026021-60529741
021-3701057915316378289
1530170097815316601659153163782381531737298915316361738
153163728871531636173813764321167189641897981531639327813331940519
扣扣604883516983036640113843769311987450464165280521287700751914897162649211700...北辰區(qū)安裝玻璃隔斷現(xiàn)場制作13622075272天津富皇門窗公司集產(chǎn)品研發(fā)、設計、生產(chǎn)、銷售、安裝、售后服務為一體的規(guī)模企業(yè)。公司生產(chǎn)的成品隔斷具有隔音、防火、環(huán)保等性能,并具有高端的技術含量。本產(chǎn)品廣泛應用于醫(yī)院、賓館、銀行、會議室、接待室、公司辦公場所、政府辦公樓等多種場合本系列隔斷產(chǎn)品以鋼化玻璃、背漆玻璃、防火板、布飾面板、石膏板等多種材料制成的模板墻體,內芯及框架均由鋁鎂合金制成,具有隔音、環(huán)保、防潮、耐震等多種功能。在布局、...
|
|
|
|
|