摘要:聚類是機器學習領域的一個重要研究方向,在過去幾十年間,針對不同類型中小規(guī)模數據集聚類算法的研究取得了很大的進展,許多行之有效的算法先后問世.然而,這些算法在處理大規(guī)模數據集時,計算復雜度較高,處理高維數據的能力較弱,難以獲得令人滿意的效果.隨著大數據時代的到來,數據的采集和存儲變得相對容易和便捷,但數據量也與日俱增,因此,針對各種實際應用的聚類問題應運而生,使得專門針對大規(guī)模數據集的聚類算法研究成為當前機器學習領域的重要任務之一.本文以大規(guī)模數據集的可計算性為切入點,對目前串行和并行計算環(huán)境下專門用于處理大規(guī)模數據集的聚類算法進行綜述和分析,重點評述了串行計算環(huán)境下基于樣例選擇、增量學習、特征子集和特征轉換的聚類算法以及并行計算環(huán)境下基于MapReduce、Spark和Storm框架的聚類算法,給出了有關未來大規(guī)模數據集聚類算法設計思路與應用前景的思考和討論,包括基于數據并行和訓練過程自動化的聚類算法設計策略及關于社交網絡大數據聚類算法的若干理解.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
深圳大學學報·人文社會科學版雜志, 雙月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創(chuàng)新性,刊載內容涉及的欄目:文明對話與文化比較、創(chuàng)意經濟與文化產業(yè)、經濟增長與金融創(chuàng)新、政治空間與法治社會、城鄉(xiāng)建設與社會治理、人文天地與中國精神等。于1984年經新聞總署批準的正規(guī)刊物。