Mining of Massive Web Data第57讲Mahout数据挖掘平台更多资料:http://mahout.apache.org武汉理工大学计算机科学与技术学院
Mining of Massive Web Data 更多资料:h1p://mahout.apache.org ᦇᓒᑀӨದᴺ ᒫ57ᦖ Mahoutහഝയଘݣ
计算机科学写技术学院第23讲Mahout数据挖掘平台Mahout数据分析Mahout历史聚类举例武铺理工大学
ᒫ23ᦖ Mahoutහഝയଘݣ Mahout ݥܲMahout 数据分析 聚类举例
计算机科学与技术学院MahoutMahout的中文含义:象夫,看象人Xff@mahoutapache.orgracheSmahoutDowicatTitorsBunT1Apache2.0licensedteceoboutedsttunedinberdnetiatytietnyApicheSotioittoonWhat is Apache Mahout?downloadmaheTheApacheMahoumachinelearinglibrarysgoalistobuidscalablemachinleamingibrarieLatistMhetlWilscaen se natMateut cmasty hasScalatie te ntasoxstly lags dita sats: Orr tane algeetep tet dietsrg- CanotimFarnsClandcatetmdbect hasidcolibestinfileirganppleaontdontopofApack-Usarand enhaneedincoreedeAboutHadon isng T,Ficyeanicate武铺理工大学
Mahout MahoutጱӾތԎғॢ,看象人
计鲜机科学考技术学院数据金字塔MakingEndUserDecisionsDataPresentationsBusiness AnalystIncreasingpotentialVisualizationTechniquestosupportbusinessdecisionsData MiningDataAnalystInformationDiscoveryDataExplorationStatisticalAnalysis,Querying&ReportingDataWarehouses/DataMartsOn-LineAnalyticalProcessing (OLAP)DBAData SourcesPaper.Files,InformationProviders,DatabaseSystemspssmatket.a.blog.so3.com武铺理工大学
数据金字塔
计算机科学技术学院数据分析使用统计方法,有目的地对收集到的数据进行分析处理并且解读分析结果即平均数,mean=1/n*sum(X1:Xn)!-均值能够利用所有已知信息,但是对异常值(极小或极均值(mean)-大值)银敏感:华中排序后居于中间位置的数值,有序尺度常用!.趋势中位数(median)不能充分利用已知的所有变量信息,但不要异常值的影-指标-出现最频累的数值:代表分布中的高峰:众数(mode)名义尺度(分组数据)崇用最大值与最小值之差,rangemax-min:极差(range)直接受到异常值影响:变异离均差(观测值与均值之间的差)平方的均值:性指方孝(variance)-var=1/(n-1)*sum((Xi-mean)>2)数据分布越分散(远离均值),方差越大:标标推美-方差的平方根,stdevSQRT(var):与数据本身有相同的量纲,常用;standarddeviation刻画效据在均值质则候差趋势的差异性-对称分布:skewness=0,meanmedian=mode:偏度(skewness右偏分布:skewness>0,mean>median>mode!变异左偏分布:skewness<0,mean<median<mode!性指测量分布曲线相对平滑或突起程度标.正态分布(Normdistribution):kurtosiss3,峰度(kurtosis).kurtosis>3.分布曲线比正态分布起:.kurtosis<3,分布曲线比正态分布平锂:httpvpss-mmrketr.blo.163.coy武埔理工大学
使用统计方法,有目的地对收集到的数据进行分析处理, 并且解读分析结果. 数据分析