BK:データマイニング、第2章 - あなたのデータを知ってもらいます

理由:実世界のデータは、ボリュームで巨大な、騒々しい一般的であり、異種ソースの寄せ集めに由来し得ます。 

平均; 中央値; モード(最も一般的な値)。分布; 

各属性について、このような基本的な統計情報を知ることは、それが簡単に、欠損値を埋める騒々しい値を滑らかにし、前処理データ中に外れ値を発見することができます。

おすすめ

転載: www.cnblogs.com/dulun/p/12293674.html