理由:実世界のデータは、ボリュームで巨大な、騒々しい一般的であり、異種ソースの寄せ集めに由来し得ます。
平均; 中央値; モード(最も一般的な値)。分布;
各属性について、このような基本的な統計情報を知ることは、それが簡単に、欠損値を埋める騒々しい値を滑らかにし、前処理データ中に外れ値を発見することができます。
理由:実世界のデータは、ボリュームで巨大な、騒々しい一般的であり、異種ソースの寄せ集めに由来し得ます。
平均; 中央値; モード(最も一般的な値)。分布;
各属性について、このような基本的な統計情報を知ることは、それが簡単に、欠損値を埋める騒々しい値を滑らかにし、前処理データ中に外れ値を発見することができます。