次元削減
次元削減とは、多くの特徴量(変数)を持つデータを、情報の重要な部分を保ちながらより少ない特徴量にまとめる技術です。これにより、データの計算処理が効率化され、解析や機械学習の精度向上、データの可視化が可能になります。
たとえば、身長と体重という2つの情報を1つの体格という軸にまとめるようなイメージです。
次元削減の主な目的はデータの圧縮と可視化で、多次元の膨大なデータを扱う際の計算コスト削減や「次元の呪い」と呼ばれる解析困難な問題を緩和します。
次元削減の方法には元の特徴量の中から重要なものを選び出す「特徴選択」と、複数の特徴を組み合わせ新たな特徴を作る「特徴抽出」の2種類があり、代表的な手法には「主成分分析(PCA)」があります。
次元削減は、画像処理や自然言語処理など大量データの解析、またクラスタリングや分類などさまざまな機械学習の応用に不可欠な技術です。