next up previous
次へ: 階層的クラスター分析の諸方法 上へ: クラスター分析 戻る: クラスター分析とは

階層的クラスター分析の考え方

いま$ n$個の対象(個体でも変量でもよい) $ O_1,O_2,\cdots,O_n$があり,対象$ O_i$$ O_J$との間の類似の度合を表わす数値 $ d_{ij}(1,2,\cdots,n)$が得られているとしよう.ただし,$ d_{ij}$は対称的( $ d_{ij}=d_{ji}$)であるとする.
類似の度合を表わす指標として,距離のように値の小さい方が類似性が高いことを表わす場合と,相関係数のように値の大きい方が類似性が高いことを表わす場合がある.両者を総称して類似度と呼ぶこともあるが,ここでは前者の指標を$ 非類似度$(dissimilarity),後者の指標を$ 類似度$(similarity)と呼んで区別しておく.以下では,簡単のため,$ d_{ij}$は非類似度を表わし,値が小さいほど類似性が高いことを表わすものとする.
階層的クラスター分析法は,このような対象間の非類似度($ d_{ij}$)を手がかりにして,樹形図あるいは $ デンドログラム$(dendrogram)と呼ばれる樹状の分類構造(図11.1$ \sim$11.7参照)を構成することを目標とする分析法である.その樹形図を適当な断面で切ることにより,1$ \sim n$個の任意個数のクラスターを得ることができる.このとき,枝の先端に近いところで切断してできる,少数の構成単位からなるクラスターは,その枝のついている,より大きい枝の根もとのところで切断してできる,多数の構成単位からなるクラスターに,そのまま含まれる.すなわち,樹形図のいろいろな断面で切ってできるクラスターは小分類-中分類-$ \cdots$-大分類という階層的構造をもっている.
 凝集型の階層的クラスター分析のプロセスは,一般に次のようなステップで構成される.
【ステップ1】
1つずつの対象を構成単位とする$ n$個のクラスターから出発する.
【ステップ2】
クラスター間の非類似度行列($ d_{ij}$)を参照して,もっとも類似性の高い2つのクラスターを融合して,1つのクラスターをつくる.
【ステップ3】
クラスター数が1になっていれば終了.そうでなければ,次のステップにすすむ.
【ステップ4】
ステップ2で新しくつくられたクラスターと,他のクラスターとの非類似度を計算して,非類似度行列($ d_{ij}$)を更新し,ステップ2に戻る.
 ここで,非類似度行列($ d_{ij}$)を更新する場合,$ d_{ij}$を計算するもとになっているデータに戻らなくても,更新前の非類似度行列から次々に計算できる方法がある.それらは組合わせ的(combinatorial)方法と呼ばれ,計算が比較的容易なためもあって,広く用いられている.



Tomoyuki Tarumi 平成16年5月13日