BIツールで複数データを結合して分析がしたい場合があるかと思います。
しかし、エクセル管理のデータを読み込んで紐づけるとなると、リレーショナルデータベースのようにキーが存在せず会社名で紐づけしなければいけないケースなど少なくないかと思います。
例えば、一つのデータは「会社名と担当者名、業界などの会社情報」のデータ、もう一つは「会社名と売上」データの場合など。
その場合にどのような処理をして文字列である会社名を紐づけたらよいかまとめました。
会社名の表記ゆれの例
例えば、実際のデータで下記のような表記ゆれを見たことがあります。
- 「株式会社」や「有限会社」などの法人の種類のあるなし 例「株式会社テスト」と「テスト」など
- 全角カナ、半角カナの表記ゆれ
- 全角英数字、半角英数字の表記ゆれ
- 半角スペースのあるなし
特にエクセルに手入力している場合などは上記のような表記ゆれがあり、そのままだとデータの紐づけができない場合があります。
理想は会社マスタを作成してIDを付与、関連するデータの会社名をヒントにIDを付与していくというのが出来たら良いのかもしれませんが、それはそれで労力が発生しますので、今回は文字列である会社名をキーにする方法を下記に書いていきます。
会社名データを加工して紐づけのキーとする
法人の種類を排除する
文字列の操作をして法人の種類を取り除きます。
何を使って取り除くかはその時の状況しだいかと思います。エクセルで加工するのか、プログラミングで加工するのか、BIツールで加工するのか等。
例えばBIツールの場合、データの置換機能があるかと思いますのでそういった機能を使い法人の種類を空文字に置換します。
「株式会社」「合同会社」「有限会社」「(株)」などいろいろあるかと思いますが、データに含まれるそれらの文字列を置換していきます。
全角を半角に変換する
会社名の入力でカタカナやアルファベットだと全角半角の表記ゆれがある場合があります。そのため、一律半角に揃えていきます。
「株式会社テスト」と「株式会社テスト」や、「有限会社TEST」と「有限会社TEST」など
Power BIの場合、Power QueryエディターでJavascriptを使い全角を半角に変換することができますので、こちらも使っているツールによって方法は違うかと思いますがデータを加工していきます。
大文字を小文字に変換する
次はアルファベットの場合で大文字と小文字の表記ゆれがあるケースです。
「株式会社TEST」と「株式会社test」などです。
会社名だから正式なデータで入力するだろうと思われるかもしれませんが、エクセル管理だとこういった表記ゆれは存在するケースも多いかと思います。
そのため、この場合はすべて小文字に変換する処理をいれます。
不要なスペースを削除する
例えば「株式会社 テスト」「株式会社テスト」など、半角が入っていたりするケースです。もしくは「株式会社テスト 」などのように意図しないスペースが入っているケースもあります。その場合データの突合ができませんので不要なスペースは削除します。
こちらも使っているツールで方法は違うかと思いますが、それぞれに合った方法で削除をします。
最後に
だいたい上記の表記ゆれを修正すれば、会社名のデータの突合が出来るかと思います。
あとはどのような表記ゆれがあるかをデータを見て調べて加工を追加していけば良いかと思います。
会社情報にIDが付与されていて正規化されていれば良いのですが、実際の案件でそういったケースは少ないのではないか、、と思います。
会社名に限らず文字列のデータをキーにする場合同じように加工して紐づけができるかと思います。
一つのデータソースをBIツールで分析したり可視化するのは簡単ですが、データを紐づけて分析となるとこういった加工が必要になってきます。
データ蓄積をシステム化して、きれいなデータを保存していくことが出来たら分析も楽になると思うので、そういった方法も勉強していきたいですね。。