見出し画像

第3回:将来的なデータ活用に向けて、いまのうちにデータを整備しよう。【Power Query編】

こんにちは。アタラ合同会社 テクニカルコンサルタントの児玉典晃です。

前回、Excel の問題点について説明しました。

とは言ってみたものの、現在運用している Excel をすぐに変更することは難しいですよね。そこで、今回ご紹介するのが、Excel2016 から利用できるようになった Power Query です(通販番組みたいになってきた)。

Power Query は Excel の機能のひとつでありますが、Power BI など 他の Microsoft 製品でも利用できたりします。

主な役割として、データの加工や変換、他のデータソースとの結合など、データ活用の前処理部分を担っています。

本記事では、前回の記事で紹介した note記事と同じようなデータを分析しやすい形に変換するまで簡単にお見せできればと思います。

以下のデータを使って、加工をしていきます。

1.Power Query を起動する

該当の Excel ファイルのメニューの「データ」から「テーブルまたは範囲から」を選択します。

※ 操作画面はMicrosoft Excel バージョン 2203 ビルド 16.0.15028.20152 のものです。

Power Query エディタが起動します。

2.ワイド型のデータをロング型のデータに変換する

列として横に追加されている年度を全て選択します。

まず、2010年度というヘッダーをクリックし、Shiftキーを押したまま2020年度のヘッダーをクリックすると全ての年度が選択されます。

選択された状態で「変換」から「列のピボット解除」をクリックします。

列と行の軸が入れ替わりました(ピボット解除、またはアンピボット)。
これにより、横に追加されている年度データを一つの項目にまとめることができました。

3.ヘッダーの列名を変更する

「属性」と「値」はデフォルトで用意された名前なので「年度」と「金額」に変更します。

「属性」の部分を右クリックし、「名前の変更」を選択します。名前を変更することができるので「年度」にします。同じ要領で「値」を「金額」にします。

変更後の画面です。

これでワイド型のデータをロング型に変更することができました。

4.表記ゆれを統一する。

会社名が複数存在していますが、本来は一つの会社名であったということにして、表記ゆれを修正してみます。正しい会社名は「アタラシステムズ株式会社」としましょう。
※繰り返し作業になるので、今回は1パターンのみの修正です。

いくつか方法はありますが、今回は「変換」から「値の置換」を選択します。

置換用の画面が表示されますので、検索文字と置換後の文字を入力して「OK」を押します。

全ての置換を実施すると以下のような形式になります。

これで全てのデータの会社名が統一されました。

5.グループ化してデータ件数を減らす

件数が多いとファイルを開くのに時間がかかったり、処理時間が遅くなるため重複しているデータがある場合、グループ化することをお勧めします。今回は金額を集計しデータ件数を減らします。

「変換」から「グループ化」を選択します。

グループ化の画面が表示されますので、グループ化対象の列と出力する項目の設定を行い「OK」を押します。

この通り、会社名と年度毎に金額が合計されてデータ件数も減らすことができました。

6.データの型を変更する

最後に「金額」が数値型なので、通貨型に変更します。
「金額」の部分を右クリックし、「型の変更」=>「通貨」を選択します。

「金額」の横のアイコンが$マークに変わっていれば通貨型に変更されています。

今回設定した内容をスケジューリングすることもできるので、運用しているファイルにデータが追加された場合、自動で更新してくれます。これにより本来の運用ファイルとは別に今後のデータ活用のため集計ファイルを用意することができます。

しかし、ワイド型の運用を続ける場合、新しい列が増えると今回の設定から漏れてしまうので再設定が必要になります。その手間が発生しないように、徐々に運用ファイルのデータ蓄積方法を変更していただくことをお勧めします。

今回は Excel の機能に Power Query があったため、追加投資を必要とせずデータ加工を行うことができました。Power Query で対応できない部分もありますので、次回以降で、別のデータ加工に関するサービスや製品ついてご紹介できればと思います。

※この記事の情報、著者所属、肩書等は公開日当時のものです。

この記事が参加している募集

アタラでは一緒に働くメンバーを募集しています