仕事と晩飯とその他

日記です。

ログの集計

ログの集計をなるべく簡単にするために、キーとなる項目をHTMLファイルのタイトルに盛り込み、GAが拾ったタイトルをそのままXML化していた。

その方法はとてもシンプルだ。そしてXMLをほぼそのまま使ってHTML化できるのがとても楽なのだ。つまり、ログの収集→蓄積(XML化)→HTML出力が簡単かつ安定した状態で自動化できるということだ。それはそれで満足していた。

しかし、運用していく中で大きな課題があった。書名・発売日・価格といった項目を集計用にタイトルに盛り込むことで、それらの項目に変更があった場合はファイル名そのものが変わってしまうということ。GAはタイトルで集計されているので別タイトルとして扱われてしまう。そのため、変更があった書誌の集計では必ずダブりが発生してしまう。これは悩ましい問題だった。

そもそもGAのログだけで集計作業を完結させようというのが甘いのかも知れない。根本的に解決するためにはGAのログからユニークキー(ISBN)と集計値だけを取り出してDBに格納し、そちらで集計→XML出力(もしくは直接HTML出力)を考えたほうがよさそうだ。いや、あれか、今度はファイル名がユニーク(ISBN)だからそれを使えばいいのか
。そうだな。それだと今の仕組みがほぼそのまま使える。

ONIXもDBに格納したほうがよさそうだ。差分(履歴)の問題もそれだと一度に解決できる。

やはりそっちかなあ。大きな話になるなあ。

とりあえず今回は、GAをMySQLのDBに格納→XML出力→新しく作ったHTML書き出しの仕組みに組み込んでHTMLを出力、の流れで進めたい。以前の状態に戻すのが先だ。そのうえで、将来的な課題として全てをDBに格納は考えたい。

よく考えていると全項目のCSV出力は既に作ってあるわけだから、あれをDBに格納すればいいのか。

なるほど、それなら意外と早くできるかも。

もしかしてGAも一度CSV化してからまとめて読み込ませるでもいいのか?

どちらにせよ、GAで試してからだな。