ショッピングカート(CGI)は通常のブラウザーからだけでなく、検索エンジンのクローラーやスパムボットにより、さまざまな仕方でアクセスされています。そうしたアクセスの中から、必要なアクセスを収集するためにUser-Agentを利用しています。User-Agentにより、ブラウザーを特定したり、ロボットのクロールなどを見分けることができます。しかし、これは完全な方法ではないために不必要な情報が集計表に混入してしまうことがあります。ショッピングカートがなんらかのスパムボットの攻撃を受けている場合などが特にそうです。
そんな時、下記の方法により異常を見分け、対処に役立てることができます。
【User-Agentのログへの保存】
User-Agentをログに保存するかどうかを指定できます(設定ファイルana_set.pl)。User-Agentはアクセス順表示ページ一覧表の表示ページのところに表示されます。これによりページのアクセスについてのある程度の情報を得ることができます。異常なアクセスを除外するためのキーワードなどを特定できるかも知れません。
しかし、問題がない場合は、User-Agentをログに保存しない設定にしておけばログデータの量を少なくすることができます。
$ana_user_agent_use =1; (user_agentをログに保存しない時は、0にする。初期値は、1)
【1】検索エンジンロボットのクロールの判別
ロボット型検索エンジンのクロールによりCGIは常にアクセスされています。
特定の検索エンジンロボットのアクセスのみをログに保存するための設定をすることができます(設定ファイルana_set.pl)。
$Robot_List_use =0; (#ロボットリストを使わないときは、0にする。初期値は、0)
@Robot_list =(
'Yahoo/Yahoo&Slurp', # Yahoo&Slurpは、YahooおよびSlurpを含むという意味。
'Google/Googlebot',
'MSN/msnbot'
);
【2】スパムボットのクロールの除外
スパムボットのアクセスを通常のアクセスと区別して除外するために、
除外用のキーワードを自分で設定することができます(設定ファイルana_set.pl)。User-Agentにここで指定したキーワードを含むアクセスはログに保存されません。
$Spambot_List_use =1; (#スパムボットリストを使わないときは、0にする。初期値は、1)
@Spambot_List =(
'bot',
'Bot',
'Slurp',
'spider',
'Spider',
'Crawl',
'^User-Agent' # ^User-Agentは、User-Agentで始まっていたらという意味。
);
※.htaccessを使って、スパムボットのサイトへの進入を防ぐことができます。(⇒
.htaccessを使ったアクセス拒否の方法)
【3】ブラウザー判別用キーワードの設定
ブラウザーの特定はUser-Agentによって行っていますが、判別用キーワードを自分で指定することができます(設定ファイルana_set.pl)。
PCのアクセスで、ここで指定したブラウザー以外のアクセスはログから除外されます。したがって、この設定により必要なアクセスのみをログに収集することができます。(携帯の判別はプログラムに組み込まれています。)
'FireFox/^Mozilla&Firefox', # ^Mozilla&Firefoxは、Mozillaで始まり、かつFirefoxを含むという意味。
に行われます。