semalt.com再び

うちのメインサイトは虫つきです。スクレイピングされること多々。しょっちゅう「お断り」をしています。
semaltをはじめに見つけたのもこのサイトでした。

二番手、三番手サイトにもつきはじめたのでお断りしました。
特定のリファラーからのアクセスを.haccessで遮断する話

ただ、四番手サイトは放置してみました。
このサイトはアクセスが一定しません。サイトボリュームはそこそこあります。UU100/dayを安定してとれるようになったと思ったら次の月にUU10/day行かないとかあるのです。定期更新はするけれど、力は入れないことにしたサイトです。

このサイトでsemalt.comがどうするのか観察していました。
最近では、http://34.semalt.com/crawler.php?u=httpほにゃらら.com
のようなアクセスです。34が41になるなどしています。以前はhttp://semalt.semalt.com/crawler.php?u=http://ほにゃらら.com だったと記憶します。

前回
特定のリファラーからのアクセスを.haccessで遮断する話
で書いた方法はドメインごと否認するものなので、いくらサブドメイン形式でやってこようが排除することができます。もちろん、メインや二番手、三番手にはsemaltのログが残っていません。

というわけで、四番手サイトもsemalt否認です。
めんどうだなー。

続き。
この記事をアップするとこうなります。


う・る・せー。
今回のナタリアさんもきっとすぐにアカウントが鍵つきになるか何かになりますよ。
このナタリアさんからこの記事にコメントがきていました。

Let me tell you about Semalt.
Semalt bots harvest statistics for web analytics service and cause no harm. I don’t think this can be an issue, since nobody complains on bots that belong to Google, Bing and other search engines. Semalt crawler bots have 100% bounce rate and don’t click on advertising banners (cpc, cpa, cpm systems) or extend links. All the visits are automatic and random.
If you want to exclude your site from Semalt database, please follow this link: http://semalt.com/project_crawler.php
Please, make sure you have specified the subdomains of your sites as well. http:// is required.
Thank you for your patience.

Nataliya
semalt.com
nataliya@semalt.com
109.207.205.236

だそうです。う・る・せー。
なんでデータベースなんか作るわけ?で、なんでこんなコメントしてまわるわけ?

私は不快だって言ってるわけでそれ以上でもなければそれ以下でもありません。IPアドレスも排除完了。

So what? There are lots of ridiculous and disgusting bots, and I am feeling semalt.com is one of the bunch of them. I have no interest on your business. I just do not want semalt.com to see, and of course I neither want to put my information on semalt list. Yes, you have a right to visit sites as you want. And I have also a right to choose my audiences, and ban. That’s all. There are nothing to discus with you. Please do not write comments.

Related posts