技術のタマゴTOPファンブログGoogleキャッシュページで消えたファンブログコメントを取り戻せ!
2013年07月28日

Googleキャッシュページで消えたファンブログコメントを取り戻せ!

Googleキャッシュ表示というページがあります。

Googleキャッシュ表示

ここに、自分の欲しい記事のURLを入れます。

たとえば、笑顔でいるために:りょうちゃんの記事、
http://fanblogs.jp/rainbownet/archive/200/0
コピペして、Googleキャッシュ表示をクリック。

すると、今(7月28日朝)なら、7月9日のキャッシュが出て、
まだコメントが残っています。

http://webcache.googleusercontent.com/search?q=cache:http://fanblogs.jp/rainbownet/archive/200/0&hl=ja

*****

次に、
http://fanblogs.jp/rainbownet/archive/550/0
で、Gooleキャッシュ表示をクリック。

残念。7月20日のキャッシュです。
http://webcache.googleusercontent.com/search?q=cache:http://fanblogs.jp/rainbownet/archive/550/0&hl=ja

ファンブログのコメントが消え始めたのは、7月19日
だから、記事によってはすでにコメントがない状態のキャッシュになります。

*****

次、
http://fanblogs.jp/rainbownet/archive/710/0

これは7月17日のキャッシュ。セーフ。
http://webcache.googleusercontent.com/search?q=cache:http://fanblogs.jp/rainbownet/archive/710/0&hl=ja

*****

次、
http://fanblogs.jp/rainbownet/archive/700/0

このページは、公開していないのでキャッシュが取得できず、404エラーが出ます。
http://webcache.googleusercontent.com/search?q=cache:http://fanblogs.jp/rainbownet/archive/700/0&hl=ja

*****

今日の段階であれば、まだ7月19日以前のキャッシュが見られる可能性が高いです。
URLは、

http://webcache.googleusercontent.com/search?q=cache:http://fanblogs.jp/自分のブログに対応する文字/archive/記事番号/0&hl=ja

記事番号を次々に書き換えていけば、次々に見られます。
(あまり素早くやるとエラーが出るかも)
ここぞという記事があったら、記事番号を入れて拾ってみてください!

ただし、Googleにインデックスされていないページは404エラーが出ます。

posted by かこ at 08:39 | Comment(26) | TrackBack(0) | ファンブログ
この記事へのコメント
この方法を自動でやろうとして
「10分で自分用にファンブログ全記事のバックアップを取る方法」の
スクリプトを改変して試さないように。

Googleの利用規約に抵触する。
今、方法を検討中。

以下、スクリプトでGoogleへ連続アクセスした結果。

###############################################

お使いのコンピュータ ネットワークから通常と異なるトラフィックが検出されました。後でもう一度リクエストを送信してみてください。このページが表示された理由

このページは、お使いのコンピュータ ネットワークから利用規約に違反すると考えられるリクエストが自動検出されたときに表示されます。ブロックは、これらのリクエストが停止されると間もなく解除されます。

このトラフィックは、リクエストを自動送信する不正なソフトウェア、ブラウザ プラグイン、またはスクリプトによって発生した可能性があります。ネットワーク接続が共有のものである場合は、同じ IP アドレスを使用している別のコンピュータが発生元の可能性がありますので、管理者に相談してください。詳しくはこちらをご覧ください。

ロボットが使用するような高度な検索語を使用したり、リクエストを非常にすばやく送信した場合も、このページが表示されることがあります。

IP アドレス: xxx.xxx.xxx.xxx
時間: 2013-07-28T00:20:53Z
URL: http://webcache.googleusercontent.com/search?q=cache:U1kh_qJMixYJ:fanblogs.jp/ayzfqir5/archive/823/0+&cd=1&hl=ja&ct=clnk&gl=jp
Posted by Tom at 2013年07月28日 09:26
>リクエストを非常にすばやく送信した場合も、このページが表示されることがあります。

間隔を空けないとエラーになる。
Posted by Tom at 2013年07月28日 09:29
Windowsでファンブログの全記事バックアップスクリプト
http://fanblogs.jp/ayzfqir5/archive/823/0
の9行目を書き換えたら、キャッシュページを取れるんじゃない?
と思ってやってみたら、高速で取り始めて150記事くらい取ったときにエラーが出た。

よい子はマネしちゃいけません!

スクリプト:-----
行:15
文字:1
エラー:アクセスが拒否されました
コード:80070005
ソース:msxml3.dll

お使いのコンピュータ ネットワークから通常と異なるトラフィックが検出されました。後でもう一度リクエストを送信してみてください。このページが表示された理由

このページは、お使いのコンピュータ ネットワークから利用規約に違反すると考えられるリクエストが自動検出されたときに表示されます。ブロックは、これらのリクエストが停止されると間もなく解除されます。

このトラフィックは、リクエストを自動送信する不正なソフトウェア、ブラウザ プラグイン、またはスクリプトによって発生した可能性があります。ネットワーク接続が共有のものである場合は、同じ IP アドレスを使用している別のコンピュータが発生元の可能性がありますので、管理者に相談してください。詳しくはこちらをご覧ください。

ロボットが使用するような高度な検索語を使用したり、リクエストを非常にすばやく送信した場合も、このページが表示されることがあります。

Googleキャッシュページにアクセス拒否されちゃった。
3秒に一回とる、とかの処理をかまさないといけないみたい。

サーバに短時間内に何度もアクセスしてはいけない
http://pc.cocorodesign.net/article/71275216.html

その処理はどうやるんだろうなー。

スクリプトで取るんじゃなくて、自分で手動でやる分には大丈夫だよ。
Posted by かこ at 2013年07月28日 09:29
あ、Tomも同じこと同時に書いてたね。
Tomが何とかしてくれるはず♪よろしく!
Posted by かこ at 2013年07月28日 09:30
>かこ @kako_cocoro
>@Tom3suteki うわーGoogleキャッシュページにアクセス拒否された―ww

うーん、遅かったねぇ。
要はsleepを使えばいいんだけど、WSHは書いたことがないから今調べてる。
Posted by Tom at 2013年07月28日 09:34
'5000ミリ秒(5秒)待機します Wscript.Sleep 5000
こんなのつかうの?
http://wsh.style-mods.net/ref_wscript/sleep.htm

でも後は、作者さんにお任せで待機しとこう[Em74]
Posted by かこ at 2013年07月28日 10:09
スリープ5秒だと、また拒否された。
今スリープ20でハッスMe!の全データ1〜388を取得中。
成功しても結果が出るのは2時間後。
Posted by Tom at 2013年07月28日 10:37
スリープの間隔が開いていても、
等間隔でのアクセスが連続すれば
スクリプト処理と判断して拒否される可能性はある。
Posted by Tom at 2013年07月28日 10:39
61ページ目を取得後に拒否された。
Posted by Tom at 2013年07月28日 10:49
*****
自動化されたクエリ

Google の利用規約では、どのような種類かに関わらず自動化されたクエリを Google から事前に明示的な許可を得ずに Google のシステムに送信することは禁止されています。リソースの浪費につながる自動化されたクエリの送信には、WebPosition Gold などのソフトウェアを使って自動化されたクエリを Google に送信し、さまざまなクエリによる Google 検索結果におけるウェブサイトやウェブページのランキングを調べようとする行為が含まれます。ランキングを調べることに加えて、その他の自動化された手段で許可なく Google にアクセスすることも、Google のウェブマスター向けガイドラインおよび利用規約への違反にあたります。
*****

『どのような種類かに関わらず自動化されたクエリを Google から事前に明示的な許可を得ずに Google のシステムに送信することは禁止されています』

うわーごめんなさい。もうやりません。
スクリプトでの自動取得はだめだって!
https://support.google.com/webmasters/answer/66357?hl=ja
Posted by かこ at 2013年07月28日 11:00
これ以上間隔を空けても、等間隔でアクセスすれば同じ結果だろう。
やるとしたらスリープかける秒数をランダムにするか。
たとえば10〜20の間でランダムな秒数のスリープをかければ
ある程度はいけるかもしれない。

それ以外の方法は、50ページ程度ずつ、何日かに分けて取得するか、
違うIPアドレスの友達に手伝ってもらって違うページを手分けして取るか、
それくらいしか方法がない。
Posted by Tom at 2013年07月28日 11:03
>Google から事前に明示的な許可を得ずに
規約違反を承知でやるか、Googleに連絡取るしかないな。

どうしてもスクリプトのソースが欲しい方ば、連絡くれればお渡しします。
ただ、規約違反のソースのためここには掲載しません。
Posted by Tom at 2013年07月28日 11:07
ごめんねTom。
Googleページからの自動取得はNG。この方法はSTOPだわ。
やりたい人には手動でやってもらおう。
Posted by かこ at 2013年07月28日 11:08
http://webcache.googleusercontent.com/search?q=cache:http://fanblogs.jp/自分のブログに対応する文字/archive/記事番号/0&hl=ja

で、自分のとても大切なコメントのある記事を選んで、
それだけ抜き出すのがいいんだろうね。
手動でやっても、素早く高速で大量に取りに行くと、拒否されそう。
Posted by かこ at 2013年07月28日 11:16
後は、キャッシュページごとダウンロードして保存するんじゃなくて、
コメント部分だけ、メモ帳にコピペする方が安全かもしれない。
Posted by かこ at 2013年07月28日 11:35
61ページまで取得したハッスMe!のキャッシュデータ
http://api.dwm.me/fanblog/nachi410247_comments.zip

初期のページしか取得できていなので、
残念ながらあまりコメントはサルベージされていない。

Googleに保存されていないページはないので
解凍しても「天女のはごろも」の12、40、41、51、54、58、61の
7ページしかない。そのうち40、58、61にはコメントはついていない。

40はコメントもトラックバックも両方ゼロ。

58はコメントはないけど、
香川県 - 確実☆即決せフレ案内所さんからのトラックバックが1個ある。

61は記事そのものが存在しないけど、
ファンブログが404を返さない仕様なので保存されていた。
Posted by Tom at 2013年07月28日 11:41
こんばんは

本当になにからなにまで ありがとうございました

はい。お蔭様で ▼があるのは 確認できましたので
大切に 拾っていきたいと思います
お二人とも お忙しい中 お疲れ様でした

ファンブログもコメント欄が復活されてますね よかったです
Posted by 蓮見 at 2013年07月28日 21:46
自分のブログでも試してみましたが、
調べた記事では全部アウト!でした
まぁ、さすがに全ての記事を見たわけじゃないので
残っている物もあるかもしれませんが、
ちょっと、残念ですね

あと、Tomさんへ
Tomさんのブログにコメントを残そうと思ったんですが、
何故か?DISQUSにコメント残せませんでした

とにかく、記事になっていた方法で
ファンブログの記事をバックアップしました
Posted by ガブリエル at 2013年07月28日 23:56
第 6 条(データの管理)
1.会員は本サービスを利用して作成・保存したデータ・ファイル(以下総称して「データ」といいます)などについて、自己の責任において保存するものとします。会員はデータ・ファイルの保存、整合性が確実でないことを承諾するものとします。

2.弊社は何らかの原因でデータが消失又は改ざんされた場合の損害について一切責任を追わないものとします。ただし、弊社に故意・過失がある場合はこの限りではありません。

自己の責任において保存しなきゃいけないらしいんだけど、検索ページに自動化クエリを投げちゃいけないんだお。
Posted by inali at 2013年07月29日 06:16
ごめんにゃさい ゚・。(。/□\。)。・゚ もう自動ではやらないよぅ。

>弊社に故意・過失がある場合

故意だから、請求したら旧コメ戻してくれないかなぁ。
請求した人だけでも。
でも個別対応なんかしてくれないかぁ。
Posted by かこ at 2013年07月29日 07:24
ほんとは10分バックアップツールも、サーバに負担減らすために
1秒スリープくらいはかませてやった方がいいのかもね。
Posted by かこ at 2013年07月29日 17:39
ガブさんも、19日以前のキャッシュある記事、
けっこう残ってたけどなぁ。
キャッシュが上書きされちゃうのも、もうじきだろうねぇ。
Posted by かこ at 2013年07月29日 18:29
確かに、自己責任で記事やコメントを残しておかないといけないんでしょうが、
今回のコメントが消えた事は、
運営側が急にやったのが問題なんですよね

せめて、1週間前くらいに、
コメントが消える可能性があるのでご注意ください
ってメッセージが欲しかったですけどね
Posted by ガブリエル at 2013年07月30日 00:17
そうだねぇ。予告は欲しかった。
でも予兆はあったからね。あまりの不調。

何かがとんで消えちゃっても不思議はないと思ってた。
今回は、運営側の操作だったけど、放っておいたら
ブログサービス自体が成り立ってなかったかもしれない。
じっさい、外から見るのも、中から操作するのも難しい状態だったし。
一時緊急停止は、仕方ない面もある。

でも、一時的な緊急停止じゃないかもしれないとしたら、問題。

コメントって、その記事の補足説明や追加情報であったりも
するのだけれど、運営はそうは捉えていない、ってことにはなるよね。
このまま旧コメントが非表示のままなら、いらない情報だって
扱いを受けているってことですよ。

コメントが補足情報って捉えていたユーザーも少数派なんだとは
思うのだけれどね。
おしゃべりなら、消えても心に残っていれば、
それでよかったりもするから。Twitterみたいにさ。
Posted by かこ at 2013年07月30日 07:49
確かに、あまりにも酷い不具合だったので、
通知する余裕も無かったのかもしれないですよね

でも、現時点でTomさんの記事にあるように
コメント欄は復帰出来ますが、
昔のコメントは戻ってこないですもんね
そのコメント欄を復帰出来ますって正式な発表も無いですし・・・

今回の事件でファンブログを離れた人も沢山いますしね
運営側は、もう少し考えて欲しいですよね
Posted by ガブリエル at 2013年07月30日 23:14
運営がどこまでどう考えて、どう対処するかは、
分からないなぁ。もうしばらく様子見。
ここでがんばって信頼回復するか、スパマーだけのブログになるのか。
Posted by かこ at 2013年07月31日 17:26
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/71434999
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック