C#+Seleniumでスクレイピングする時の俺的メモ


メモ書きとして残しておきます。

スクレイピングをする時にはいつもIEをC#から自動操縦して取得していましたが、Seleniumを使った方がむっちゃ楽でおすすめです。

Selenium(セレニウム)と読みます。

Seleniumには、Google Crome/Firefox/IEとそれぞれの代表的なブラウザに対応したDriverが出ています。

Visual Studioを使用してSeleniumのパッケージをダウンロードする場合

メニュー > プロジェクト > NuGetパッケージの管理(N)

からSelenium系を見つけてインストールしておきましょう。

詳しくはググって他のサイトみてください。

XPathを簡単に調べる方法

Cromeを開いて調べたいツールの上で右クリック > 検証(I) > Copy > Copy XPath

これむっちゃ便利。

一瞬でスクレイピングしたい要素のXPathを取得できちゃいます。

初めて知ったけどむっちゃ便利でした。

Chromeのバージョンがあがるとエラーが発生する

2019/4/30 Cromeをいつも通りC#から操作しようとしたところエラーが発生しました。

エラーの内容はこちらです。

session not created: Chrome version must be between 70 and 73
(Driver info: chromedriver=73.0.3683.68 (47787ec04b6e38e22703e856e101e840b65afe72),platform=Windows NT 10.0.17763 x86_64) (SessionNotCreated)

GoogleCromeのバージョンが74に上がった(手動で更新した)為に、Seleniumで使用するChromeDriverのバージョンを上げないと動作しない為に、このエラーが発生してしまっています。

GoogleCromeは原則として常に最新を使う事を推奨されています。

そこで私はChromeのバージョンをアップしました。

しかし、ChromeDriverが古くなり最新バージョン(74)に対応していない為に、今回のエラーが発生したという事です。

ChromeDiverのエラーでやったこと

メニュー > プロジェクト > 更新プログラム

Microsoft.Web.Xdt

Selenium.Chrome.WebDriver 

Selenium.WebDriver.ChromeDriver

更新モジュールが出ていたのでこれらを更新しました。

 

更新:2020/12/01

Google Chromeは月に1回以上更新が入ります。

それに合わせてChromeDriverも更新を都度行っていく必要があり

ます。

プロジェクトの上で右クリック > NuGet パッケージの管理

CHROMEと入力します。

ここで最新ドライバーが出ている場合には、それを選択しインストールを行います。

更新したモジュール

Selenium.WebDriver.ChromeDriver  作成者:jsakamoto, 14.4M 件のダウンロード

このドライバは、14.4M

つまり約1400万件もダウンロードされている事がわかります。

ダウンロード件数が多い方が世界中の人がダウンロードしており、動作検証過程で揉まれている為安定しています。

Chromeドライバーの最新が出た場合には、ダウンロード件数が大きい物から優先的にダウンロードして使う様にすると良いです。


ワードプレスの危険なプラグイン 2019年4月版 yuzo-related-post ← クラック注意!!


ワードプレスの関連記事表示を行うプラグイン YUZO-RELATED-POST はクラックされていて危険

今回物騒なタイトルですが、これ本当です。

ノウハウツリー管理人が運営しているとある別サイトのお話でがこのプラグインがクラックされてサイトにアクセスすると別のページにリダイレクトされるという被害が出てました。

関連記事を表示するプラグインとして

yuzo-related-post

を入れていたのですが、このプラグインにセキュリティ上の脆弱性があり、サイトにアクセスすると他のサイトに飛ばされるというちとやばいことになってました。

てっきりindex.phpや.htaccessが書き換えられたのかな?

とWinSCPで接続して直接ファイルをのぞきましたが、それ自体は書き換えられていませんでした。

同じ様な症状になっている人は、速攻でWordPressのプラグインとして yuzo-related-post をアンインストールしましょう。これがその問題のプラグインです。

ワードプレスの一覧上の表示は

Related Posts 

Related posts so easy and fast

バージョン  5.12.90 作成者: Lenin Zapata

となっています。yuzo(ゆうぞう)という名前はどこにも表示されていません。

右側のプラグインのサイトを表示をクリックすると

こんな感じのページが表示されます。

インストールしている人は危険なのでマジで速攻消しましょう。

幸いな事にもWordPressの管理画面には問題無く入る事が出来ます。

http://サイト名/wp-admin

でログインし、インストール済のプラグインからRelated Postsを無効化して削除すれば問題解決します。

yuzo-related-postを入れてクラックされるとどうなるか?

このプラグインの脆弱性の為にサイトにアクセスすると何サイトもリダイレクトされてページが飛ばされます。

yuzo related postsのプラグインが入った状態で

サイトにアクセスすると

https://hellofromhony.com/goawy?temp=777&

にリダイレクトされます。

更にリダイレクトがかかって

hello23.icu の内容

Window 10 によってWindowsシステムが古くなり破損していることが
検出されました。

ファイルが削除されないように 指示にしたがってすぐ修正してください。

という完全にマルウェアに感染させようという魂胆丸見えのページに誘導されます。

ブラウザのタブを閉じてしまいましょう。

嘘っぱちです。

画面の指示に従っていくとマルウェアをインストールさせられてしまうので注意!!

タイミングによっては

ユーザ様、おめでとうございます

誠意あるGoogleユーザになって下さったことに、お礼を申し上げます!あなたのIPアドレスであるXXXは、無料の Apple iPhone XSを受け取っていただくために無作為に選択されています。

弊社では時々、一部のGoogleユーザを選択し、弊社パートナーやスポンサーからの有益なプレゼントを受け取っていただける機会を差し上げています。これは、あなたが優先して利用する検索エンジンとしてGoogleを選んで下さったことに対するお礼です。

今日はあなたにとってラッキーは1日です!無作為抽選により、このプレゼントを受け取っていただける10名のひとりとして、あなたが選ばれました。

これを受け取るには、この短い無記名アンケートにお答えください。ですが、急いで!本日のプレゼントは残り少なくなっています!

Googleにどのくらい満足していますか?

大変満足   満足   不満

この様にGoogleを装った偽ページが表示される事があります。

初めてこんな症状が出た時は結構焦りましたw

てっきりサーバのroot権限までクラックされてしまったのかと思ったのです。

ワードプレスの yuzo related posts  が諸悪の権化でした。

便利なプラグインでこれまで使っていましたが、クラックされる様な脆弱なプラグインは使うべきではありません。

もう二度と yuzo related posts は使いません!!

皆さんも怪しいプラグインには十分に注意してくださいね!

 


Visual Studio 2017でSelenium(セレニウム)を使う方法の纏め NuGetパッケージ必須だよ


Selenium(セレニウム)とは?

セレニウムとは、C#などのプログラム言語でブラウザ(Cromeなど)を自動操縦する際に使用します。

WEBシステムなどを作った際にテストを人間がちまちまやるよりも、そのテスト自体を自動化させた方が効率が良いです。

その為、WEBサイトのテストなどで使われる事が多いです。

(人様のサイトに悪い事しちゃだめよん♪)

あとは、スクレイピング(WEBサイトのデータを取得すること)などにも便利です。

C#からIEの自動操縦をするだけでもスクレイピングは勿論する事が出来ますが、如何せんMicrosoftの作ったIEです。

品質が悪いです。いろいろとInternet Explorerはダメなんですが一番我慢ならないのはページのロードが遅いという事です。

一回当たりの秒数が少なくても、IEみたくページのロードに時間がいちいち割かれる様だとトータルで時間の浪費になります。

そこでスクレイピングをする場合には、Seleniumを使ってCromeを操作する事をおすすめします。

Visual Studio 2017 + C#のプロジェクトでSeleniumuを使う為に行った作業を自分用にまとめておきます。

あと、Seleniumは最近私も始めた程度なのでそこまで詳しくありません。詳しい人はコメント欄などでTips的に色々と押してくれると嬉しいです。

VS2017でSeleniumを使える様にした手順

まず、最初にプロジェクトの参照の上で右クリック > NuGet パッケージの管理(N)をクリックします。

すると右側にNuGet パッケージ マネージャー

というウィンドウが出てきます。

NuGet

と入力して検索します。

すると

NuGet.Core  作成者:Outercurve Foundation,

というのが出てきます。

これを選択し右側のインストールをクリックします。

この時に開発中のプロジェクトが開いていると

変更のプレビュー

Visual Studio はこのソリューションに変更を加えようとしています。[OK]をクリックすると、以下に一覧表示された変更が適用されます。

インストール中

Microsoft.Web.Xdt.2.1.1
NuGet.Core.2.14.0

今後これを表示しないにチェックを入れてOKボタンを押します。

ライセンスへの同意

以下のパッケージをインストールするには、ライセンス条項に同意する必要があります。

という画面がでたら「同意する」をクリックします。

続いて同じ要領で

web driver

で検索して

Selenium.WebDriver

Selenium.Chrome.WebDriver

Selenium.WebDriver.ChromeDriver

もインストールします。

ここまでインストールして初めて

using OpenQA.Selenium.Chrome;

をソースコードの中に記述してもエラーがVS上に出なくなります。

using 参照でエラーになる人は試してみてください。

ネットでセレニウムの使い方を解説しているサイトを調べてみるとコンソール(Console)アプリケーションでC#+Seleniumの設定方法をまとめているサイトが多かったです。

個人的には、Windows フォームアプリケーションでUIがあった方が管理が楽でいいと思います。

これでガリガリC#+Seleniumのコードをかけます。

頑張りましょう!

 


カスペルスキーのうざい機能対策 ~ 暗号化された接続が確立されたドメインに対する信頼性を保証できません~


そもそも論 2019年4月版 カスペルスキーにバグが多すぎる

どうも皆さんこんにちは!

ノウハウツリーの管理人です。

さて最近カスペルスキーにバグが多くて本当に困っています。

先日カスペルスキーにバグの再現手順を教えるから替わりに次回更新料を無料にしてもらえないか?

と質問したところ

最後に、お問い合わせ3点目につきまして、誠に恐れ入りますが、弊社では「情報をご提供いただく代わりに次回のライセンス更新料を無料にする」といった対応はいたしかねる状況でございます。

とのことでしたw

まぁ、別にええけど

バグ何とかしてよwww

さて、本題に戻ります。

2019年4月にカスペルスキーをアップデートしたところ、過剰に反応して余計な通知が出る様になりました。

カスペルスキー インターネット セキュリティ

暗号化された接続が確立されたドメインに対する信頼性を保証できません

アプリケーション: Thunderbird

URL: mail.xxxx

理由:

証明書の名前が無効です。名前が許可リストに登録されていないか、明示的に除外されています。

内容を見ると確かにバグとまでは言いませんが、邪魔な通知です。

これはメーラー(サンダーバード)でメールを受信する度に表示されます。

httpsに反応しています。

邪魔な通知を出ない様にする方法

画面左下の歯車マーク > 詳細 > セルフディフェンス >

画面が変わったら

セルフディフェンスを有効にする

セルフディフェンスを有効にすると、本製品のファイル、メモリプロセス、およびシステムレジストリを変更または削除しようとする動作をブロックできます。

のチェックを外します。これで邪魔な通知が出なくなります。

 

※ps

おい、馬鹿カスペルスキーよ

タスクバー上のカスペルスキーの上で右クリックして

  • 一時停止
  • 停止

を数回行っているとフリーズするバグさっさと直せよ!