[Python 3]BeautifulSoupを使ってスクレイピング
pythonでできるスクレイピングといふものを をとこもしてみんとてすなり
自力でタグの中身全部抽出しようとしたらめちゃくちゃ大変だろうなぁって思ってたけど、BeautifulSoupっていうBeautifulなライブラリがあった。
案外簡単にタグの中身抽出できるもんだなぁ
先人の知恵って偉大
あと公式リファレンス読むと色々できる事が多いなって分かる
追記(2017/03/14):
あるサイトからデータを自動で取得できるようになって、webスクレピング楽しい~!って感じだったけど、サイト側のアクセス規制に苦労した。短時間に多くのアクセスをすると制限がかかるらしい。
まぁよく考えればこれはある意味DoS攻撃だもんね・・・
ユーザーエージェントを偽装したり、アクセス間隔を何秒か取ったりしてなんとかデータを取得してるけど、これはデータ取るのが大変だ・・・
ユーザーエージェントを乱数で送信して、アクセス間隔にも揺らぎを持たせればある程度エラーは防げるかな…?
なんにせよ、なかなか一筋縄じゃいかないなぁ
この記事へのコメントはこちら