[Python 3]BeautifulSoupを使ってスクレイピング

   2018/01/20

pythonでできるスクレイピングといふものを をとこもしてみんとてすなり

自力でタグの中身全部抽出しようとしたらめちゃくちゃ大変だろうなぁって思ってたけど、BeautifulSoupっていうBeautifulなライブラリがあった。

案外簡単にタグの中身抽出できるもんだなぁ
先人の知恵って偉大
あと公式リファレンス読むと色々できる事が多いなって分かる

 


追記(2017/03/14):

あるサイトからデータを自動で取得できるようになって、webスクレピング楽しい~!って感じだったけど、サイト側のアクセス規制に苦労した。短時間に多くのアクセスをすると制限がかかるらしい。

まぁよく考えればこれはある意味DoS攻撃だもんね・・・

ユーザーエージェントを偽装したり、アクセス間隔を何秒か取ったりしてなんとかデータを取得してるけど、これはデータ取るのが大変だ・・・
ユーザーエージェントを乱数で送信して、アクセス間隔にも揺らぎを持たせればある程度エラーは防げるかな…?

なんにせよ、なかなか一筋縄じゃいかないなぁ

タイトルとURLをコピーしました

この記事へのコメントはこちら

メールアドレスは公開されませんのでご安心ください。
また、* が付いている欄は必須項目となりますので、必ずご記入をお願いします。

内容に問題なければ、下記の「コメント送信」ボタンを押してください。

13 + 14 =

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください