きんめも

語彙力がヤバイ

2016-10-01から1ヶ月間の記事一覧

grepでURLを検索(正規表現)

URLっぽい文字列を検索 index.htmlは適当に変えてください. # grep -Eo "http(s?)://(\w|:|%|#|\$|&|\?|\(|\)|~|\.|=|\+|\-|/)+" index.html ヒット例 http://www.slideshare.net/kinmemodoki http://kinmemodoki.hatenablog.com/ https://hacku.kinmemodok…

wgetでwebクローリングするときのメモ

http://www.bookshelf.jp/texi/wget/wget-ja_2.htmlを見る限り, wgetを一回のコマンドでは同一ドメインのページは再帰的に(深度制限なしで)収集しつつ,外部ドメインは参照されるスクリプトのみ収集するのはできないっぽい. 落としてきたファイルに-i file…