- 追加された行はこの色です。
- 削除された行はこの色です。
[[FrontPage/Python/Matplotlib]]
** WEBサイト内のパスを相対パス⇒絶対パスに変更する方法。 [#x22fe136]
import urllib2
import lxml.html
html = urllib2.urlopen("http://www/autoproject.nagoya/index.php").read()
dom = lxml.html.fromstring(html)
dom.make_links_absolute("http://www/autoproject.nagoya")
urlList = dom.xpath("//@href")
このlxmlモジュールやxpathの使い方は、こちらのブログが大変参考になります。
http://www.cafe-gentle.jp/challenge/tips/python_tips_001.html
http://www.cafe-gentle.jp/challenge/tips/python_tips_003.html
pytyhonでスクレイピングをするのに、pyquery を使ってたけど、 lxmlもシンプルで使いやすい。
何より、相対パスを絶対パスに変換できるの簡単だから素晴らしい。