2009年10月19日月曜日

URLからソースを取得する

urllibモジュールを使う

# -*- coding: utf-8 -*-

import urllib

filehandle = urllib.urlopen("http://www.python.jp/doc/release/lib/module-urllib.html")

for i in range(19):
    print filehandle.readline().decode("euc-jp"),

実行すると
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<link rel="STYLESHEET" href="lib.css" type='text/css' />
<link rel="SHORTCUT ICON" href="../icons/pyfav.png" type="image/png" />
<link rel='start' href='../index.html' title='Python ドキュメントインデクス' />
<link rel="first" href="lib.html" title='Python ライブラリリファレンス' />
<link rel='contents' href='contents.html' title="Contents" />
<link rel='index' href='genindex.html' title='Index' />
<link rel='last' href='about.html' title='About this document...' />
<link rel='help' href='about.html' title='About this document...' />
<link rel="next" href="module-urllib2.html" />
<link rel="prev" href="module-wsgiref.html" />
<link rel="parent" href="internet.html" />
<link rel="next" href="urlopener-objs.html" />
<meta http-equiv="Content-Type" content="text/html; charset=EUC-JP" />
<meta name='aesop' content='information' />
<title>18.5 urllib -- URL による任意のリソースへのアクセス</title>
</head>

詳細はドキュメントで

0 件のコメント:

コメントを投稿