首先得引入lxml
1 | #xpath为 |
cssselector
1 | tree = lxml.html.fromstring('你获取的网页源代码文件或变量') |
如果选择的内容换行符太多可以使用split表示成list去除
说明 | 例子 |
---|---|
选择所有标签 | * |
选择<a>标签 | a |
选择所有class="link"的标签 | .link |
选择class="link"的<a>标签 | a.link |
选择id="home"的<a>标签 | a#home |
选择父元素为<a>标签的所有<span>标签 | a > span |
选择<a>标签内部的所有<span>标签 | a span |
选择title属性为”Home”的所有<a>标签 | a[title=Home] |
xpath
1 | selector=etree.HTML('你获取的网页源代码文件或变量') |
xpath由于内容太多,可以直接参考官方文档