提取没有子文本的父文本；决议HTML-编程知识-白鹭情

我有一小部分汤标签元素，我使用Selenium&拉出BeautifulSoup。

<footer>
    <p class="tags environment-tags">Environment:
      <span class="tag environment-tag">Desert</span>
    </p>
    <p class="source monster-source">Basic Rules
      <span class="page-number">, pg. 334</span>
    </p>
</footer>

我试图从 p 元素中获取文本，但每次我尝试它都会获取跨度。到目前为止，这是我尝试过的：

for p in Environment.findAll('p'):
    print(p.text)

我也尝试使用提取信息，.extract()但这似乎对我不起作用。

uj5u.com热心网友回复：

您可以使用.contents和访问第 0 个元素：

for tag in soup.find_all("p"):
    print(tag.contents[0].strip())

输出：

Environment:
Basic Rules

或者通过您的尝试，您可以通过以下方式洗掉<span>' 使用.extract()：

for tag in soup.select("p span"):
    tag.extract()

print(soup.prettify())

输出：

<footer>
 <p class="tags environment-tags">
  Environment:
 </p>
 <p class="source monster-source">
  Basic Rules
 </p>
</footer>

提取没有子文本的父文本；决议HTML

0 评论

发表评论

最新文章

斥350亿美元建新航厦，迪拜将打造世界最大机场

Windows系统安装最详细教程，基于U盘方式

十首精美绝伦的爱情宋词

分手后仍难以与前任断绝联系的三大星座，纠缠不清的情感纠葛！

优秀的女人，必须坚持的11个生活习惯！

此刻，像宋人一样热爱生活！

随机推荐

热门分类

热门标签