在python中从网页获取文本

我正在尝试从网页获取网址。

我尝试使用wget,urllib和lynx(它们返回了最有组织的结果),但是棘手的部分是url以文本形式写在网页上,如果它们很长,那么其余的url将会点(3个点)(例如,exepppppppppppppleple.com将被写为exampppp ...)以便查看,您必须单击条目的id,这将打开一个新窗口,在该窗口中,URL也可以全部写成文字。我设法获取了网址,但是我不知道如何进入另一个页面并获取文本“ url”(如果带点号的话),而且我不确定<input {...inputProps} />. 是否适合我的情况(因为该网址是文本)。

这就是我写的

wget -r
  • 在此行import os def get_urls(): os.system("lynx -dump https://www.example.com/ | grep -v https://ww.example.com/* | grep https* | grep http* | cut -f5- -d' '> urls.txt") 中,我排除了网站的所有链接,因为我只希望网站中的整个链接 我还尝试使用-listonly,但这只会列出页面的网址。

输出

grep -v https://ww.example.com/*
zcwilove 回答:在python中从网页获取文本

一种选择是在python os.system()调用中的lynx中使用-listonly标志。例如:

lynx -listonly -dump https://stackoverflow.com

将以以下格式输出链接列表: [数]。 [url]

示例输出(“ ....”是实际输出中的一堆网址):

References

   Visible links:
   1. https://stackoverflow.com/opensearch.xml
   2. https://stackoverflow.com/feeds
   3. https://stackoverflow.com/
   4. https://stackoverflow.com/
   ....

   Hidden links:
   ....
本文链接:https://www.f2er.com/3003382.html

大家都在问