我正在尝试从网页获取网址。
我尝试使用wget,urllib和lynx(它们返回了最有组织的结果),但是棘手的部分是url以文本形式写在网页上,如果它们很长,那么其余的url将会点(3个点)(例如,exepppppppppppppleple.com将被写为exampppp ...)以便查看,您必须单击条目的id,这将打开一个新窗口,在该窗口中,URL也可以全部写成文字。我设法获取了网址,但是我不知道如何进入另一个页面并获取文本“ url”(如果带点号的话),而且我不确定<input {...inputProps} />.
是否适合我的情况(因为该网址是文本)。
这就是我写的
wget -r
- 在此行
import os def get_urls(): os.system("lynx -dump https://www.example.com/ | grep -v https://ww.example.com/* | grep https* | grep http* | cut -f5- -d' '> urls.txt")
中,我排除了网站的所有链接,因为我只希望网站中的整个链接 我还尝试使用-listonly,但这只会列出页面的网址。
输出
grep -v https://ww.example.com/*