PHP的parse_url()有一个主机字段,其中包含完整的主机.我正在寻找最可靠(最低成本)的方式来只返回域名和TLD.
给出了例子:
> http://www.google.com/foo,parse_url()返回www.google.com为主机
> http://www.google.co.uk/foo,parse_url()返回www.google.co.uk为主机
我只想google.com或google.co.uk.我已经考虑了一个有效TLD /后缀的表,只允许这些和一个字.你会做任何其他方式吗?有没有人知道这种事情的预先有效的REGEX?
这样的东西怎么样?
function getDomain($url) { $pieces = parse_url($url); $domain = isset($pieces['host']) ? $pieces['host'] : ''; if (preg_match('/(?P<domain>[a-z0-9][a-z0-9\-]{1,63}\.[a-z\.]{2,6})$/i',$domain,$regs)) { return $regs['domain']; } return false; }
将使用经典的parse_url提取域名,然后寻找一个没有任何子域(www作为子域)的有效域.不会像“localhost”那样工作.如果不匹配任何东西,将返回false.
//编辑:
尝试一下:
echo getDomain('http://www.google.com/test.html') . '<br/>'; echo getDomain('https://news.google.co.uk/?id=12345') . '<br/>'; echo getDomain('http://my.subdomain.google.com/directory1/page.PHP?id=abc') . '<br/>'; echo getDomain('https://testing.multiple.subdomain.google.co.uk/') . '<br/>'; echo getDomain('http://nothingelsethan.com') . '<br/>';
它应该返回:
google.com google.co.uk google.com google.co.uk nothingelsethan.com
当然,如果没有通过parse_url
,它不会返回任何东西,所以确保它是一个格式良好的URL.
//附录:
Alnitak是对的上述解决方案在大多数情况下将会起作用,但不一定是全部的,需要维护,以确保例如,他们不是具有超过6个字符的新TLD等等.提取域名的唯一可靠方法是使用维护的列表,如http://publicsuffix.org/.起初,更容易,更加强大的是长期的.您需要确保了解每种方法的优缺点以及它与项目的配合.