CloudBot/plugins/urltools.py

from util import hook, http, urlnorm
import urllib
import re
import BeautifulSoup

ignored_urls = [urlnorm.normalize("http://google.com"),urlnorm.normalize("http://youtube.com")]

def parse(match):
    url = urlnorm.normalize(match.encode('utf-8'))
    if url not in ignored_urls:
        url = url.decode('utf-8')
        try:
            soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
            return soup.title.string
        except:
            return "Failed to parse URL"


#@hook.regex(r'^(?#Protocol)(?:(?:ht|f)tp(?:s?)\:\/\/|~\/|\/)?(?#Username:Password)(?:\w+:\w+@)?(?#Subdomains)(?:(?:[-\w]+\.)+(?#TopLevel Domains)(?:com|org|net|gov|mil|biz|info|mobi|name|aero|jobs|museum|travel|[a-z]{2}))(?#Port)(?::[\d]{1,5})?(?#Directories)(?:(?:(?:\/(?:[-\w~!$+|.,=]|%[a-f\d]{2})+)+|\/)+|\?|#)?(?#Query)(?:(?:\?(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)(?:&(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)*)*(?#Anchor)(?:#(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)?$')

@hook.command
def title(inp):
    p = re.compile(r'^(?#Protocol)(?:(?:ht|f)tp(?:s?)\:\/\/|~\/|\/)?(?#Username:Password)(?:\w+:\w+@)?(?#Subdomains)(?:(?:[-\w]+\.)+(?#TopLevel Domains)(?:com|org|net|gov|mil|biz|info|mobi|name|aero|jobs|museum|travel|[a-z]{2}))(?#Port)(?::[\d]{1,5})?(?#Directories)(?:(?:(?:\/(?:[-\w~!$+|.,=]|%[a-f\d]{2})+)+|\/)+|\?|#)?(?#Query)(?:(?:\?(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)(?:&(?:[-\w~!$+|.,*:]|%[a-f\d{2}])+=?(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)*)*(?#Anchor)(?:#(?:[-\w~!$+|.,*:=]|%[a-f\d]{2})*)?$')
    m = p.match(inp)
    if m:
        return parse(inp)
    else:
        return 'Invalid URL!'
First :D 2011-11-20 10:23:31 +01:00			`from util import hook, http, urlnorm`
			`import urllib`
			`import re`
			`import BeautifulSoup`

			`ignored_urls = [urlnorm.normalize("http://google.com"),urlnorm.normalize("http://youtube.com")]`

			`def parse(match):`
			`url = urlnorm.normalize(match.encode('utf-8'))`
			`if url not in ignored_urls:`
			`url = url.decode('utf-8')`
			`try:`
			`soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))`
			`return soup.title.string`
			`except:`
			`return "Failed to parse URL"`


			#@hook.regex(r'^(?#Protocol)(?:(?:ht\|f)tp(?:s?)\:\/\/\|~\/\|\/)?(?#Username:Password)(?:\w+:\w+@)?(?#Subdomains)(?:(?:[-\w]+\.)+(?#TopLevel Domains)(?:com\|org\|net\|gov\|mil\|biz\|info\|mobi\|name\|aero\|jobs\|museum\|travel\|[a-z]{2}))(?#Port)(?::[\d]{1,5})?(?#Directories)(?:(?:(?:\/(?:[-\w~!$+\|.,=]\|%[a-f\d]{2})+)+\|\/)+\|\?\|#)?(?#Query)(?:(?:\?(?:[-\w~!$+\|.,:]\|%[a-f\d{2}])+=?(?:[-\w~!$+\|.,:=]\|%[a-f\d]{2}))(?:&(?:[-\w~!$+\|.,:]\|%[a-f\d{2}])+=?(?:[-\w~!$+\|.,:=]\|%[a-f\d]{2})))(?#Anchor)(?:#(?:[-\w~!$+\|.,:=]\|%[a-f\d]{2}))?$')

			`@hook.command`
			`def title(inp):`
			p = re.compile(r'^(?#Protocol)(?:(?:ht\|f)tp(?:s?)\:\/\/\|~\/\|\/)?(?#Username:Password)(?:\w+:\w+@)?(?#Subdomains)(?:(?:[-\w]+\.)+(?#TopLevel Domains)(?:com\|org\|net\|gov\|mil\|biz\|info\|mobi\|name\|aero\|jobs\|museum\|travel\|[a-z]{2}))(?#Port)(?::[\d]{1,5})?(?#Directories)(?:(?:(?:\/(?:[-\w~!$+\|.,=]\|%[a-f\d]{2})+)+\|\/)+\|\?\|#)?(?#Query)(?:(?:\?(?:[-\w~!$+\|.,:]\|%[a-f\d{2}])+=?(?:[-\w~!$+\|.,:=]\|%[a-f\d]{2}))(?:&(?:[-\w~!$+\|.,:]\|%[a-f\d{2}])+=?(?:[-\w~!$+\|.,:=]\|%[a-f\d]{2})))(?#Anchor)(?:#(?:[-\w~!$+\|.,:=]\|%[a-f\d]{2}))?$')
			`m = p.match(inp)`
			`if m:`
			`return parse(inp)`
			`else:`
			`return 'Invalid URL!'`