Consolidate legacy syntax rules
[geekigeeki.git] / geekigeeki.py
index a7e99ed10121c9af816cfc76eddc0707edeeec94..651d98db20e984506af833ebf7c810e20a8ae635 100755 (executable)
@@ -24,14 +24,14 @@ from time import clock
 start_time = clock()
 
 import cgi, sys, os, re, errno, stat
-from os import path, environ
 
 # Regular expression defining a WikiWord
 # (but this definition is also assumed in other places)
 word_re = re.compile(r"^\b((([A-Z][a-z0-9]+){2,}/)*([A-Z][a-z0-9]+){2,})\b$")
 # FIXME: we accept stuff like foo/../bar and we shouldn't
 file_re = re.compile(r"^\b([A-Za-z0-9_\-][A-Za-z0-9_\.\-/]*)\b$")
-img_re = re.compile(r"^.*\.(png|gif|jpg|jpeg|bmp|ico)$", re.IGNORECASE)
+img_re = re.compile(r"^.*\.(png|gif|jpg|jpeg|bmp|ico|ogm|ogg|mkv|mpg|mpeg|mp4|avi|asf|flv|wmv|qt)$", re.IGNORECASE)
+video_re = re.compile(r"^.*\.(ogm|ogg|mkv|mpg|mpeg|mp4|avi|asf|flv|wmv|qt)$", re.IGNORECASE)
 url_re = re.compile(r"^[a-z]{3,8}://[^\s'\"]+\S$")
 link_re = re.compile("(?:\[\[|{{)([^\s\|]+)(?:\s*\|\s*([^\]]+)|)(?:\]\]|}})")
 
@@ -41,29 +41,32 @@ title_done = False
 # CGI stuff ---------------------------------------------------------
 
 def script_name():
-    return environ.get('SCRIPT_NAME', '')
+    return os.environ.get('SCRIPT_NAME', '')
 
 def privileged_path():
     return privileged_url or script_name()
 
 def remote_user():
-    user = environ.get('REMOTE_USER', '')
+    user = os.environ.get('REMOTE_USER', '')
     if user is None or user == '' or user == 'anonymous':
         user = 'AnonymousCoward'
     return user
 
 def remote_host():
-    return environ.get('REMOTE_ADDR', '')
+    return os.environ.get('REMOTE_ADDR', '')
 
 def get_hostname(addr):
     try:
         from socket import gethostbyaddr
         return gethostbyaddr(addr)[0] + ' (' + addr + ')'
-    except Exception, er:
+    except Exception:
         return addr
 
+def is_external_url(pathname):
+    return (url_re.match(pathname) or pathname.startswith('/'))
+
 def relative_url(pathname, privileged=False):
-    if not (url_re.match(pathname) or pathname.startswith('/')):
+    if not is_external_url(pathname):
         if privileged:
             url = privileged_path()
         else:
@@ -78,6 +81,13 @@ def permalink(s):
 def emit_header(mime_type="text/html"):
     print "Content-type: " + mime_type + "; charset=utf-8\n"
 
+def sendfile(dest_file, src_file):
+    """Efficiently copy file data between file descriptors"""
+    while 1:
+        data = src_file.read(65536)
+        if not data: break
+        dest_file.write(data)
+
 def send_guru(msg_text, msg_type):
     if not msg_text: return
     print '<pre id="guru" onclick="this.style.display = \'none\'" class="' + msg_type + '">'
@@ -87,28 +97,10 @@ def send_guru(msg_text, msg_type):
     if msg_type == 'error':
         print '\n      Guru Meditation #DEADBEEF.ABADC0DE'
     print '</pre>'
-    # FIXME: This little JS snippet is harder to pass than ACID 3.0 
-    print """
-    <script language="JavaScript" type="text/javascript">
-        var guru = document.getElementById('guru');
-        // Firefox 2.0 doesn't take border-color, but returns border-top-color fine
-        var color = document.defaultView.getComputedStyle(guru,null).getPropertyValue('border-top-color');
-
-        function guruOn() {
-            guru.style.setProperty('border-color', color, '');
-            setTimeout('guruOff()', 1000);
-        }
-        function guruOff() {
-            guru.style.setProperty('border-color', '#000000', '');
-            setTimeout('guruOn()', 1000);
-        }
-        // Safari 2.0 returns this rgba crap
-        // Konqueror 3.5.6 doesn't seem to support computed properties
-        if (color && color != 'rgba(0, 0, 0, 0)') {
-            //window.alert("enabled! color='" + color + "'");
-            guruOn();
-        }
-    </script>"""
+    try:
+        sendfile(sys.stdout, open('gurumeditation.js', 'rb'))
+    except IOError, err:
+        pass
 
 def send_title(name, text="Limbo", msg_text=None, msg_type='error', writable=False):
     global title_done
@@ -120,12 +112,15 @@ def send_title(name, text="Limbo", msg_text=None, msg_type='error', writable=Fal
     print '  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">'
     print '<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en">'
 
-    site_name = globals().get('site_name', 'Unconfigured Site')
     print "<head><title>%s: %s</title>" % (site_name, text)
     print ' <meta http-equiv="Content-Type" content="application/xhtml+xml; charset=utf-8" />'
     if not name:
         print ' <meta name="robots" content="noindex,nofollow" />'
 
+    for meta in meta_urls:
+        http_equiv, content = meta
+        print ' <meta http-equiv="%s" content="%s" />' % (http_equiv, relative_url(content))
+
     for link in link_urls:
         rel, href = link
         print ' <link rel="%s" href="%s" />' % (rel, relative_url(href))
@@ -182,19 +177,28 @@ def send_title(name, text="Limbo", msg_text=None, msg_type='error', writable=Fal
 def send_httperror(status="403 Not Found", query=""):
     print "Status: %s" % status
     send_title(None, msg_text=("%s: on query '%s'" % (status, query)))
-    send_footer(None)
+    send_footer()
 
-def link_tag(params, text=None, ss_class=None, privileged=False):
+def link_tag(params, text=None, link_class=None, privileged=False):
     if text is None:
         text = params # default
-    classattr = ''
-    if ss_class:
-        classattr += 'class="%s" ' % ss_class
-        # Prevent crawlers from following links potentially added by spammers or to generated pages
-        if ss_class == 'external' or ss_class == 'navlink':
-            classattr += 'rel="nofollow" '
-    elif url_re.match(params):
-        classattr += 'rel="nofollow" '
+    elif img_re.match(text):
+        text = '<img border="0" src="' + text + '" />'
+
+    if not link_class:
+        if is_external_url(params):
+            link_class = 'external'
+        elif file_re.match(params) and Page(params).exists():
+            link_class = 'wikilink'
+        else:
+            params = nonexist_pfx + params
+            link_class = 'nonexistent'
+
+    classattr = 'class="%s" ' % link_class
+    # Prevent crawlers from following links potentially added by spammers or to generated pages
+    if link_class == 'external' or link_class == 'navlink':
+        classattr += 'rel="nofollow"'
+
     return '<a %shref="%s">%s</a>' % (classattr, relative_url(params, privileged=privileged), text)
 
 # Search ---------------------------------------------------
@@ -218,7 +222,7 @@ def handle_fullsearch(needle):
 
     print "<ul>"
     for (count, page_name) in hits:
-        print '<li><p>' + Page(page_name).link_to()
+        print '<li><p>' + link_tag(page_name)
         print ' . . . . ' + `count`
         print ['match', 'matches'][count != 1]
         print '</p></li>'
@@ -236,7 +240,7 @@ def handle_titlesearch(needle):
 
     print "<ul>"
     for filename in hits:
-        print '<li><p>' + Page(filename).link_to() + "</p></li>"
+        print '<li><p>' + link_tag(filename) + "</p></li>"
     print "</ul>"
 
     print_search_stats(len(hits), len(all_pages))
@@ -277,10 +281,10 @@ def make_index_key():
     links = map(lambda ch: '<a href="#%s">%s</a>' % (ch, ch), 'abcdefghijklmnopqrstuvwxyz')
     return '<p><center>'+ ' | '.join(links) + '</center></p>'
 
-def page_list(dir = None, re = word_re):
-    return sorted(filter(re.match, os.listdir(dir or data_dir)))
+def page_list(dirname = None, re = word_re):
+    return sorted(filter(re.match, os.listdir(dirname or data_dir)))
 
-def send_footer(name, mod_string=None):
+def send_footer(mod_string=None):
     if globals().get('debug_cgi', False):
         cgi.print_arguments()
         cgi.print_form(form)
@@ -288,10 +292,10 @@ def send_footer(name, mod_string=None):
     print '''
 <div id="footer"><hr />
 <p class="copyright">
-<a rel="license" href="http://creativecommons.org/licenses/by-sa/3.0/"><img class="license" alt="Creative Commons License" src="http://i.creativecommons.org/l/by-sa/3.0/80x15.png" /></a>
+<a rel="license" href="http://creativecommons.org/licenses/by-sa/3.0/"><img class="license" alt="Creative Commons License" src="%s" /></a>
 <span class="benchmark">generated in %0.3fs</span> by <a href="http://www.codewiz.org/wiki/GeekiGeeki">GeekiGeeki</a> version %s
 </p>
-''' % (clock() - start_time, __version__)
+''' % (relative_url('cc-by-sa.png'), clock() - start_time, __version__)
     if mod_string:
         print '<p class="modified">last modified %s</p>' % mod_string
     print '</div></body></html>'
@@ -343,19 +347,6 @@ class WikiFormatter:
     def _rule_repl(self, word):
         return self._undent() + '\n<hr size="%d" noshade="noshade" />\n' % (len(word) - 2)
 
-    def _word_repl(self, word):
-        return Page(word).link_to()
-
-    def _img_repl(self, word):
-        path = relative_url(word)
-        return '<a href="%s"><img border="0" src="%s" /></a>' % (path, path)
-
-    def _url_repl(self, word):
-        if img_re.match(word):
-            return '<a href="%s"><img border="0" src="%s" /></a>' % (word, word)
-        else:
-            return '<a href="%s" rel="nofollow" class="external">%s</a>' % (word, word)
-
     def _macro_repl(self, word):
         m = re.compile("\<\<([^\s\|\>]+)(?:\s*\|\s*([^\>]+)|)\>\>").match(word)
         name = m.group(1)
@@ -366,7 +357,10 @@ class WikiFormatter:
 
         macro = globals().get('_macro_' + name)
         if not macro:
-            execfile("macros/" + name + ".py", globals())
+            try:
+                execfile("macros/" + name + ".py", globals())
+            except IOError, err:
+                if err.errno == errno.ENOENT: pass
             macro = globals().get('_macro_' + name)
         if macro:
             return macro(argv)
@@ -375,34 +369,36 @@ class WikiFormatter:
 
     def _hurl_repl(self, word):
         m = link_re.match(word)
-        name = m.group(1)
-        descr = m.group(2)
-        if descr is None:
-            descr = name
-        elif img_re.match(m.group(2)):
-            descr = '<img border="0" src="' + descr + '" />'
+        return link_tag(m.group(1), m.group(2))
 
-        return link_tag(name, descr, 'wikilink')
+    def _url_repl(self, word):
+        return link_tag(word)
+
+    def _word_repl(self, word):
+        return link_tag(word)
 
     def _inl_repl(self, word):
         m = link_re.match(word)
-        name = m.group(1)
-        descr = m.group(2) or name
-        name = relative_url(name)
-        argv = descr.split('|')
-        descr = argv.pop(0)
+        name = relative_url(m.group(1))
+        descr = m.group(2)
 
-        if argv:
-            args = '?' + '&amp;'.join(argv)
-        else:
+        if descr:
+            argv = descr.split('|')
+            descr = argv.pop(0)
             args = ''
+            if argv:
+                args = '?' + '&amp;'.join(argv)
 
-        if descr:
             # The "extthumb" nonsense works around a limitation of the HTML block model
             return '<div class="extthumb"><div class="thumb"><a href="%s"><img border="0" src="%s" alt="%s" /></a><div class="caption">%s</div></div></div>' \
                     % (name, name + args, descr, descr)
+        elif video_re.match(name):
+            return '<video src="%s">Your browser does not support the HTML5 video tag</video>' % name
         else:
-            return '<a href="%s"><img border="0" src="%s" /></a>' % (name, name + args)
+            return '<a href="%s"><img border="0" src="%s" /></a>' % (name, name)
+
+    def _img_repl(self, word):
+        return self._inl_repl('{{' + word + '}}')
 
     def _email_repl(self, word):
         return '<a href="mailto:%s">%s</a>' % (word, word)
@@ -485,11 +481,11 @@ class WikiFormatter:
         return res
 
     def replace(self, match):
-        for type, hit in match.groupdict().items():
+        for rule, hit in match.groupdict().items():
             if hit:
-                return getattr(self, '_' + type + '_repl')(hit)
+                return getattr(self, '_' + rule + '_repl')(hit)
         else:
-            raise "Can't handle match " + `match`
+            raise "Can't handle match " + repr(match)
 
     def print_html(self):
         print '<div class="wiki"><p>'
@@ -511,11 +507,11 @@ class WikiFormatter:
             + r"|(?P<hurl>\[\[([^\s\|]+)(?:\s*\|\s*([^\]]+)|)\]\])"
 
             # Inline HTML
-            + r"|(?P<html><(/|)(br|hr|div|form|iframe|input|span))"
+            + r"|(?P<html><(/|)(br|hr|div|span|form|iframe|input|textarea|a|img|h[1-5])[^>]*>)"
             + r"|(?P<ent>[<>&])"
 
             # Auto links (LEGACY)
-            + r"|(?P<img>\b[a-zA-Z0-9_/-]+\.(png|gif|jpg|jpeg|bmp|ico))"
+            + r"|(?P<img>\b[a-zA-Z0-9_/-]+\.(png|gif|jpg|jpeg|bmp|ico|ogm|ogg|mkv|mpg|mpeg|mp4|avi|asf|flv|wmv|qt))"
             + r"|(?P<word>\b(?:[A-Z][a-z]+){2,}\b)"
             + r"|(?P<url>(http|https|ftp|mailto)\:[^\s'\"]+\S)"
             + r"|(?P<email>[-\w._+]+\@[\w.-]+)"
@@ -540,7 +536,7 @@ class WikiFormatter:
         tr_re = re.compile(r"^\s*\|\|")
         eol_re = re.compile(r"\r?\n")
         for self.line in eol_re.split(self.raw.expandtabs()):
-            # Skip ACLs
+            # Skip pragmas
             if self.in_header:
                 if self.line.startswith('#'):
                     continue
@@ -557,7 +553,7 @@ class WikiFormatter:
                     print '</p><p>'
                 else:
                     indent = indent_re.match(self.line)
-                    print self._indent_to(len(indent.group(0)))
+                    print self._indent_to(len(indent.group(0))) ,
                     print re.sub(scan_re, self.replace, self.line)
 
         if self.in_pre: print '</pre>'
@@ -576,85 +572,78 @@ class Page:
         return re.sub('([a-z])([A-Z])', r'\1 \2', self.page_name)
 
     def _filename(self):
-        return path.join(data_dir, self.page_name)
+        return os.path.join(data_dir, self.page_name)
 
     def _tmp_filename(self):
-        return path.join(data_dir, ('#' + self.page_name.replace('/','_') + '.' + `os.getpid()` + '#'))
+        return os.path.join(data_dir, ('#' + self.page_name.replace('/','_') + '.' + `os.getpid()` + '#'))
 
     def exists(self):
         try:
             os.stat(self._filename())
             return True
-        except OSError, er:
-            if er.errno == errno.ENOENT:
+        except OSError, err:
+            if err.errno == errno.ENOENT:
                 return False
-            raise er
-
-    def link_to(self):
-        word = self.page_name
-        if self.exists():
-            return link_tag(word, word, 'wikilink')
-        else:
-            return link_tag(word, nonexist_pfx + word, 'nonexistent')
+            raise err
 
     def get_raw_body(self):
         try:
             return open(self._filename(), 'rb').read()
-        except IOError, er:
-            if er.errno == errno.ENOENT:
+        except IOError, err:
+            if err.errno == errno.ENOENT:
                 return '' # just doesn't exist, use default
-            if er.errno == errno.EISDIR:
+            if err.errno == errno.EISDIR:
                 return self.format_dir()
-            raise er
+            raise err
 
     def format_dir(self):
         out = '== '
-        path = ''
-        for dir in self.page_name.split('/'):
-            path = (path + '/' + dir) if path else dir
-            out += '[[' + path + '|' + dir + ']]/'
+        pathname = ''
+        for dirname in self.page_name.split('/'):
+            pathname = (pathname + '/' + dirname) if pathname else dirname
+            out += '[[' + pathname + '|' + dirname + ']]/'
         out += ' ==\n'
  
-        for file in page_list(self._filename(), file_re):
-            if img_re.match(file):
+        for filename in page_list(self._filename(), file_re):
+            if img_re.match(filename):
                 if image_maxwidth:
                     maxwidth_arg = '|maxwidth=' + str(image_maxwidth)
-                out += '{{' + self.page_name + '/' + file + '|' + file + maxwidth_arg + '}}\n'
+                out += '{{' + self.page_name + '/' + filename + '|' + filename + maxwidth_arg + '}}\n'
             else:
-                out += ' * [[' + self.page_name + '/' + file + ']]\n'
+                out += ' * [[' + self.page_name + '/' + filename + ']]\n'
         return out
-    def get_attrs(self):
-        if 'attrs' in self.__dict__:
-            return self.attrs
-        self.attrs = {}
-        try:
-            file = open(self._filename(), 'rt')
-            attr_re = re.compile(r"^#(\S*)(.*)$")
-            for line in file:
-                m = attr_re.match(line)
-                if not m:
-                    break
-                self.attrs[m.group(1)] = m.group(2).strip()
-                #print "bernie: attrs[" + m.group(1) + "] = " + m.group(2) + "<br>\n"
-        except IOError, er:
-            if er.errno != errno.ENOENT and er.errno != errno.EISDIR:
-                raise er
-        return self.attrs
-
-    def get_attr(self, name, default):
-        return self.get_attrs().get(name, default)
+
+    def pragmas(self):
+        if not '_pragmas' in self.__dict__:
+            self._pragmas = {}
+            try:
+                f = open(self._filename(), 'rt')
+                attr_re = re.compile(r"^#(\S*)(.*)$")
+                for line in f:
+                    m = attr_re.match(line)
+                    if not m:
+                        break
+                    self._pragmas[m.group(1)] = m.group(2).strip()
+                    #print "bernie: _pragmas[" + m.group(1) + "] = " + m.group(2) + "<br>\n"
+            except IOError, err:
+                if err.errno != errno.ENOENT and err.errno != errno.EISDIR:
+                    raise err
+        return self._pragmas
+
+    def pragma(self, name, default):
+        return self.pragmas().get(name, default)
 
     def can(self, action, default=True):
         acl = None
         try:
             #acl SomeUser:read,write All:read
-            acl = self.get_attr("acl", None)
+            acl = self.pragma("acl", None)
             for rule in acl.split():
                 (user, perms) = rule.split(':')
                 if user == remote_user() or user == "All":
                     return action in perms.split(',')
             return False
-        except Exception, er:
+        except Exception:
             if acl:
                 self.msg_text = 'Illegal acl line: ' + acl
         return default
@@ -673,7 +662,7 @@ class Page:
 
     def format(self):
         #css foo.css
-        value = self.get_attr("css", None)
+        value = self.pragma("css", None)
         if value:
             global link_urls
             link_urls += [ [ "stylesheet", value ] ]
@@ -681,15 +670,15 @@ class Page:
         send_title(self.page_name, self.split_title(),
             msg_text=self.msg_text, msg_type=self.msg_type, writable=self.can_write())
         self.send_naked()
-        send_footer(self.page_name, self._last_modified())
+        send_footer(self._last_modified())
 
     def _last_modified(self):
         try:
             from time import localtime, strftime
             modtime = localtime(os.stat(self._filename())[stat.ST_MTIME])
-        except OSError, er:
-            if er.errno != errno.ENOENT:
-                raise er
+        except OSError, err:
+            if err.errno != errno.ENOENT:
+                raise err
             return None
         return strftime(datetime_fmt, modtime)
 
@@ -699,9 +688,9 @@ class Page:
             send_guru("Write access denied by ACLs", "error")
             return
 
-        file = ''
+        filename = ''
         if 'file' in form:
-            file = form['file'].value
+            filename = form['file'].value
 
         print ('<p><b>Editing ' + self.page_name
             + ' for ' + cgi.escape(remote_user())
@@ -710,8 +699,8 @@ class Page:
         print '<div class="editor"><form name="editform" method="post" enctype="multipart/form-data" action="%s">' % relative_url(self.page_name)
         print '<input type="hidden" name="edit" value="%s">' % (self.page_name)
         print '<input type="input" id="editor" name="changelog" value="Edit page %s" accesskey="c" /><br />' % (self.page_name)
-        print '<textarea wrap="off" spellcheck="true" id="editor" name="savetext" rows="17" cols="100" accesskey="e">%s</textarea>' % (preview or self.get_raw_body())
-        print '<label for="file" accesskey="u">Or Upload a file:</label> <input type="file" name="file" value="%s" />' % file
+        print '<textarea wrap="off" spellcheck="true" id="editor" name="savetext" rows="17" cols="100" accesskey="e">%s</textarea>' % cgi.escape(preview or self.get_raw_body())
+        print '<label for="file" accesskey="u">Or Upload a file:</label> <input type="file" name="file" value="%s" />' % filename
         print """
             <br />
             <input type="submit" name="save" value="Save" accesskey="s">
@@ -726,12 +715,12 @@ class Page:
             //-->
             </script>
             """
-        print "<p>" + Page('EditingTips').link_to() + "</p>"
+        print "<p>" + link_tag('EditingTips') + "</p>"
         if preview:
             print "<div class='preview'>"
             WikiFormatter(preview).print_html()
             print "</div>"
-        send_footer(self.page_name)
+        send_footer()
 
     def send_raw(self, mimetype='text/plain'):
         if self.can_read():
@@ -759,8 +748,8 @@ class Page:
             # Bad Bill!  POSIX rename ought to replace. :-(
             try:
                 os.remove(name)
-            except OSError, er:
-                if er.errno != errno.ENOENT: raise er
+            except OSError, err:
+                if err.errno != errno.ENOENT: raise err
         os.rename(tmp_filename, name)
 
     def save(self, newdata, changelog):
@@ -791,40 +780,39 @@ class Page:
             self.msg_text = 'Thank you for your contribution.  Your attention to detail is appreciated.'
             self.msg_type = 'success'
 
-# Main ---------------------------------------------------------------
-try:
-    execfile("geekigeeki.conf.py")
-    form = cgi.FieldStorage()
-
+def main():
     for cmd in form:
         handler = globals().get('handle_' + cmd)
         if handler:
             handler(form[cmd].value)
             break
     else:
-        path_info = environ.get('PATH_INFO', '')
+        path_info = os.environ.get('PATH_INFO', '')
         if len(path_info) and path_info[0] == '/':
             query = path_info[1:] or 'FrontPage'
         else:
-            query = environ.get('QUERY_STRING', '') or 'FrontPage'
+            query = os.environ.get('QUERY_STRING', '') or 'FrontPage'
 
         if file_re.match(query):
             if word_re.match(query):
                 Page(query).format()
             else:
                 from mimetypes import MimeTypes
-                type, encoding = MimeTypes().guess_type(query)
-                #type = type or 'text/plain'
-                #Page(query).send_raw(mimetype=type)
-                if type:
-                    if type.startswith('image/'):
-                        Page(query).send_image(mimetype=type,args=form)
+                mimetype, encoding = MimeTypes().guess_type(query)
+                if mimetype:
+                    if mimetype.startswith('image/'):
+                        Page(query).send_image(mimetype=mimetype, args=form)
                     else:
-                        Page(query).send_raw(mimetype=type)
+                        Page(query).send_raw(mimetype=mimetype)
                 else:
                     Page(query).format()
         else:
             send_httperror("403 Forbidden", query)
+
+try:
+    execfile("geekigeeki.conf.py")
+    form = cgi.FieldStorage()
+    main()
 except Exception:
     import traceback
     msg_text = traceback.format_exc()
@@ -832,6 +820,6 @@ except Exception:
         send_guru(msg_text, "error")
     else:
         send_title(None, msg_text=msg_text)
-    send_footer(None)
+    send_footer()
 
 sys.stdout.flush()