Consolidate legacy syntax rules

[geekigeeki.git] / geekigeeki.py
diff --git a/geekigeeki.py b/geekigeeki.py

index a7e99ed10121c9af816cfc76eddc0707edeeec94..651d98db20e984506af833ebf7c810e20a8ae635 100755 (executable)
--- a/geekigeeki.py
+++ b/geekigeeki.py
@@ -24,14 +24,14 @@ from time import clock
  start_time = clock()
  
  import cgi, sys, os, re, errno, stat
-from os import path, environ
  
  # Regular expression defining a WikiWord
  # (but this definition is also assumed in other places)
  word_re = re.compile(r"^\b((([A-Z][a-z0-9]+){2,}/)*([A-Z][a-z0-9]+){2,})\b$")
  # FIXME: we accept stuff like foo/../bar and we shouldn't
  file_re = re.compile(r"^\b([A-Za-z0-9_\-][A-Za-z0-9_\.\-/]*)\b$")
-img_re = re.compile(r"^.*\.(png|gif|jpg|jpeg|bmp|ico)$", re.IGNORECASE)
+img_re = re.compile(r"^.*\.(png|gif|jpg|jpeg|bmp|ico|ogm|ogg|mkv|mpg|mpeg|mp4|avi|asf|flv|wmv|qt)$", re.IGNORECASE)
+video_re = re.compile(r"^.*\.(ogm|ogg|mkv|mpg|mpeg|mp4|avi|asf|flv|wmv|qt)$", re.IGNORECASE)
  url_re = re.compile(r"^[a-z]{3,8}://[^\s'\"]+\S$")
  link_re = re.compile("(?:\[\[|{{)([^\s\|]+)(?:\s*\|\s*([^\]]+)|)(?:\]\]|}})")
  
@@ -41,29 +41,32 @@ title_done = False
  # CGI stuff ---------------------------------------------------------
  
  def script_name():
-    return environ.get('SCRIPT_NAME', '')
+    return os.environ.get('SCRIPT_NAME', '')
  
  def privileged_path():
      return privileged_url or script_name()
  
  def remote_user():
-    user = environ.get('REMOTE_USER', '')
+    user = os.environ.get('REMOTE_USER', '')
      if user is None or user == '' or user == 'anonymous':
          user = 'AnonymousCoward'
      return user
  
  def remote_host():
-    return environ.get('REMOTE_ADDR', '')
+    return os.environ.get('REMOTE_ADDR', '')
  
  def get_hostname(addr):
      try:
          from socket import gethostbyaddr
          return gethostbyaddr(addr)[0] + ' (' + addr + ')'
-    except Exception, er:
+    except Exception:
          return addr
  
+def is_external_url(pathname):
+    return (url_re.match(pathname) or pathname.startswith('/'))
+
  def relative_url(pathname, privileged=False):
-    if not (url_re.match(pathname) or pathname.startswith('/')):
+    if not is_external_url(pathname):
          if privileged:
              url = privileged_path()
          else:
@@ -78,6 +81,13 @@ def permalink(s):
  def emit_header(mime_type="text/html"):
      print "Content-type: " + mime_type + "; charset=utf-8\n"
  
+def sendfile(dest_file, src_file):
+    """Efficiently copy file data between file descriptors"""
+    while 1:
+        data = src_file.read(65536)
+        if not data: break
+        dest_file.write(data)
+
  def send_guru(msg_text, msg_type):
      if not msg_text: return
      print '<pre id="guru" onclick="this.style.display = \'none\'" class="' + msg_type + '">'
@@ -87,28 +97,10 @@ def send_guru(msg_text, msg_type):
      if msg_type == 'error':
          print '\n      Guru Meditation #DEADBEEF.ABADC0DE'
      print '</pre>'
-    # FIXME: This little JS snippet is harder to pass than ACID 3.0 
-    print """
-    <script language="JavaScript" type="text/javascript">
-        var guru = document.getElementById('guru');
-        // Firefox 2.0 doesn't take border-color, but returns border-top-color fine
-        var color = document.defaultView.getComputedStyle(guru,null).getPropertyValue('border-top-color');
-
-        function guruOn() {
-            guru.style.setProperty('border-color', color, '');
-            setTimeout('guruOff()', 1000);
-        }
-        function guruOff() {
-            guru.style.setProperty('border-color', '#000000', '');
-            setTimeout('guruOn()', 1000);
-        }
-        // Safari 2.0 returns this rgba crap
-        // Konqueror 3.5.6 doesn't seem to support computed properties
-        if (color && color != 'rgba(0, 0, 0, 0)') {
-            //window.alert("enabled! color='" + color + "'");
-            guruOn();
-        }
-    </script>"""
+    try:
+        sendfile(sys.stdout, open('gurumeditation.js', 'rb'))
+    except IOError, err:
+        pass
  
  def send_title(name, text="Limbo", msg_text=None, msg_type='error', writable=False):
      global title_done
@@ -120,12 +112,15 @@ def send_title(name, text="Limbo", msg_text=None, msg_type='error', writable=Fal
      print '  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">'
      print '<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en">'
  
-    site_name = globals().get('site_name', 'Unconfigured Site')
      print "<head><title>%s: %s</title>" % (site_name, text)
      print ' <meta http-equiv="Content-Type" content="application/xhtml+xml; charset=utf-8" />'
      if not name:
          print ' <meta name="robots" content="noindex,nofollow" />'
  
+    for meta in meta_urls:
+        http_equiv, content = meta
+        print ' <meta http-equiv="%s" content="%s" />' % (http_equiv, relative_url(content))
+
      for link in link_urls:
          rel, href = link
          print ' <link rel="%s" href="%s" />' % (rel, relative_url(href))
@@ -182,19 +177,28 @@ def send_title(name, text="Limbo", msg_text=None, msg_type='error', writable=Fal
  def send_httperror(status="403 Not Found", query=""):
      print "Status: %s" % status
      send_title(None, msg_text=("%s: on query '%s'" % (status, query)))
-    send_footer(None)
+    send_footer()
  
-def link_tag(params, text=None, ss_class=None, privileged=False):
+def link_tag(params, text=None, link_class=None, privileged=False):
      if text is None:
          text = params # default
-    classattr = ''
-    if ss_class:
-        classattr += 'class="%s" ' % ss_class
-        # Prevent crawlers from following links potentially added by spammers or to generated pages
-        if ss_class == 'external' or ss_class == 'navlink':
-            classattr += 'rel="nofollow" '
-    elif url_re.match(params):
-        classattr += 'rel="nofollow" '
+    elif img_re.match(text):
+        text = '<img border="0" src="' + text + '" />'
+
+    if not link_class:
+        if is_external_url(params):
+            link_class = 'external'
+        elif file_re.match(params) and Page(params).exists():
+            link_class = 'wikilink'
+        else:
+            params = nonexist_pfx + params
+            link_class = 'nonexistent'
+
+    classattr = 'class="%s" ' % link_class
+    # Prevent crawlers from following links potentially added by spammers or to generated pages
+    if link_class == 'external' or link_class == 'navlink':
+        classattr += 'rel="nofollow"'
+
      return '<a %shref="%s">%s</a>' % (classattr, relative_url(params, privileged=privileged), text)
  
  # Search ---------------------------------------------------
@@ -218,7 +222,7 @@ def handle_fullsearch(needle):
  
      print "<ul>"
      for (count, page_name) in hits:
-        print '<li><p>' + Page(page_name).link_to()
+        print '<li><p>' + link_tag(page_name)
          print ' . . . . ' + `count`
          print ['match', 'matches'][count != 1]
          print '</p></li>'
@@ -236,7 +240,7 @@ def handle_titlesearch(needle):
  
      print "<ul>"
      for filename in hits:
-        print '<li><p>' + Page(filename).link_to() + "</p></li>"
+        print '<li><p>' + link_tag(filename) + "</p></li>"
      print "</ul>"
  
      print_search_stats(len(hits), len(all_pages))
@@ -277,10 +281,10 @@ def make_index_key():
      links = map(lambda ch: '<a href="#%s">%s</a>' % (ch, ch), 'abcdefghijklmnopqrstuvwxyz')
      return '<p><center>'+ ' | '.join(links) + '</center></p>'
  
-def page_list(dir = None, re = word_re):
-    return sorted(filter(re.match, os.listdir(dir or data_dir)))
+def page_list(dirname = None, re = word_re):
+    return sorted(filter(re.match, os.listdir(dirname or data_dir)))
  
-def send_footer(name, mod_string=None):
+def send_footer(mod_string=None):
      if globals().get('debug_cgi', False):
          cgi.print_arguments()
          cgi.print_form(form)
@@ -288,10 +292,10 @@ def send_footer(name, mod_string=None):
      print '''
  <div id="footer"><hr />
  <p class="copyright">
-<a rel="license" href="http://creativecommons.org/licenses/by-sa/3.0/"><img class="license" alt="Creative Commons License" src="http://i.creativecommons.org/l/by-sa/3.0/80x15.png" /></a>
+<a rel="license" href="http://creativecommons.org/licenses/by-sa/3.0/"><img class="license" alt="Creative Commons License" src="%s" /></a>
  <span class="benchmark">generated in %0.3fs</span> by <a href="http://www.codewiz.org/wiki/GeekiGeeki">GeekiGeeki</a> version %s
  </p>
-''' % (clock() - start_time, __version__)
+''' % (relative_url('cc-by-sa.png'), clock() - start_time, __version__)
      if mod_string:
          print '<p class="modified">last modified %s</p>' % mod_string
      print '</div></body></html>'
@@ -343,19 +347,6 @@ class WikiFormatter:
      def _rule_repl(self, word):
          return self._undent() + '\n<hr size="%d" noshade="noshade" />\n' % (len(word) - 2)
  
-    def _word_repl(self, word):
-        return Page(word).link_to()
-
-    def _img_repl(self, word):
-        path = relative_url(word)
-        return '<a href="%s"><img border="0" src="%s" /></a>' % (path, path)
-
-    def _url_repl(self, word):
-        if img_re.match(word):
-            return '<a href="%s"><img border="0" src="%s" /></a>' % (word, word)
-        else:
-            return '<a href="%s" rel="nofollow" class="external">%s</a>' % (word, word)
-
      def _macro_repl(self, word):
          m = re.compile("\<\<([^\s\|\>]+)(?:\s*\|\s*([^\>]+)|)\>\>").match(word)
          name = m.group(1)
@@ -366,7 +357,10 @@ class WikiFormatter:
  
          macro = globals().get('_macro_' + name)
          if not macro:
-            execfile("macros/" + name + ".py", globals())
+            try:
+                execfile("macros/" + name + ".py", globals())
+            except IOError, err:
+                if err.errno == errno.ENOENT: pass
              macro = globals().get('_macro_' + name)
          if macro:
              return macro(argv)
@@ -375,34 +369,36 @@ class WikiFormatter:
  
      def _hurl_repl(self, word):
          m = link_re.match(word)
-        name = m.group(1)
-        descr = m.group(2)
-        if descr is None:
-            descr = name
-        elif img_re.match(m.group(2)):
-            descr = '<img border="0" src="' + descr + '" />'
+        return link_tag(m.group(1), m.group(2))
  
-        return link_tag(name, descr, 'wikilink')
+    def _url_repl(self, word):
+        return link_tag(word)
+
+    def _word_repl(self, word):
+        return link_tag(word)
  
      def _inl_repl(self, word):
          m = link_re.match(word)
-        name = m.group(1)
-        descr = m.group(2) or name
-        name = relative_url(name)
-        argv = descr.split('|')
-        descr = argv.pop(0)
+        name = relative_url(m.group(1))
+        descr = m.group(2)
  
-        if argv:
-            args = '?' + '&amp;'.join(argv)
-        else:
+        if descr:
+            argv = descr.split('|')
+            descr = argv.pop(0)
              args = ''
+            if argv:
+                args = '?' + '&amp;'.join(argv)
  
-        if descr:
              # The "extthumb" nonsense works around a limitation of the HTML block model
              return '<div class="extthumb"><div class="thumb"><a href="%s"><img border="0" src="%s" alt="%s" /></a><div class="caption">%s</div></div></div>' \
                      % (name, name + args, descr, descr)
+        elif video_re.match(name):
+            return '<video src="%s">Your browser does not support the HTML5 video tag</video>' % name
          else:
-            return '<a href="%s"><img border="0" src="%s" /></a>' % (name, name + args)
+            return '<a href="%s"><img border="0" src="%s" /></a>' % (name, name)
+
+    def _img_repl(self, word):
+        return self._inl_repl('{{' + word + '}}')
  
      def _email_repl(self, word):
          return '<a href="mailto:%s">%s</a>' % (word, word)
@@ -485,11 +481,11 @@ class WikiFormatter:
          return res
  
      def replace(self, match):
-        for type, hit in match.groupdict().items():
+        for rule, hit in match.groupdict().items():
              if hit:
-                return getattr(self, '_' + type + '_repl')(hit)
+                return getattr(self, '_' + rule + '_repl')(hit)
          else:
-            raise "Can't handle match " + `match`
+            raise "Can't handle match " + repr(match)
  
      def print_html(self):
          print '<div class="wiki"><p>'
@@ -511,11 +507,11 @@ class WikiFormatter:
              + r"|(?P<hurl>\[\[([^\s\|]+)(?:\s*\|\s*([^\]]+)|)\]\])"
  
              # Inline HTML
-            + r"|(?P<html><(/|)(br|hr|div|form|iframe|input|span))"
+            + r"|(?P<html><(/|)(br|hr|div|span|form|iframe|input|textarea|a|img|h[1-5])[^>]*>)"
              + r"|(?P<ent>[<>&])"
  
              # Auto links (LEGACY)
-            + r"|(?P<img>\b[a-zA-Z0-9_/-]+\.(png|gif|jpg|jpeg|bmp|ico))"
+            + r"|(?P<img>\b[a-zA-Z0-9_/-]+\.(png|gif|jpg|jpeg|bmp|ico|ogm|ogg|mkv|mpg|mpeg|mp4|avi|asf|flv|wmv|qt))"
              + r"|(?P<word>\b(?:[A-Z][a-z]+){2,}\b)"
              + r"|(?P<url>(http|https|ftp|mailto)\:[^\s'\"]+\S)"
              + r"|(?P<email>[-\w._+]+\@[\w.-]+)"
@@ -540,7 +536,7 @@ class WikiFormatter:
          tr_re = re.compile(r"^\s*\|\|")
          eol_re = re.compile(r"\r?\n")
          for self.line in eol_re.split(self.raw.expandtabs()):
-            # Skip ACLs
+            # Skip pragmas
              if self.in_header:
                  if self.line.startswith('#'):
                      continue
@@ -557,7 +553,7 @@ class WikiFormatter:
                      print '</p><p>'
                  else:
                      indent = indent_re.match(self.line)
-                    print self._indent_to(len(indent.group(0)))
+                    print self._indent_to(len(indent.group(0))) ,
                      print re.sub(scan_re, self.replace, self.line)
  
          if self.in_pre: print '</pre>'
@@ -576,85 +572,78 @@ class Page:
          return re.sub('([a-z])([A-Z])', r'\1 \2', self.page_name)
  
      def _filename(self):
-        return path.join(data_dir, self.page_name)
+        return os.path.join(data_dir, self.page_name)
  
      def _tmp_filename(self):
-        return path.join(data_dir, ('#' + self.page_name.replace('/','_') + '.' + `os.getpid()` + '#'))
+        return os.path.join(data_dir, ('#' + self.page_name.replace('/','_') + '.' + `os.getpid()` + '#'))
  
      def exists(self):
          try:
              os.stat(self._filename())
              return True
-        except OSError, er:
-            if er.errno == errno.ENOENT:
+        except OSError, err:
+            if err.errno == errno.ENOENT:
                  return False
-            raise er
-
-    def link_to(self):
-        word = self.page_name
-        if self.exists():
-            return link_tag(word, word, 'wikilink')
-        else:
-            return link_tag(word, nonexist_pfx + word, 'nonexistent')
+            raise err
  
      def get_raw_body(self):
          try:
              return open(self._filename(), 'rb').read()
-        except IOError, er:
-            if er.errno == errno.ENOENT:
+        except IOError, err:
+            if err.errno == errno.ENOENT:
                  return '' # just doesn't exist, use default
-            if er.errno == errno.EISDIR:
+            if err.errno == errno.EISDIR:
                  return self.format_dir()
-            raise er
+            raise err
  
      def format_dir(self):
          out = '== '
-        path = ''
-        for dir in self.page_name.split('/'):
-            path = (path + '/' + dir) if path else dir
-            out += '[[' + path + '|' + dir + ']]/'
+        pathname = ''
+        for dirname in self.page_name.split('/'):
+            pathname = (pathname + '/' + dirname) if pathname else dirname
+            out += '[[' + pathname + '|' + dirname + ']]/'
          out += ' ==\n'
   
-        for file in page_list(self._filename(), file_re):
-            if img_re.match(file):
+        for filename in page_list(self._filename(), file_re):
+            if img_re.match(filename):
                  if image_maxwidth:
                      maxwidth_arg = '|maxwidth=' + str(image_maxwidth)
-                out += '{{' + self.page_name + '/' + file + '|' + file + maxwidth_arg + '}}\n'
+                out += '{{' + self.page_name + '/' + filename + '|' + filename + maxwidth_arg + '}}\n'
              else:
-                out += ' * [[' + self.page_name + '/' + file + ']]\n'
+                out += ' * [[' + self.page_name + '/' + filename + ']]\n'
          return out
-    def get_attrs(self):
-        if 'attrs' in self.__dict__:
-            return self.attrs
-        self.attrs = {}
-        try:
-            file = open(self._filename(), 'rt')
-            attr_re = re.compile(r"^#(\S*)(.*)$")
-            for line in file:
-                m = attr_re.match(line)
-                if not m:
-                    break
-                self.attrs[m.group(1)] = m.group(2).strip()
-                #print "bernie: attrs[" + m.group(1) + "] = " + m.group(2) + "<br>\n"
-        except IOError, er:
-            if er.errno != errno.ENOENT and er.errno != errno.EISDIR:
-                raise er
-        return self.attrs
-
-    def get_attr(self, name, default):
-        return self.get_attrs().get(name, default)
+
+    def pragmas(self):
+        if not '_pragmas' in self.__dict__:
+            self._pragmas = {}
+            try:
+                f = open(self._filename(), 'rt')
+                attr_re = re.compile(r"^#(\S*)(.*)$")
+                for line in f:
+                    m = attr_re.match(line)
+                    if not m:
+                        break
+                    self._pragmas[m.group(1)] = m.group(2).strip()
+                    #print "bernie: _pragmas[" + m.group(1) + "] = " + m.group(2) + "<br>\n"
+            except IOError, err:
+                if err.errno != errno.ENOENT and err.errno != errno.EISDIR:
+                    raise err
+        return self._pragmas
+
+    def pragma(self, name, default):
+        return self.pragmas().get(name, default)
  
      def can(self, action, default=True):
          acl = None
          try:
              #acl SomeUser:read,write All:read
-            acl = self.get_attr("acl", None)
+            acl = self.pragma("acl", None)
              for rule in acl.split():
                  (user, perms) = rule.split(':')
                  if user == remote_user() or user == "All":
                      return action in perms.split(',')
              return False
-        except Exception, er:
+        except Exception:
              if acl:
                  self.msg_text = 'Illegal acl line: ' + acl
          return default
@@ -673,7 +662,7 @@ class Page:
  
      def format(self):
          #css foo.css
-        value = self.get_attr("css", None)
+        value = self.pragma("css", None)
          if value:
              global link_urls
              link_urls += [ [ "stylesheet", value ] ]
@@ -681,15 +670,15 @@ class Page:
          send_title(self.page_name, self.split_title(),
              msg_text=self.msg_text, msg_type=self.msg_type, writable=self.can_write())
          self.send_naked()
-        send_footer(self.page_name, self._last_modified())
+        send_footer(self._last_modified())
  
      def _last_modified(self):
          try:
              from time import localtime, strftime
              modtime = localtime(os.stat(self._filename())[stat.ST_MTIME])
-        except OSError, er:
-            if er.errno != errno.ENOENT:
-                raise er
+        except OSError, err:
+            if err.errno != errno.ENOENT:
+                raise err
              return None
          return strftime(datetime_fmt, modtime)
  
@@ -699,9 +688,9 @@ class Page:
              send_guru("Write access denied by ACLs", "error")
              return
  
-        file = ''
+        filename = ''
          if 'file' in form:
-            file = form['file'].value
+            filename = form['file'].value
  
          print ('<p><b>Editing ' + self.page_name
              + ' for ' + cgi.escape(remote_user())
@@ -710,8 +699,8 @@ class Page:
          print '<div class="editor"><form name="editform" method="post" enctype="multipart/form-data" action="%s">' % relative_url(self.page_name)
          print '<input type="hidden" name="edit" value="%s">' % (self.page_name)
          print '<input type="input" id="editor" name="changelog" value="Edit page %s" accesskey="c" /><br />' % (self.page_name)
-        print '<textarea wrap="off" spellcheck="true" id="editor" name="savetext" rows="17" cols="100" accesskey="e">%s</textarea>' % (preview or self.get_raw_body())
-        print '<label for="file" accesskey="u">Or Upload a file:</label> <input type="file" name="file" value="%s" />' % file
+        print '<textarea wrap="off" spellcheck="true" id="editor" name="savetext" rows="17" cols="100" accesskey="e">%s</textarea>' % cgi.escape(preview or self.get_raw_body())
+        print '<label for="file" accesskey="u">Or Upload a file:</label> <input type="file" name="file" value="%s" />' % filename
          print """
              <br />
              <input type="submit" name="save" value="Save" accesskey="s">
@@ -726,12 +715,12 @@ class Page:
              //-->
              </script>
              """
-        print "<p>" + Page('EditingTips').link_to() + "</p>"
+        print "<p>" + link_tag('EditingTips') + "</p>"
          if preview:
              print "<div class='preview'>"
              WikiFormatter(preview).print_html()
              print "</div>"
-        send_footer(self.page_name)
+        send_footer()
  
      def send_raw(self, mimetype='text/plain'):
          if self.can_read():
@@ -759,8 +748,8 @@ class Page:
              # Bad Bill!  POSIX rename ought to replace. :-(
              try:
                  os.remove(name)
-            except OSError, er:
-                if er.errno != errno.ENOENT: raise er
+            except OSError, err:
+                if err.errno != errno.ENOENT: raise err
          os.rename(tmp_filename, name)
  
      def save(self, newdata, changelog):
@@ -791,40 +780,39 @@ class Page:
              self.msg_text = 'Thank you for your contribution.  Your attention to detail is appreciated.'
              self.msg_type = 'success'
  
-# Main ---------------------------------------------------------------
-try:
-    execfile("geekigeeki.conf.py")
-    form = cgi.FieldStorage()
-
+def main():
      for cmd in form:
          handler = globals().get('handle_' + cmd)
          if handler:
              handler(form[cmd].value)
              break
      else:
-        path_info = environ.get('PATH_INFO', '')
+        path_info = os.environ.get('PATH_INFO', '')
          if len(path_info) and path_info[0] == '/':
              query = path_info[1:] or 'FrontPage'
          else:
-            query = environ.get('QUERY_STRING', '') or 'FrontPage'
+            query = os.environ.get('QUERY_STRING', '') or 'FrontPage'
  
          if file_re.match(query):
              if word_re.match(query):
                  Page(query).format()
              else:
                  from mimetypes import MimeTypes
-                type, encoding = MimeTypes().guess_type(query)
-                #type = type or 'text/plain'
-                #Page(query).send_raw(mimetype=type)
-                if type:
-                    if type.startswith('image/'):
-                        Page(query).send_image(mimetype=type,args=form)
+                mimetype, encoding = MimeTypes().guess_type(query)
+                if mimetype:
+                    if mimetype.startswith('image/'):
+                        Page(query).send_image(mimetype=mimetype, args=form)
                      else:
-                        Page(query).send_raw(mimetype=type)
+                        Page(query).send_raw(mimetype=mimetype)
                  else:
                      Page(query).format()
          else:
              send_httperror("403 Forbidden", query)
+
+try:
+    execfile("geekigeeki.conf.py")
+    form = cgi.FieldStorage()
+    main()
  except Exception:
      import traceback
      msg_text = traceback.format_exc()
@@ -832,6 +820,6 @@ except Exception:
          send_guru(msg_text, "error")
      else:
          send_title(None, msg_text=msg_text)
-    send_footer(None)
+    send_footer()
  
  sys.stdout.flush()