add checker for mobi

2014-02-05 18:17:26 -05:00 · 2014-02-05 18:17:26 -05:00 · f8df2507ee
parent d03e8d5097
commit f8df2507ee
4 changed files with 398 additions and 2 deletions
--- a/frontend/forms.py
+++ b/frontend/forms.py
@ -61,6 +61,7 @@ from regluit.core.lookups import (
 )
 from regluit.utils.localdatetime import now
 from regluit.utils.fields import EpubFileField
+from regluit.mobi import Mobi

 logger = logging.getLogger(__name__)

@ -170,8 +171,11 @@ class EbookFileForm(forms.ModelForm):
                if not zipfile.is_zipfile(the_file.file):
                    raise forms.ValidationError(_('%s is not a valid EPUB file' % the_file.name) )
            elif format == 'mobi':
-                if not zipfile.is_zipfile(the_file.file):
-                    raise forms.ValidationError(_('%s is not a valid MOBI file' % the_file.name) )
+                try:
+                    book = Mobi(the_file.file);
+                    book.parse();
+                except Exception as e:
+                    raise forms.ValidationError(_('Are you sure this is a MOBI file?: %s' % e) )
            elif format == 'pdf':
                try:
                    doc = PdfFileReader(the_file.file)
--- a/mobi/init.py
+++ b/mobi/init.py
@ -0,0 +1,286 @@
+#!/usr/bin/env python
+# encoding: utf-8
+"""
+Mobi.py
+
+Created by Elliot Kroo on 2009-12-25.
+Copyright (c) 2009 Elliot Kroo. All rights reserved.
+"""
+
+import sys
+import os
+import unittest
+from struct import *
+from pprint import pprint
+import utils
+from lz77 import uncompress_lz77
+
+class Mobi:
+  def parse(self):
+    """ reads in the file, then parses record tables"""
+    self.contents = self.f.read();
+    self.header = self.parseHeader();
+    self.records = self.parseRecordInfoList();
+    self.readRecord0()
+
+  def readRecord(self, recordnum, disable_compression=False):
+    if self.config:
+      if self.config['palmdoc']['Compression'] == 1 or disable_compression:
+        return self.contents[self.records[recordnum]['record Data Offset']:self.records[recordnum+1]['record Data Offset']];
+      elif self.config['palmdoc']['Compression'] == 2:
+        result = uncompress_lz77(self.contents[self.records[recordnum]['record Data Offset']:self.records[recordnum+1]['record Data Offset']-self.config['mobi']['extra bytes']])
+        return result
+
+  def readImageRecord(self, imgnum):
+    if self.config:
+      recordnum = self.config['mobi']['First Image index'] + imgnum;
+      return self.readRecord(recordnum, disable_compression=True);
+
+  def author(self):
+    "Returns the author of the book"
+    return self.config['exth']['records'][100]
+
+  def title(self):
+    "Returns the title of the book"
+    return self.config['mobi']['Full Name']
+
+###########  Private API ###########################
+
+  def __init__(self, filename):
+    try:
+      if isinstance(filename, str):
+        self.f = open(filename, "rb");
+      else:
+        self.f = filename;
+    except IOError,e:
+      sys.stderr.write("Could not open %s! " % filename);
+      raise e;
+    self.offset = 0;
+
+  def __iter__(self):
+    if not self.config: return;
+    for record in range(1, self.config['mobi']['First Non-book index'] - 1):
+      yield self.readRecord(record);
+
+  def parseRecordInfoList(self):
+    records = {};
+    # read in all records in info list
+    for recordID in range(self.header['number of records']):
+      headerfmt = '>II'
+      headerlen = calcsize(headerfmt)
+      fields = [
+        "record Data Offset",
+        "UniqueID",
+      ]
+      # create tuple with info
+      results = zip(fields, unpack(headerfmt, self.contents[self.offset:self.offset+headerlen]))
+
+      # increment offset into file
+      self.offset += headerlen
+
+      # convert tuple to dictionary
+      resultsDict = utils.toDict(results);
+
+      # futz around with the unique ID record, as the uniqueID's top 8 bytes are
+      # really the "record attributes":
+      resultsDict['record Attributes'] = (resultsDict['UniqueID'] & 0xFF000000) >> 24;
+      resultsDict['UniqueID'] = resultsDict['UniqueID'] & 0x00FFFFFF;
+
+      # store into the records dict
+      records[resultsDict['UniqueID']] = resultsDict;
+
+    return records;
+
+  def parseHeader(self):
+    headerfmt = '>32shhIIIIII4s4sIIH'
+    headerlen = calcsize(headerfmt)
+    fields = [
+      "name",
+      "attributes",
+      "version",
+      "created",
+      "modified",
+      "backup",
+      "modnum",
+      "appInfoId",
+      "sortInfoID",
+      "type",
+      "creator",
+      "uniqueIDseed",
+      "nextRecordListID",
+      "number of records"
+    ]
+
+    # unpack header, zip up into list of tuples
+    results = zip(fields, unpack(headerfmt, self.contents[self.offset:self.offset+headerlen]))
+
+    # increment offset into file
+    self.offset += headerlen
+
+    # convert tuple array to dictionary
+    resultsDict = utils.toDict(results);
+
+    return resultsDict
+
+  def readRecord0(self):
+    palmdocHeader = self.parsePalmDOCHeader();
+    MobiHeader = self.parseMobiHeader();
+    exthHeader = None
+    if MobiHeader['Has EXTH Header']:
+      exthHeader = self.parseEXTHHeader();
+
+    self.config = {
+      'palmdoc': palmdocHeader,
+      'mobi' : MobiHeader,
+      'exth' : exthHeader
+    }
+
+  def parseEXTHHeader(self):
+    headerfmt = '>III'
+    headerlen = calcsize(headerfmt)
+
+    fields = [
+      'identifier',
+      'header length',
+      'record Count'
+    ]
+
+    # unpack header, zip up into list of tuples
+    results = zip(fields, unpack(headerfmt, self.contents[self.offset:self.offset+headerlen]))
+
+    # convert tuple array to dictionary
+    resultsDict = utils.toDict(results);
+
+    self.offset += headerlen;
+    resultsDict['records'] = {};
+    for record in range(resultsDict['record Count']):
+      recordType, recordLen = unpack(">II", self.contents[self.offset:self.offset+8]);
+      recordData = self.contents[self.offset+8:self.offset+recordLen];
+      resultsDict['records'][recordType] = recordData;
+      self.offset += recordLen;
+
+    return resultsDict;
+
+  def parseMobiHeader(self):
+    headerfmt = '> IIII II 40s III IIIII IIII I 36s IIII 8s HHIIIII'
+    headerlen = calcsize(headerfmt)
+
+    fields = [
+      "identifier",
+      "header length",
+      "Mobi type",
+      "text Encoding",
+
+      "Unique-ID",
+      "Generator version",
+
+      "-Reserved",
+
+      "First Non-book index",
+      "Full Name Offset",
+      "Full Name Length",
+
+      "Language",
+      "Input Language",
+      "Output Language",
+      "Format version",
+      "First Image index",
+
+      "First Huff Record",
+      "Huff Record Count",
+      "First DATP Record",
+      "DATP Record Count",
+
+      "EXTH flags",
+
+      "-36 unknown bytes, if Mobi is long enough",
+
+      "DRM Offset",
+      "DRM Count",
+      "DRM Size",
+      "DRM Flags",
+
+      "-Usually Zeros, unknown 8 bytes",
+
+      "-Unknown",
+      "Last Image Record",
+      "-Unknown",
+      "FCIS record",
+      "-Unknown",
+      "FLIS record",
+      "Unknown"
+    ]
+
+    # unpack header, zip up into list of tuples
+    results = zip(fields, unpack(headerfmt, self.contents[self.offset:self.offset+headerlen]))
+
+    # convert tuple array to dictionary
+    resultsDict = utils.toDict(results);
+
+    resultsDict['Start Offset'] = self.offset;
+
+    resultsDict['Full Name'] = (self.contents[
+      self.records[0]['record Data Offset'] + resultsDict['Full Name Offset'] :
+      self.records[0]['record Data Offset'] + resultsDict['Full Name Offset'] + resultsDict['Full Name Length']])
+
+    resultsDict['Has DRM'] = resultsDict['DRM Offset'] != 0xFFFFFFFF;
+
+    resultsDict['Has EXTH Header'] = (resultsDict['EXTH flags'] & 0x40) != 0;
+
+    self.offset += resultsDict['header length'];
+
+    def onebits(x, width=16):
+        return len(filter(lambda x: x == "1", (str((x>>i)&1) for i in xrange(width-1,-1,-1))));
+
+    resultsDict['extra bytes'] = 2*onebits(unpack(">H", self.contents[self.offset-2:self.offset])[0] & 0xFFFE)
+
+    return resultsDict;
+
+  def parsePalmDOCHeader(self):
+    headerfmt = '>HHIHHHH'
+    headerlen = calcsize(headerfmt)
+    fields = [
+      "Compression",
+      "Unused",
+      "text length",
+      "record count",
+      "record size",
+      "Encryption Type",
+      "Unknown"
+    ]
+    offset = self.records[0]['record Data Offset'];
+    # create tuple with info
+    results = zip(fields, unpack(headerfmt, self.contents[offset:offset+headerlen]))
+
+    # convert tuple array to dictionary
+    resultsDict = utils.toDict(results);
+
+    self.offset = offset+headerlen;
+    return resultsDict
+
+class MobiTests(unittest.TestCase):
+  def setUp(self):
+    self.mobitest = Mobi("../test/CharlesDarwin.mobi");
+  def testParse(self):
+    self.mobitest.parse();
+    pprint (self.mobitest.config)
+  def testRead(self):
+    self.mobitest.parse();
+    content = ""
+    for i in range(1,5):
+      content += self.mobitest.readRecord(i);
+  def testImage(self):
+    self.mobitest.parse();
+    pprint (self.mobitest.records);
+    for record in range(4):
+      f = open("imagerecord%d.jpg" % record, 'w')
+      f.write(self.mobitest.readImageRecord(record));
+      f.close();
+  def testAuthorTitle(self):
+    self.mobitest.parse()
+    self.assertEqual(self.mobitest.author(), 'Charles Darwin')
+    self.assertEqual(self.mobitest.title(), 'The Origin of Species by means '+
+        'of Natural Selection, 6th Edition')
+
+if __name__ == '__main__':
+  unittest.main()
--- a/mobi/lz77.py
+++ b/mobi/lz77.py
@ -0,0 +1,86 @@
+import struct
+# ported directly from the PalmDoc Perl library
+# http://kobesearch.cpan.org/htdocs/EBook-Tools/EBook/Tools/PalmDoc.pm.html
+
+def uncompress_lz77(data):
+  length = len(data);
+  offset = 0;   # Current offset into data
+  # char;      # Character being examined
+  # ord;      # Ordinal of $char
+  # lz77;      # 16-bit Lempel-Ziv 77 length-offset pair
+  # lz77offset;   # LZ77 offset
+  # lz77length;   # LZ77 length
+  # lz77pos;    # Position inside $lz77length
+  text = '';   # Output (uncompressed) text
+  # textlength;   # Length of uncompressed text during LZ77 pass
+  # textpos;    # Position inside $text during LZ77 pass
+
+  while offset < length:
+    # char = substr($data,$offset++,1);
+    char = data[offset];
+    offset += 1;
+    ord_ = ord(char);
+
+    # print " ".join([repr(char), hex(ord_)])
+
+    # The long if-elsif chain is the best logic for $ord handling
+    ## no critic (Cascading if-elsif chain)
+    if (ord_ == 0):
+      # Nulls are literal
+      text += char;
+    elif (ord_ <= 8):
+      # Next $ord bytes are literal
+      text += data[offset:offset+ord_] # text .=substr($data,$offset,ord);
+      offset += ord_;
+    elif (ord_ <= 0x7f):
+      # Values from 0x09 through 0x7f are literal
+      text += char;
+    elif (ord_ <= 0xbf):
+      # Data is LZ77-compressed
+
+      # From Wikipedia:
+      # "A length-distance pair is always encoded by a two-byte
+      # sequence. Of the 16 bits that make up these two bytes,
+      # 11 bits go to encoding the distance, 3 go to encoding
+      # the length, and the remaining two are used to make sure
+      # the decoder can identify the first byte as the beginning
+      # of such a two-byte sequence."
+
+      offset += 1;
+      if (offset > len(data)):
+        print("WARNING: offset to LZ77 bits is outside of the data: %d" % offset);
+        return text;
+
+      lz77, = struct.unpack('>H', data[offset-2:offset])
+
+      # Leftmost two bits are ID bits and need to be dropped
+      lz77 &= 0x3fff;
+
+      # Length is rightmost 3 bits + 3
+      lz77length = (lz77 & 0x0007) + 3;
+
+      # Remaining 11 bits are offset
+      lz77offset = lz77 >> 3;
+      if (lz77offset < 1):
+        print("WARNING: LZ77 decompression offset is invalid!");
+        return text;
+
+      # Getting text from the offset is a little tricky, because
+      # in theory you can be referring to characters you haven't
+      # actually decompressed yet. You therefore have to check
+      # the reference one character at a time.
+      textlength = len(text);
+      for lz77pos in range(lz77length): # for($lz77pos = 0; $lz77pos < $lz77length; $lz77pos++)
+        textpos = textlength - lz77offset;
+        if (textpos < 0):
+          print("WARNING: LZ77 decompression reference is before"+
+                " beginning of text! %x" % lz77);
+          return;
+
+        text += text[textpos:textpos+1]; #text .= substr($text,$textpos,1);
+        textlength+=1;
+    else:
+      # 0xc0 - 0xff are single characters (XOR 0x80) preceded by
+      # a space
+      text += ' ' + chr(ord_ ^ 0x80);
+  return text;
--- a/mobi/utils.py
+++ b/mobi/utils.py
@ -0,0 +1,20 @@
+#!/usr/bin/env python
+# encoding: utf-8
+"""
+utils.py
+
+Created by Elliot Kroo on 2009-12-25.
+Copyright (c) 2009 Elliot Kroo. All rights reserved.
+"""
+
+import sys
+import os
+import unittest
+
+
+def toDict(tuples):
+  resultsDict = {}
+  for field, value in tuples:
+    if len(field) > 0 and field[0] != "-":
+      resultsDict[field] = value
+  return resultsDict;