Added htmlz and pdf formats.

Added HTML reader/writer and PDF reader.
2020-04-19 13:43:16 +02:00
parent ebeca30bda
commit d2159ed60c
17 changed files with 55 additions and 65 deletions
@@ -53,6 +53,8 @@ Currently, I've tested following input formats:
 - rtf
 - mobi
 - fb2
 - html
 - pdf
 Note, that old Microsoft doc format is not supported, although old documents
 can be fairly easy converted using text processors programs, lik Word or
@@ -68,6 +70,7 @@ Currently, following formats are supported:
 - epub
 - mobi
 - docx
 - htmlz (zipped HTML file with additional assets, like images)
 Installation
@@ -41,8 +41,7 @@ class PDFInput(InputFormatPlugin):
        PDFDocument(xml, self.opts, self.log)
        return os.path.join(getcwd(), 'metadata.opf')
-    def convert(self, stream, options, file_ext, log,
+    def convert(self, stream, options, file_ext, log, accelerators):
                accelerators):
        from ebook_converter.ebooks.metadata.opf2 import OPFCreator
        from ebook_converter.ebooks.pdf.pdftohtml import pdftohtml
@@ -471,7 +471,7 @@ class HTMLPreProcessor(object):
        return re.search('<H2[^><]*id=BookTitle', raw) is not None
    def is_pdftohtml(self, src):
-        return '<!-- created by calibre\'s pdftohtml -->' in src[:1000]
+        return '<!-- created by ebook-converter\'s pdftohtml -->' in src[:1000]
    def __call__(self, html, remove_special_chars=None,
            get_preprocess_html=False):
@@ -627,7 +627,7 @@ class HTMLPreProcessor(object):
            html = preprocessor(html)
        if is_pdftohtml:
-            html = html.replace('<!-- created by calibre\'s pdftohtml -->', '')
+            html = html.replace('<!-- created by ebook-converter\'s pdftohtml -->', '')
        if getattr(self.extra_opts, 'smarten_punctuation', False):
            html = smarten_punctuation(html, self.log)
@@ -43,7 +43,7 @@ class HeuristicProcessor(object):
        self.common_in_text_beginnings = '[\\w\'\"“‘‛]'
    def is_pdftohtml(self, src):
-        return '<!-- created by calibre\'s pdftohtml -->' in src[:1000]
+        return '<!-- created by ebook-converter\'s pdftohtml -->' in src[:1000]
    def is_abbyy(self, src):
        return '<meta name="generator" content="ABBYY FineReader' in src[:1000]
@@ -15,7 +15,7 @@ from ebook_converter.ebooks import parse_css_length
 from ebook_converter.ebooks.docx.writer.utils import convert_color, int_or_zero
 from ebook_converter.utils.localization import lang_as_iso639_1
 from ebook_converter.polyglot.builtins import iteritems, filter, unicode_type
-from tinycss.css21 import CSS21Parser
+from ebook_converter.tinycss.css21 import CSS21Parser
 css_parser = CSS21Parser()
@@ -5,7 +5,7 @@ from __future__ import absolute_import, division, print_function, unicode_litera
 __license__ = 'GPL v3'
 __copyright__ = '2013, Kovid Goyal <kovid at kovidgoyal.net>'
-from tinycss.color3 import parse_color_string
+from ebook_converter.tinycss.color3 import parse_color_string
 def int_or_zero(raw):
@@ -7,17 +7,17 @@ __copyright__ = '2008, Kovid Goyal <kovid at kovidgoyal.net>'
 import os, subprocess, shutil, re
 from functools import partial
-from calibre import prints
+from ebook_converter import prints
-from calibre.constants import iswindows, ispy3
+from ebook_converter.constants import iswindows, ispy3
-from calibre.ptempfile import TemporaryDirectory
+from ebook_converter.ptempfile import TemporaryDirectory
-from calibre.ebooks.metadata import (
+from ebook_converter.ebooks.metadata import (
    MetaInformation, string_to_authors, check_isbn, check_doi)
-from calibre.utils.ipc.simple_worker import fork_job, WorkerError
+from ebook_converter.utils.ipc.simple_worker import fork_job, WorkerError
-from polyglot.builtins import iteritems, unicode_type
+from ebook_converter.polyglot.builtins import iteritems, unicode_type
 def get_tools():
-    from calibre.ebooks.pdf.pdftohtml import PDFTOHTML
+    from ebook_converter.ebooks.pdf.pdftohtml import PDFTOHTML
    base = os.path.dirname(PDFTOHTML)
    suffix = '.exe' if iswindows else ''
    pdfinfo = os.path.join(base, 'pdfinfo') + suffix
@@ -32,12 +32,14 @@ def read_info(outputdir, get_cover):
    way to pass unicode paths via command line arguments. This also ensures
    that if poppler crashes, no stale file handles are left for the original
    file, only for src.pdf.'''
    os.chdir(outputdir)
    pdfinfo, pdftoppm = get_tools()
    source_file = os.path.join(outputdir, 'src.pdf')
    cover_file = os.path.join(outputdir, 'cover')
    ans = {}
    try:
-        raw = subprocess.check_output([pdfinfo, '-enc', 'UTF-8', '-isodates', 'src.pdf'])
+        raw = subprocess.check_output([pdfinfo, '-enc', 'UTF-8', '-isodates',
                                       source_file])
    except subprocess.CalledProcessError as e:
        prints('pdfinfo errored out with return code: %d'%e.returncode)
        return None
@@ -61,7 +63,7 @@ def read_info(outputdir, get_cover):
    # https://cgit.freedesktop.org/poppler/poppler/commit/?id=c91483aceb1b640771f572cb3df9ad707e5cad0d
    # we can no longer rely on it.
    try:
-        raw = subprocess.check_output([pdfinfo, '-meta', 'src.pdf']).strip()
+        raw = subprocess.check_output([pdfinfo, '-meta', source_file]).strip()
    except subprocess.CalledProcessError as e:
        prints('pdfinfo failed to read XML metadata with return code: %d'%e.returncode)
    else:
@@ -74,8 +76,8 @@ def read_info(outputdir, get_cover):
    if get_cover:
        try:
-            subprocess.check_call([pdftoppm, '-singlefile', '-jpeg', '-cropbox',
+            subprocess.check_call([pdftoppm, '-singlefile', '-jpeg',
-                'src.pdf', 'cover'])
+                                   '-cropbox', source_file, cover_file])
        except subprocess.CalledProcessError as e:
            prints('pdftoppm errored out with return code: %d'%e.returncode)
@@ -114,17 +116,7 @@ def get_metadata(stream, cover=True):
        stream.seek(0)
        with open(os.path.join(pdfpath, 'src.pdf'), 'wb') as f:
            shutil.copyfileobj(stream, f)
-        try:
+        info = read_info(pdfpath, bool(cover))
            res = fork_job('calibre.ebooks.metadata.pdf', 'read_info',
                    (pdfpath, bool(cover)))
        except WorkerError as e:
            prints(e.orig_tb)
            raise RuntimeError('Failed to run pdfinfo')
        info = res['result']
        with open(res['stdout_stderr'], 'rb') as f:
            raw = f.read().strip()
            if raw:
                prints(raw)
        if info is None:
            raise ValueError('Could not read info dict from PDF')
        covpath = os.path.join(pdfpath, 'cover.jpg')
@@ -140,8 +132,6 @@ def get_metadata(stream, cover=True):
    else:
        au = string_to_authors(au)
    mi = MetaInformation(title, au)
    # if isbn is not None:
    #    mi.isbn = isbn
    creator = info.get('Creator', None)
    if creator:
@@ -161,7 +151,7 @@ def get_metadata(stream, cover=True):
        mi.tags.insert(0, subject)
    if 'xmp_metadata' in info:
-        from calibre.ebooks.metadata.xmp import consolidate_metadata
+        from ebook_converter.ebooks.metadata.xmp import consolidate_metadata
        mi = consolidate_metadata(mi, info)
    # Look for recognizable identifiers in the info dict, if they were not
@@ -182,9 +172,8 @@ def get_metadata(stream, cover=True):
 get_quick_metadata = partial(get_metadata, cover=False)
-from calibre.utils.podofo import set_metadata as podofo_set_metadata
+#from ebook_converter.utils.podofo import set_metadata as podofo_set_metadata
 def set_metadata(stream, mi):
-    stream.seek(0)
+    return None
    return podofo_set_metadata(stream, mi)
@@ -12,14 +12,14 @@ from collections import defaultdict
 from lxml import etree
 from lxml.builder import ElementMaker
-from calibre import prints
+from ebook_converter import prints
-from calibre.ebooks.metadata import check_isbn, check_doi
+from ebook_converter.ebooks.metadata import check_isbn, check_doi
-from calibre.utils.xml_parse import safe_xml_fromstring
+from ebook_converter.utils.xml_parse import safe_xml_fromstring
-from calibre.ebooks.metadata.book.base import Metadata
+from ebook_converter.ebooks.metadata.book.base import Metadata
-from calibre.ebooks.metadata.opf2 import dump_dict
+from ebook_converter.ebooks.metadata.opf2 import dump_dict
-from calibre.utils.date import parse_date, isoformat, now
+from ebook_converter.utils.date import parse_date, isoformat, now
-from calibre.utils.localization import canonicalize_lang, lang_as_iso639_1
+from ebook_converter.utils.localization import canonicalize_lang, lang_as_iso639_1
-from polyglot.builtins import iteritems, string_or_bytes, filter
+from ebook_converter.polyglot.builtins import iteritems, string_or_bytes, filter
 _xml_declaration = re.compile(r'<\?xml[^<>]+encoding\s*=\s*[\'"](.*?)[\'"][^<>]*>', re.IGNORECASE)
@@ -173,8 +173,8 @@ def read_series(root):
 def read_user_metadata(mi, root):
-    from calibre.utils.config import from_json
+    from ebook_converter.utils.config import from_json
-    from calibre.ebooks.metadata.book.json_codec import decode_is_multiple
+    from ebook_converter.ebooks.metadata.book.json_codec import decode_is_multiple
    fields = set()
    for item in XPath('//calibre:custom_metadata')(root):
        for li in XPath('./rdf:Bag/rdf:li')(item):
@@ -436,8 +436,8 @@ def create_series(calibre, series, series_index):
 def create_user_metadata(calibre, all_user_metadata):
-    from calibre.utils.config import to_json
+    from ebook_converter.utils.config import to_json
-    from calibre.ebooks.metadata.book.json_codec import object_to_unicode, encode_is_multiple
+    from ebook_converter.ebooks.metadata.book.json_codec import object_to_unicode, encode_is_multiple
    s = calibre.makeelement(expand('calibre:custom_metadata'))
    calibre.append(s)
@@ -640,7 +640,7 @@ def merge_xmp_packet(old, new):
 if __name__ == '__main__':
-    from calibre.utils.podofo import get_xmp_metadata
+    from ebook_converter.utils.podofo import get_xmp_metadata
    xmp_packet = get_xmp_metadata(sys.argv[-1])
    mi = metadata_from_xmp_packet(xmp_packet)
    np = metadata_to_xmp_packet(mi)
@@ -14,7 +14,7 @@ from ebook_converter.utils.img import save_cover_data_to, scale_image, image_to_
 from ebook_converter.utils.imghdr import what
 from ebook_converter.ebooks import normalize
 from ebook_converter.polyglot.builtins import unicode_type, range, as_bytes, map
-from tinycss.color3 import parse_color_string
+from ebook_converter.tinycss.color3 import parse_color_string
 IMAGE_MAX_SIZE = 10 * 1024 * 1024
 RECORD_SIZE = 0x1000  # 4096 (Text record size (uncompressed))
@@ -500,7 +500,6 @@ class Style(object):
        background shortcut properties. Note that inheritance/default values
        are not used. None is returned if no background color is set.
        '''
        def validate_color(col):
            return cssprofiles.validateWithProfile('color',
                        col,
@@ -98,7 +98,7 @@ def pdftohtml(output_dir, pdf_path, no_images, as_xml=False):
            with lopen(index, 'r+b') as i:
                raw = i.read().decode('utf-8', 'replace')
                raw = flip_images(raw)
-                raw = raw.replace('<head', '<!-- created by ebook_converter\'s pdftohtml -->\n  <head', 1)
+                raw = raw.replace('<head', '<!-- created by ebook-converter\'s pdftohtml -->\n  <head', 1)
                i.seek(0)
                i.truncate()
                # versions of pdftohtml >= 0.20 output self closing <br> tags, this
@@ -12,9 +12,9 @@
 from .version import VERSION
 __version__ = VERSION
-from tinycss.css21 import CSS21Parser
+from ebook_converter.tinycss.css21 import CSS21Parser
-from tinycss.page3 import CSSPage3Parser
+from ebook_converter.tinycss.page3 import CSSPage3Parser
-from tinycss.fonts3 import CSSFonts3Parser
+from ebook_converter.tinycss.fonts3 import CSSFonts3Parser
 from ebook_converter.tinycss.media3 import CSSMedia3Parser
@@ -13,10 +13,10 @@
 from __future__ import unicode_literals
 from itertools import chain, islice
-from tinycss.decoding import decode
+from ebook_converter.tinycss.decoding import decode
-from tinycss.token_data import TokenList
+from ebook_converter.tinycss.token_data import TokenList
-from tinycss.tokenizer import tokenize_grouped
+from ebook_converter.tinycss.tokenizer import tokenize_grouped
-from tinycss.parsing import (
+from ebook_converter.tinycss.parsing import (
    strip_whitespace, remove_whitespace, split_on_comma, validate_value,
    validate_any, ParseError)
@@ -15,7 +15,7 @@ from __future__ import unicode_literals
 import operator
 import re
-from polyglot.binary import from_hex_bytes
+from ebook_converter.polyglot.binary import from_hex_bytes
 __all__ = ['decode']  # Everything else is implementation detail
@@ -8,8 +8,8 @@ __copyright__ = '2014, Kovid Goyal <kovid at kovidgoyal.net>'
 import re
 from ebook_converter.polyglot.builtins import map
-from tinycss.css21 import CSS21Parser, ParseError
+from ebook_converter.tinycss.css21 import CSS21Parser, ParseError
-from tinycss.tokenizer import tokenize_grouped
+from ebook_converter.tinycss.tokenizer import tokenize_grouped
 def parse_font_family_tokens(tokens):
@@ -5,8 +5,8 @@ from __future__ import absolute_import, division, print_function, unicode_litera
 __license__ = 'GPL v3'
 __copyright__ = '2014, Kovid Goyal <kovid at kovidgoyal.net>'
-from tinycss.css21 import CSS21Parser
+from ebook_converter.tinycss.css21 import CSS21Parser
-from tinycss.parsing import remove_whitespace, split_on_comma, ParseError
+from ebook_converter.tinycss.parsing import remove_whitespace, split_on_comma, ParseError
 from ebook_converter.polyglot.builtins import error_message
@@ -14,7 +14,7 @@
 from __future__ import unicode_literals
-from tinycss import token_data
+from ebook_converter.tinycss import token_data
 def tokenize_flat(css_source, ignore_comments=True,