Changeset 2299


Ignore:
Timestamp:
Mar 3, 2009 12:55:06 PM (10 years ago)
Author:
hazmat
Message:

use htmltotext to transform html to text

Location:
ore.transforms/trunk
Files:
2 edited

Legend:

Unmodified
Added
Removed
  • ore.transforms/trunk/ore/transforms/common.py

    r2296 r2299  
    55from ore.transforms import transform, interfaces, utils 
    66 
     7import htmltotext 
    78import threading 
    89 
     
    3132                       xls_to_text, word_to_html, odf_to_text ]: 
    3233 
     34 
     35         
    3336        for i in transform.inputs: 
    3437            component.provideUtility( 
    35                 interfaces.ITransform, transform, 
     38                transform, 
     39                interfaces.ITransform,  
    3640                i + ' -> ' + transform.output 
    3741                ) 
     
    4852    binaryArgs = "-i -noframes -enc UTF-8 -stdout" 
    4953 
     54    def postProcess( self, work_dir, source_copy, output_copy, **kw): 
     55        """ extract just the body html from the transform 
     56        """ 
     57        _html_text( output_copy ) 
     58         
    5059class rtf_to_html(transform.CommandTransform): 
    5160 
     
    7685 
    7786    inputs = ('application/msword',) 
    78     output = 'text/html' 
     87    output = 'text/plain' 
    7988     
    8089    binary = "wvHtml" 
     
    8493        """ extract just the body html from the transform 
    8594        """ 
     95        _html_text( output_copy ) 
    8696         
    87         html_file = open( output_copy) 
    88         html_content = html_file.read() 
    89          
    90         html = utils.scrubHTML( html_content ) 
    91         body = utils.bodyfinder( html_content ) 
    92  
    93         html_file.truncate(0) 
    94         html_file.write( body ) 
    95         html_file.flush() 
    96         html_file.close() 
    97  
    9897class odf_to_text( transform.Transform ): 
    9998 
     
    127126            print >> out, node.tail.encode ('utf-8'), 
    128127 
     128 
     129 
     130def _html_text( output_copy ): 
     131    html_file = open( output_copy ) 
     132    html_content = html_file.read() 
     133 
     134    html = htmltotext.extract( html_content ) 
     135    return html.conetnt 
  • ore.transforms/trunk/setup.py

    r2296 r2299  
    1010    install_requires=['setuptools', 
    1111                      'OOoPy', 
     12                      'htmltotext', 
    1213                      'zope.interface'], 
    1314    packages=find_packages(), 
Note: See TracChangeset for help on using the changeset viewer.