fume-manage-python.git

U  
L±d:ã@sÂdZddlZddlZddlZddlmZmZmZddlm    Z    ddl
mZddlm Z mZmZddlmZdd    lmZdd
lmZddlmZddlmZdd lmZddlmZGdddZdS)a
Module containing the UniversalDetector detector class, which is the primary
class a user of ``chardet`` should use.
 
:author: Mark Pilgrim (initial port to Python)
:author: Shy Shalom (original C code)
:author: Dan Blanchard (major refactoring for 3.0)
:author: Ian Cordasco
éN)ÚListÚOptionalÚUnioné)ÚCharSetGroupProber)Ú CharSetProber)Ú
InputStateÚLanguageFilterÚProbingState)ÚEscCharSetProber)ÚLatin1Prober)ÚMacRomanProber)ÚMBCSGroupProber)Ú
ResultDict)ÚSBCSGroupProber)Ú UTF1632Proberc    @säeZdZdZdZe d¡Ze d¡Ze d¡Z    dddd    d
ddd dZ
ddddddddZej dfeeddddZeedddZeedddZeeedddZddd d!Zeeefdd"d#d$Zedd%d&ZdS)'ÚUniversalDetectoraq
    The ``UniversalDetector`` class underlies the ``chardet.detect`` function
    and coordinates all of the different charset probers.
 
    To get a ``dict`` containing an encoding and its confidence, you can simply
    run:
 
    .. code::
 
            u = UniversalDetector()
            u.feed(some_bytes)
            u.close()
            detected = u.result
 
    gÉ?s[-ÿ]s(|~{)s[-]zWindows-1252zWindows-1250zWindows-1251zWindows-1256zWindows-1253zWindows-1255zWindows-1254zWindows-1257)ú
iso-8859-1z
iso-8859-2z
iso-8859-5z
iso-8859-6z
iso-8859-7z
iso-8859-8ú
iso-8859-9ziso-8859-13zISO-8859-11ZGB18030ÚCP949úUTF-16)Úasciirztis-620rÚgb2312zeuc-krzutf-16leFN)Úlang_filterÚshould_rename_legacyÚreturncCsdd|_d|_g|_dddd|_d|_d|_tj|_d|_    ||_
t t ¡|_d|_||_| ¡dS)Nç©ÚencodingÚ
confidenceÚlanguageFó)Ú_esc_charset_proberÚ_utf1632_proberÚ_charset_probersÚresultÚdoneÚ    _got_datarÚ
PURE_ASCIIÚ_input_stateÚ
_last_charrÚloggingÚ    getLoggerÚ__name__ÚloggerÚ_has_win_bytesrÚreset)Úselfrr©r2úPd:\z\workplace\vscode\pyvenv\venv\Lib\site-packages\chardet/universaldetector.pyÚ__init__ds ýzUniversalDetector.__init__)rcCs|jS©N)r)©r1r2r2r3Úinput_state{szUniversalDetector.input_statecCs|jSr5)r/r6r2r2r3Ú has_win_bytesszUniversalDetector.has_win_bytescCs|jSr5)r$r6r2r2r3Úcharset_proberssz!UniversalDetector.charset_proberscCsfdddd|_d|_d|_d|_tj|_d|_|jr>|j     ¡|j
rN|j
     ¡|jD]}|     ¡qTdS)zæ
        Reset the UniversalDetector and all of its probers back to their
        initial states.  This is called by ``__init__``, so you only need to
        call this directly in between analyses of different documents.
        NrrFr!)r%r&r'r/rr(r)r*r"r0r#r$)r1Úproberr2r2r3r0s
 
 
zUniversalDetector.reset)Úbyte_strrcCs|jr
dS|sdSt|ts$t|}|jsÚ| tj¡rFdddd|_nv| tjtj    f¡rhdddd|_nT| d¡rdddd|_n:| d    ¡rd
ddd|_n | tj
tjf¡r¼dddd|_d|_|jd dk    rÚd|_dS|jt jkr(|j |¡rþt j|_n*|jt jkr(|j |j|¡r(t j|_|dd|_|jsFt|_|jjtjkr|j |¡tjkr|jj|j ¡dd|_d|_dS|jt jkræ|js®t|j |_|j |¡tjkr|jj|j ¡|jj!d|_d|_n²|jt jkr|j"sBt#|j g|_"|j t$j%@r&|j" &t'¡|j" &t(¡|j" &t)¡|j"D]:}| |¡tjkrH|j| ¡|j!d|_d|_qqH|j* |¡rd|_+dS)aý
        Takes a chunk of a document and feeds it through all of the relevant
        charset probers.
 
        After calling ``feed``, you can check the value of the ``done``
        attribute to see if you need to continue feeding the
        ``UniversalDetector`` more data, or if it has made a prediction
        (in the ``result`` attribute).
 
        .. note::
           You should always call ``close`` when you're done feeding in your
           document if ``done`` is not already ``True``.
        Nz    UTF-8-SIGçð?ÚrzUTF-32sþÿzX-ISO-10646-UCS-4-3412sÿþzX-ISO-10646-UCS-4-2143rTréÿÿÿÿ),r&Ú
isinstanceÚ    bytearrayr'Ú
startswithÚcodecsÚBOM_UTF8r%ÚBOM_UTF32_LEÚBOM_UTF32_BEÚBOM_LEÚBOM_BEr)rr(ÚHIGH_BYTE_DETECTORÚsearchÚ    HIGH_BYTEÚESC_DETECTORr*Ú    ESC_ASCIIr#rÚstater
Ú    DETECTINGÚfeedÚFOUND_ITÚcharset_nameÚget_confidencer"rrr r$rr    ÚNON_CJKÚappendrrr ÚWIN_BYTE_DETECTORr/)r1r;r:r2r2r3rOs
ý
 
ü
 
ü
 
 
ÿþýý
ý
zUniversalDetector.feedc        Cs|jr|jSd|_|js&|j d¡nØ|jtjkrBdddd|_n¼|jtjkrþd}d}d}|j    D]"}|sjq`| 
¡}||kr`|}|}q`|rþ||jkrþ|j}|dk    s¤t | ¡}| 
¡}| d    ¡rÒ|jrÒ|j ||¡}|jrî|j |päd ¡|¡}|||jd|_|j ¡tjkr|jd
dkr|j d¡|j    D]`}|s@q2t|trv|jD] }|j d|j|j| 
¡¡qRn|j d|j|j| 
¡¡q2|jS) zæ
        Stop analyzing the current document and come up with a final
        prediction.
 
        :returns:  The ``result`` attribute, a ``dict`` with the keys
                   `encoding`, `confidence`, and `language`.
        Tzno data received!rr<r=rNrziso-8859rz no probers hit minimum thresholdz%s %s confidence = %s)r&r%r'r.Údebugr)rr(rJr$rRÚMINIMUM_THRESHOLDrQÚAssertionErrorÚlowerrAr/ÚISO_WIN_MAPÚgetrÚ
LEGACY_MAPr ÚgetEffectiveLevelr+ÚDEBUGr?rÚprobers)    r1Úprober_confidenceÚmax_prober_confidenceÚ
max_proberr:rQÚlower_charset_namerÚgroup_proberr2r2r3Úclosesv    
 
ÿ
ÿý
 
ü
üzUniversalDetector.close)r-Ú
__module__Ú__qualname__Ú__doc__rWÚreÚcompilerHrKrUrZr\r    ÚALLÚboolr4ÚpropertyÚintr7r8rrr9r0rÚbytesr@rOrrer2r2r2r3r8sN
 
 
øùýür)rhrBr+riÚtypingrrrÚcharsetgroupproberrÚ charsetproberrÚenumsrr    r
Ú    escproberrÚlatin1proberrZmacromanproberr ÚmbcsgroupproberrZ
resultdictrÚsbcsgroupproberrZ utf1632proberrrr2r2r2r3Ú<module>s