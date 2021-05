# chardetによるエンコーディングの判定とテキストデータのデコード

# sjis.txtの内容:このファイルはシフトJISでエンコーディングされています

from chardet import detect # 「pip install chardet」などでインストールしておく



with open('sjis.txt', 'rb') as f: # バイナリファイルとしてファイルをオープン

b = f.read() # ファイルの内容を全て読み込む



print(b) # b'\x82\xb1\x82\xcc\x83t\x83@\x83C……\xa2\x82\xdc\x82\xb7\r

'

enc = detect(b) # chardet.detect関数を使ってエンコーディングを判定

print(enc)

# 出力結果:

# {'encoding': 'SHIFT_JIS', 'confidence': 0.99, 'language': 'Japanese'}



# 得られたエンコーディング情報を使ってファイルをオープンし直す

with open('sjis.txt', encoding=enc['encoding']) as f:

s = f.read()



print(repr(s)) # 'このファイルはシフトJISでエンコーディングされています

'



# もしくは得られたエンコーディング情報を使ってバイト列をデコード

s = b.decode(encoding=enc['encoding'])

print(repr(s)) # 'このファイルはシフトJISでエンコーディングされています\r

'



# ファイルサイズが大きい場合

from chardet.universaldetector import UniversalDetector



with open('sjis.txt', 'rb') as f: # ファイルをバイナリファイルとしてオープン

detector = UniversalDetector() # UniversalDetectorオブジェクトを生成

for line in f: # 行末(

)またはEOFまでを読み込みながら、以下を繰り返す

detector.feed(line) # 読み込んだデータをfeedメソッドに渡す

if detector.done: # 判定できたらdone属性がTrueになるのでループを終了

break

detector.close() # ループ終了時にUniversalDetectorオブジェクトをクローズ



print(detector.result)

# 出力結果:

# {'encoding': 'SHIFT_JIS', 'confidence': 0.99, 'language': 'Japanese'}



# UniversalDetectorオブジェクトもまとめてwith文で取り扱う

from chardet.universaldetector import UniversalDetector

from contextlib import closing



with open('sjis.txt', 'rb') as f, closing(UniversalDetector()) as detector:

for line in f:

detector.feed(line)

if detector.done:

break



print(detector.result) # 結果を出力