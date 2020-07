# !pip install tensorflow # ライブラリ「TensorFlow」をインストール

# !pip install keras # tf.kerasの場合は不要だが、Kerasを使う場合はライブラリ「Keras」をインストール



from tensorflow.keras.datasets import imdb # tf.kerasを使う場合(通常)

#from keras.datasets import imdb # tf.kerasではなく、Kerasを使う必要がある場合はこちらを有効にする



RESERVED = 3 # 「0」〜「2」は予約済みのインデックス(ID)として扱う



(train_data, train_labels), (test_data, test_labels) = imdb.load_data(

num_words=None,# 上位N個の頻出語のみを対象とする。それより少ない頻出語はoov_charの単語に置き換えて表現される

skip_top=100, # 再頻出の上位N個の単語をスキップする(例えばtheやofなどは意味が弱く有益ではない場合があるため)。スキップされた単語はoov_charの単語に置き換えて表現される

maxlen=None, # シーケンスの最大長。それより長いシーケンスは切り捨てられる

start_char=1, # シーケンスの開始が、この単語/文字でマークされる

oov_char=2, # out-of-vocabulary(語彙外の単語)。上記のnum_wordsやskip_topによって削除された単語をこの単語/文字で置き換える

index_from=RESERVED, # 単語へのインデックス付けが、この値以上になる。パディング用の「0」と、上記のstart_char「1」とoov_char「2」を予約済みとし、それより後の「3以降」からインデックス(ID)を使うということ

seed=123) # シャッフル時に使うランダムシード(任意の数値)を指定可能



# 全ての「単語:ID」の辞書を取得する

word_index = imdb.get_word_index()



# 最初の「0」〜「2」のIDは予約済みとなっており、以下の意味になる

word_to_id = {k:(v+RESERVED) for k,v in word_index.items()}

word_to_id["<PADDING>"] = 0 # パディング(余白)

word_to_id["<START>"] = 1 # シーケンスの開始単語(start_charで定義)

word_to_id["<UNKNOWN>"] = 2 # 未知の単語(oov_charで定義)



# 「単語:ID」→「ID:単語」の辞書に変換する

id_to_word = {value:key for key,value in word_to_id.items()}



# テキストを取得する関数を定義

def get_imdb_review(text):

return ' '.join([id_to_word.get(id, '?') for id in text])



# 上記の関数の使用例

get_imdb_review(train_data[0])

# (実行結果では、訓練データの1番目のテキストが取得される)