DeepMorphy

0240c6e verified 10 months ago

8.94 kB

	import os, pickle
	import numpy as np
	import tensorflow as tf
	from tqdm import tqdm
	from model import RNN
	from utils import CONFIG, decode_word, load_datasets


	class Tester:
	def __init__(self):
	self.config = CONFIG
	self.config['graph_part_configs']['lemm']['use_cls_placeholder'] = True
	self.rnn = RNN(True)
	self.chars = {c: index for index, c in enumerate(self.config['chars'])}
	self.batch_size = 65536
	self.show_bad_items = False

	def test(self):
	config = tf.ConfigProto(allow_soft_placement=True)
	results = []
	with tf.Session(config=config, graph=self.rnn.graph) as sess:
	sess.run(tf.global_variables_initializer())
	sess.run(tf.local_variables_initializer())
	self.rnn.restore(sess)
	for gram in self.rnn.gram_keys:
	full_cls_acc, part_cls_acc, _ = self.__test_classification__(sess, gram, self.rnn.gram_graph_parts[gram], 'test')
	result = f"{gram}. full_cls_acc: {full_cls_acc}; part_cls_acc: {part_cls_acc}"
	results.append(result)
	tqdm.write(result)

	full_cls_acc, part_cls_acc, _ = self.__test_classification__(sess, 'main', self.rnn.main_graph_part, 'test')
	result = f"main. full_cls_acc: {full_cls_acc}; part_cls_acc: {part_cls_acc}"
	results.append(result)
	tqdm.write(result)
	lemm_acc, _ = self.__test_lemmas__(sess, 'test')
	result = f"lemma_acc: {lemm_acc}"
	tqdm.write(result)
	results.append(result)
	inflect_acc, _ = self.__test_inflect__(sess, 'test')
	result = f"inflect_acc: {inflect_acc}"
	tqdm.write(result)
	results.append(result)
	tqdm.write(result)

	return "\n".join(results)

	def __get_classification_items__(self, sess, items, graph_part):
	wi = 0
	pbar = tqdm(total=len(items), desc='Getting classification info')
	results = []
	etalon = []

	while wi < len(items):
	bi = 0
	xs = []
	indexes = []
	seq_lens = []
	max_len = 0

	while bi < self.batch_size and wi < len(items):
	word = items[wi]['src']
	etalon.append(items[wi]['y'])
	for c_index, char in enumerate(word):
	xs.append(self.chars[char] if char in self.chars else self.chars['UNDEFINED'])
	indexes.append([bi, c_index])
	cur_len = len(word)
	if cur_len > max_len:
	max_len = cur_len
	seq_lens.append(cur_len)
	bi += 1
	wi += 1
	pbar.update(1)

	lnch = [graph_part.probs[0]]
	nn_results = sess.run(
	lnch,
	{
	self.rnn.batch_size: bi,
	self.rnn.x_seq_lens[0]: np.asarray(seq_lens),
	self.rnn.x_vals[0]: np.asarray(xs),
	self.rnn.x_inds[0]: np.asarray(indexes),
	self.rnn.x_shape[0]: np.asarray([bi, max_len])
	}
	)
	results.extend(nn_results[0])

	return results, etalon

	def __get_lemma_items__(self, sess, items):
	wi = 0
	pbar = tqdm(total=len(items))
	while wi < len(items):
	bi = 0
	xs = []
	clss = []
	indexes = []
	seq_lens = []
	max_len = 0

	while bi < self.batch_size and wi < len(items):
	item = items[wi]
	word = item['x_src']
	x_cls = item['main_cls']
	for c_index, char in enumerate(word):
	xs.append(self.chars[char])
	indexes.append([bi, c_index])
	cur_len = len(word)
	clss.append(x_cls)
	if cur_len > max_len:
	max_len = cur_len
	seq_lens.append(cur_len)
	bi += 1
	wi += 1
	pbar.update(1)

	lnch = [self.rnn.lem_result]
	results = sess.run(
	lnch,
	{
	self.rnn.batch_size: bi,
	self.rnn.x_seq_lens[0]: np.asarray(seq_lens),
	self.rnn.x_vals[0]: np.asarray(xs),
	self.rnn.x_inds[0]: np.asarray(indexes),
	self.rnn.lem_class_pl: np.asarray(clss),
	self.rnn.x_shape[0]: np.asarray([bi, max_len])
	}
	)
	for word_src in results[0]:
	yield decode_word(word_src[0])

	def __get_inflect_items__(self, sess, items):
	wi = 0
	pbar = tqdm(total=len(items))
	while wi < len(items):
	bi = 0
	xs = []
	x_clss = []
	y_clss = []
	indexes = []
	seq_lens = []
	max_len = 0

	while bi < self.batch_size and wi < len(items):
	item = items[wi]
	word = item['x_src']
	x_cls = item['x_cls']
	y_cls = item['y_cls']
	for c_index, char in enumerate(word):
	xs.append(self.chars[char])
	indexes.append([bi, c_index])
	cur_len = len(word)
	x_clss.append(x_cls)
	y_clss.append(y_cls)
	if cur_len > max_len:
	max_len = cur_len
	seq_lens.append(cur_len)
	bi += 1
	wi += 1
	pbar.update(1)

	lnch = [self.rnn.inflect_graph_part.results[0]]
	results = sess.run(
	lnch,
	{
	self.rnn.batch_size: bi,
	self.rnn.x_seq_lens[0]: np.asarray(seq_lens),
	self.rnn.x_vals[0]: np.asarray(xs),
	self.rnn.x_inds[0]: np.asarray(indexes),
	self.rnn.inflect_graph_part.x_cls[0]: np.asarray(x_clss),
	self.rnn.inflect_graph_part.y_cls[0]: np.asarray(y_clss),
	self.rnn.x_shape[0]: np.asarray([bi, max_len])
	}
	)

	for word_src in results[0]:
	yield decode_word(word_src)

	def __test_classification__(self, sess, key, graph_part, *ds_types):
	et_items = load_datasets(key, *ds_types)
	results, etalon = self.__get_classification_items__(sess, et_items, graph_part)
	total = len(etalon)
	total_classes = 0
	full_correct = 0
	part_correct = 0
	bad_items = []

	for index, et in enumerate(etalon):
	classes_count = et.sum()
	good_classes = np.argwhere(et == 1).ravel()
	rez_classes = np.argsort(results[index])[-classes_count:]

	total_classes += classes_count
	correct = True
	for cls in rez_classes:
	if cls in good_classes:
	part_correct += 1
	else:
	correct = False

	if correct:
	full_correct += 1
	else:
	bad_items.append((et_items[index], rez_classes))

	full_acc = full_correct / total
	cls_correct = part_correct / total_classes
	return full_acc, cls_correct, bad_items

	def __test_lemmas__(self, sess, *ds_types):
	good_items = load_datasets("lemma", *ds_types)
	good_items = [
	word
	for word in good_items
	if all([c in self.config['chars'] for c in word['x_src']])
	]
	results = list(self.__get_lemma_items__(sess, good_items))

	bad_words = []
	total = len(good_items)
	wrong = 0
	for index, rez in enumerate(results):
	et_word = good_items[index]
	if rez != et_word['y_src']:
	wrong += 1
	bad_words.append((et_word, rez))

	correct = total - wrong
	acc = correct / total
	return acc, bad_words

	def __test_inflect__(self, sess, *ds_types):
	good_items = load_datasets("inflect", *ds_types)
	good_items = [
	word
	for word in good_items
	if all([c in self.config['chars'] for c in word['x_src']])
	]

	bad_items = []
	rez_words = list(self.__get_inflect_items__(sess, good_items))
	total = len(good_items)
	wrong = 0
	for index, rez in enumerate(rez_words):
	et_word = good_items[index]
	if rez != et_word['y_src']:
	wrong += 1
	bad_items.append((et_word, rez))

	correct = total - wrong
	acc = correct / total
	return acc, bad_items


	if __name__ == "__main__":
	tester = Tester()
	tester.test()