Text Generation

lcsts

LCSTS加载函数

mindnlp.dataset.text_generation.lcsts.LCSTS(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'dev'), proxies=None)[源代码]

加载LCSTS数据集

参数

root (str) – 存放数据集的目录。
split (str|Tuple[str]) – 要返回的数据集分块。默认：(‘train’, ‘dev’)。
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块，如：’trian’，那么就只返回这个数据集分块，而不是一个列表。

抛出

TypeError – 如果 root 不是string。
TypeError – 如果 split 不是string或者Tuple[str]。

示例

>>> root = "~/.mindnlp"
>>> split = ('train', 'dev')
>>> dataset_train, dataset_dev = LCSTS(root, split)
>>> train_iter = dataset_train.create_dict_iterator()
>>> print(next(train_iter))
{'source': Tensor(shape=[], dtype=String, value= '一辆小轿车，一名女司机，\
    竟造成9死24伤。日前，深圳市交警局对事故进行通报：从目前证据看，事故系司机超速行驶且操作不当导致。\
        目前24名伤员已有6名治愈出院，其余正接受治疗，预计事故赔偿费或超一千万元。'),
'target': Tensor(shape=[], dtype=String, value= '深圳机场9死24伤续：司机全责赔偿或超千万')}

class mindnlp.dataset.text_generation.lcsts.Lcsts(path)[源代码]

基类：object

LCSTS数据源

penntreebank

PennTreebank加载函数

mindnlp.dataset.text_generation.penntreebank.PennTreebank(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'valid', 'test'), proxies=None)[源代码]

加载PennTreebank数据集

参数

root (str) – 存放数据集的目录。
split (str|Tuple[str]) – 要返回的数据集分块。默认：(‘train’, ‘valid’, ‘test’)
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块，如：’trian’，那么就只返回这个数据集分块，而不是一个列表。

抛出

TypeError – 如果 root 不是string。
TypeError – 如果 split 不是string或者Tuple[str]。

示例

>>> root = "~/.mindnlp"
>>> split = ('train', 'valid', 'test')
>>> dataset_train, dataset_valid, dataset_test = PennTreebank(root, split)
>>> train_iter = dataset_train.create_tuple_iterator()
>>> print(next(train_iter))
[Tensor(shape=[], dtype=String, value= ' aer banknote berlitz calloway centrust \
    cluett fromstein gitano guterman hydro-quebec ipo kia memotec mlx nahb punts \
        rake regatta rubens sim snack-food ssangyong swapo wachter ')]

wikitext103

WikiText103加载函数

mindnlp.dataset.text_generation.wikitext103.WikiText103(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'valid', 'test'), proxies=None)[源代码]

加载WikiText103数据集

参数

root (str) – 存放数据集的目录。
split (str|Tuple[str]) – 要返回的数据集分块。默认：(‘train’, ‘valid’, ‘test’)
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块，如：’trian’，那么就只返回这个数据集分块，而不是一个列表。

抛出

TypeError – 如果 root 不是string。
TypeError – 如果 split 不是string或者Tuple[str]。

示例

>>> root = "~/.mindnlp"
>>> split = ('train', 'valid', 'test')
>>> dataset_train, dataset_valid, dataset_test = WikiText103(root, split)
>>> train_iter = dataset_train.create_tuple_iterator()
>>> print(next(train_iter))
>>> print(next(train_iter))
[Tensor(shape=[], dtype=String, value= ' ')]
[Tensor(shape=[], dtype=String, value= ' = Valkyria Chronicles III = ')]

wikitext2

WikiText2加载函数

mindnlp.dataset.text_generation.wikitext2.WikiText2(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'valid', 'test'), proxies=None)[源代码]

加载WikiText2数据集

参数

root (str) – 存放数据集的目录。
split (str|Tuple[str]) – 要返回的数据集分块。默认：(‘train’, ‘valid’, ‘test’)
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块，如：’trian’，那么就只返回这个数据集分块，而不是一个列表。

抛出

TypeError – 如果 root 不是string。
TypeError – 如果 split 不是string或者Tuple[str]。

示例

>>> root = "~/.mindnlp"
>>> split = ('train', 'valid', 'test')
>>> dataset_train, dataset_valid, dataset_test = WikiText2(root, split)
>>> train_iter = dataset_train.create_tuple_iterator()
>>> print(next(train_iter))
>>> print(next(train_iter))
[Tensor(shape=[], dtype=String, value= ' ')]
[Tensor(shape=[], dtype=String, value= ' = Valkyria Chronicles III = ')]

文本生成数据集初始化