Sequence Tagging

conll2000chunking

CoNLL2000Chunking load function

mindnlp.dataset.sequence_tagging.conll2000chunking.CoNLL2000Chunking(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'test'), proxies=None)[源代码]

Load the CoNLL2000Chunking dataset

参数

root (str) – 存放数据集的目录。默认：”~/.mindnlp”
split (str|Tuple[str]) – Split or splits to be returned. Default:(‘train’, ‘test’).
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块，如：’trian’，那么就只返回这个数据集分块，而不是一个列表。

示例

>>> root = "~/.mindnlp"
>>> split = ('train', 'test')
>>> dataset_train,dataset_test = CoNLL2000Chunking(root, split)
>>> train_iter = dataset_train.create_tuple_iterator()
>>> print(next(train_iter))

mindnlp.dataset.sequence_tagging.conll2000chunking.CoNLL2000Chunking_Process(dataset, vocab, batch_size=64, max_len=500, bucket_boundaries=None, drop_remainder=False)[源代码]

CoNLL2000Chunking数据集的处理函数

参数

dataset (GeneratorDataset) – CoNLL2000Chunking数据集。
vocab (Vocab) – 词表对象，用于存储分词和索引的映射。默认为空。如果为空，一个新的词表对象将会被创建。
batch_size (int) – 指定每个批处理数据包含的数据条目。默认值：64。
max_len (int) – 句子的最大长度。默认值：500。
bucket_boundaries (list[int]) – 由桶的上边界组成的列表。必须严格递增。默认值：None。
drop_remainder (bool) – 当最后一批数据包含的数据条目小于batch_size时，是否丢弃该批次，而不将其传递到下一个操作。默认值：False，不丢弃。

返回

dataset (MapDataset) - 预处理操作后返回的数据集。

抛出

TypeError – 如果 input_column 不是string。

示例

>>> dataset_train,dataset_test = CoNLL2000Chunking()
>>> vocab = text.Vocab.from_dataset(dataset_train,columns=["words"],freq_range=None,
                            top_k=None,special_tokens=["<pad>","<unk>"],special_first=True)
>>> dataset_train = CoNLL2000Chunking_Process(dataset=dataset_train, vocab=vocab,
                                  batch_size=32, max_len=80)

class mindnlp.dataset.sequence_tagging.conll2000chunking.Conll2000chunking(path)[源代码]

基类：object

CoNLL2000Chunking数据集源

udpos

UDPOS load function

mindnlp.dataset.sequence_tagging.udpos.UDPOS(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'dev', 'test'), proxies=None)[源代码]

Load the UDPOS dataset

参数

root (str) – 存放数据集的目录。默认：”~/.mindnlp”
split (str|Tuple[str]) – Split or splits to be returned. Default:(‘train’, ‘dev’, ‘test’).
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块，如：’trian’，那么就只返回这个数据集分块，而不是一个列表。

示例

>>> root = "~/.mindnlp"
>>> split = ('train', 'dev', 'test')
>>> dataset_train,dataset_dev,dataset_test = UDPOS(root, split)
>>> train_iter = dataset_train.create_tuple_iterator()
>>> print(next(train_iter))

class mindnlp.dataset.sequence_tagging.udpos.Udpos(path)[源代码]

基类：object

UDPOS数据源

SequenceTagging dataset init