Sequence Tagging

conll2000chunking

CoNLL2000Chunking load function

mindnlp.dataset.sequence_tagging.conll2000chunking.CoNLL2000Chunking(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'test'), proxies=None)[源代码]

Load the CoNLL2000Chunking dataset

参数
  • root (str) – 存放数据集的目录。默认:”~/.mindnlp”

  • split (str|Tuple[str]) – Split or splits to be returned. Default:(‘train’, ‘test’).

  • proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}

返回

  • datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块, 如:’trian’,那么就只返回这个数据集分块,而不是一个列表。

示例

>>> root = "~/.mindnlp"
>>> split = ('train', 'test')
>>> dataset_train,dataset_test = CoNLL2000Chunking(root, split)
>>> train_iter = dataset_train.create_tuple_iterator()
>>> print(next(train_iter))
mindnlp.dataset.sequence_tagging.conll2000chunking.CoNLL2000Chunking_Process(dataset, vocab, batch_size=64, max_len=500, bucket_boundaries=None, drop_remainder=False)[源代码]

CoNLL2000Chunking数据集的处理函数

参数
  • dataset (GeneratorDataset) – CoNLL2000Chunking数据集。

  • vocab (Vocab) – 词表对象,用于存储分词和索引的映射。默认为空。如果为空,一个新的词表对象将会被创建。

  • batch_size (int) – 指定每个批处理数据包含的数据条目。默认值:64。

  • max_len (int) – 句子的最大长度。默认值:500。

  • bucket_boundaries (list[int]) – 由桶的上边界组成的列表。必须严格递增。默认值:None。

  • drop_remainder (bool) – 当最后一批数据包含的数据条目小于batch_size时,是否丢弃该批次,而不将其传递到下一个操作。默认值:False,不丢弃。

返回

  • dataset (MapDataset) - 预处理操作后返回的数据集。

抛出

TypeError – 如果 input_column 不是string。

示例

>>> dataset_train,dataset_test = CoNLL2000Chunking()
>>> vocab = text.Vocab.from_dataset(dataset_train,columns=["words"],freq_range=None,
                            top_k=None,special_tokens=["<pad>","<unk>"],special_first=True)
>>> dataset_train = CoNLL2000Chunking_Process(dataset=dataset_train, vocab=vocab,
                                  batch_size=32, max_len=80)
class mindnlp.dataset.sequence_tagging.conll2000chunking.Conll2000chunking(path)[源代码]

基类:object

CoNLL2000Chunking数据集源

udpos

UDPOS load function

mindnlp.dataset.sequence_tagging.udpos.UDPOS(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'dev', 'test'), proxies=None)[源代码]

Load the UDPOS dataset

参数
  • root (str) – 存放数据集的目录。默认:”~/.mindnlp”

  • split (str|Tuple[str]) – Split or splits to be returned. Default:(‘train’, ‘dev’, ‘test’).

  • proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}

返回

  • datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块, 如:’trian’,那么就只返回这个数据集分块,而不是一个列表。

示例

>>> root = "~/.mindnlp"
>>> split = ('train', 'dev', 'test')
>>> dataset_train,dataset_dev,dataset_test = UDPOS(root, split)
>>> train_iter = dataset_train.create_tuple_iterator()
>>> print(next(train_iter))
class mindnlp.dataset.sequence_tagging.udpos.Udpos(path)[源代码]

基类:object

UDPOS数据源

SequenceTagging dataset init