Sequence Tagging
conll2000chunking
CoNLL2000Chunking load function
- mindnlp.dataset.sequence_tagging.conll2000chunking.CoNLL2000Chunking(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'test'), proxies=None)[源代码]
Load the CoNLL2000Chunking dataset
- 参数
root (str) – 存放数据集的目录。默认:”~/.mindnlp”
split (str|Tuple[str]) – Split or splits to be returned. Default:(‘train’, ‘test’).
proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}
- 返回
datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块, 如:’trian’,那么就只返回这个数据集分块,而不是一个列表。
示例
>>> root = "~/.mindnlp" >>> split = ('train', 'test') >>> dataset_train,dataset_test = CoNLL2000Chunking(root, split) >>> train_iter = dataset_train.create_tuple_iterator() >>> print(next(train_iter))
- mindnlp.dataset.sequence_tagging.conll2000chunking.CoNLL2000Chunking_Process(dataset, vocab, batch_size=64, max_len=500, bucket_boundaries=None, drop_remainder=False)[源代码]
CoNLL2000Chunking数据集的处理函数
- 参数
dataset (GeneratorDataset) – CoNLL2000Chunking数据集。
vocab (Vocab) – 词表对象,用于存储分词和索引的映射。默认为空。如果为空,一个新的词表对象将会被创建。
batch_size (int) – 指定每个批处理数据包含的数据条目。默认值:64。
max_len (int) – 句子的最大长度。默认值:500。
bucket_boundaries (list[int]) – 由桶的上边界组成的列表。必须严格递增。默认值:None。
drop_remainder (bool) – 当最后一批数据包含的数据条目小于batch_size时,是否丢弃该批次,而不将其传递到下一个操作。默认值:False,不丢弃。
- 返回
dataset (MapDataset) - 预处理操作后返回的数据集。
- 抛出
TypeError – 如果 input_column 不是string。
示例
>>> dataset_train,dataset_test = CoNLL2000Chunking() >>> vocab = text.Vocab.from_dataset(dataset_train,columns=["words"],freq_range=None, top_k=None,special_tokens=["<pad>","<unk>"],special_first=True) >>> dataset_train = CoNLL2000Chunking_Process(dataset=dataset_train, vocab=vocab, batch_size=32, max_len=80)
udpos
UDPOS load function
- mindnlp.dataset.sequence_tagging.udpos.UDPOS(root: str = '/home/docs/.mindnlp', split: Union[Tuple[str], str] = ('train', 'dev', 'test'), proxies=None)[源代码]
Load the UDPOS dataset
- 参数
root (str) – 存放数据集的目录。默认:”~/.mindnlp”
split (str|Tuple[str]) – Split or splits to be returned. Default:(‘train’, ‘dev’, ‘test’).
proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}
- 返回
datasets_list (list) -加载完成的数据集分块列表。如果只加载了一个数据集分块, 如:’trian’,那么就只返回这个数据集分块,而不是一个列表。
示例
>>> root = "~/.mindnlp" >>> split = ('train', 'dev', 'test') >>> dataset_train,dataset_dev,dataset_test = UDPOS(root, split) >>> train_iter = dataset_train.create_tuple_iterator() >>> print(next(train_iter))
SequenceTagging dataset init