Utils

decompress

Decompress functions

mindnlp.utils.decompress.ungz(file_path: str, unzip_path: Optional[str] = None)[源代码]

Untar .gz file

参数

file_path (str) – The path where the .gz file is located.
unzip_path (str) – The directory where the files were unzipped.

返回

The directory where the files were unzipped.

返回类型

unzip_path (str)

抛出

TypeError – If file_path is not a string.
TypeError – If untar_path is not a string.

mindnlp.utils.decompress.untar(file_path: str, untar_path: str)[源代码]

Untar tar.gz file

参数

file_path (str) – The path where the tgz file is located.
multiple (str) – The directory where the files were unzipped.

返回

names (list) -All filenames in the tar.gz file.

抛出

TypeError – If file_path is not a string.
TypeError – If untar_path is not a string.

示例

>>> file_path = "./mindnlp/datasets/IWSLT2016/2016-01.tgz"
>>> untar_path = "./mindnlp/datasets/IWSLT2016"
>>> output = untar(file_path,untar_path)
>>> print(output[0])
'2016-01'

mindnlp.utils.decompress.unzip(file_path: str, unzip_path: str)[源代码]

Untar .zip file

参数

file_path (str) – The path where the .zip file is located.
unzip_path (str) – The directory where the files were unzipped.

返回

names (list) -All filenames in the .zip file.

抛出

TypeError – If file_path is not a string.
TypeError – If untar_path is not a string.

下载

下载函数

mindnlp.utils.download.cache_file(filename: str, cache_dir: Optional[str] = None, url: Optional[str] = None, md5sum=None, download_file_name=None, proxies=None)[源代码]

如果本地缓存路径中存在该文件，直接返回对应文件路径；否则，若不存在该文件，则使用给定的url地址进行下载。

参数

filename (str) – 所需数据集文件的名称。
cache_dir (str) – 储存文件的路径。
url (str) – 所需数据集文件的url地址。
md5sum (str) – 下载文件的真实MD5值。
download_file_name (str) – 所需下载文件的名称（如果链接的末尾部分不是所需下载文件的名称，则需要输入该参数）。
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

字符串，如果`path`是一个包含有一个文件的文件夹，则以`{path}{filename}`的形式返回；如果`path`是一个包含有多个文件的文件夹或单个文件，则返回`path`。

抛出

TypeError – 如果`filename`不是一个字符串。
TypeError – 如果`cache_dir`不是一个字符串。
TypeError – 如果`url`不是一个字符串。
RuntimeError – 如果`filename`为空值。

示例

>>> filename = 'aclImdb_v1'
>>> path, filename = cache_file(filename)
>>> print(path, filename)
'{home}\.text' 'aclImdb_v1.tar.gz'

mindnlp.utils.download.cached_path(filename_or_url: str, cache_dir: Optional[str] = None, foldername=None, md5sum=None, download_file_name=None, proxies=None)[源代码]

如果本地缓存路径中存在该文件，直接返回对应文件路径；否则，若不存在该文件，则使用给定的url地址进行下载。

参数

filename_or_url (str) – 所需文件的名称或url地址。
cache_dir (str) – 储存文件的路径。
foldername (str) – 数据集存储所在的具体文件夹（位于缓存地址`cache_dir`之下）。
md5sum (str) – 下载文件的真实MD5值。
download_file_name (str) – 所需下载文件的名称（如果链接的末尾部分不是所需下载文件的名称，则需要输入该参数）。
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

字符串，如果`path`是一个包含有一个文件的文件夹，则以`{path}{filename}`的形式返回；如果`path`是一个包含有多个文件的文件夹或单个文件，则返回`path`。

抛出

TypeError – 如果`path`不是一个字符串。
RuntimeError – 如果`path`为空值。

示例

>>> path = "https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz"
>>> path, filename = cached_path(path)
>>> print(path, filename)
'{home}\.text\aclImdb_v1.tar.gz' 'aclImdb_v1.tar.gz'

mindnlp.utils.download.check_md5(filename: str, md5sum=None)[源代码]

检查下载文件的MD5值。

参数

filename (str) – 下载文件的完整名称。
md5sum (str) – 下载文件的真实MD5值。

返回

布尔值，MD5值检验的结果。

抛出

TypeError – 如果`filename`不是一个字符串。
RuntimeError – 如果`filename`为空值。

示例

>>> filename = 'test'
>>> check_md5_result = check_md5(filename)
True

mindnlp.utils.download.get_cache_path()[源代码]

得到默认缓存的储存地址，如果环境变量`cache_path`已设置，则使用环境变量的值。

参数: None –
返回: 字符串，默认的路径或环境变量`cache_path`。

示例

>>> default_cache_path = get_cache_path()
>>> print(default_cache_path)
'{home}\.text'

mindnlp.utils.download.get_dataset_url(datasetname: str)[源代码]

得到数据集的url地址以供下载

参数

datasetname (str) – 需要下载的数据集的名称。

返回

字符串，需要下载的数据集的url地址。

抛出

TypeError – 如果`datasetname`不是一个字符串。
RuntimeError – 如果`datasetname`为空值。

示例

>>> name = 'aclImdb_v1'
>>> url = get_dataset_url(name)
>>> print(url)
'https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz'

mindnlp.utils.download.get_filepath(path: str)[源代码]

得到文件对应的文件地址。

参数

path (str) – 所需文件的地址。

返回

字符串，如果`path`是一个包含有一个文件的文件夹，则以`{path}{filename}`的形式返回；如果`path`是一个包含有多个文件的文件夹或单个文件，则返回`path`。

抛出

TypeError – 如果`path`不是一个字符串。
RuntimeError – 如果`path`为空值。

示例

>>> path = '{home}\.text'
>>> get_filepath_result = get_filepath(path)
>>> print(get_filepath_result)
'{home}\.text'

mindnlp.utils.download.get_from_cache(url: str, cache_dir: Optional[str] = None, md5sum=None, download_file_name=None, proxies=None)[源代码]

如果本地缓存路径中存在该文件，直接返回对应文件路径；否则，若不存在该文件，则使用给定的url地址进行下载。

参数

url (str) – 下载文件的地址。
cache_dir (str) – 储存文件的路径。
md5sum (str) – 下载文件的真实MD5值。
download_file_name (str) – 所需下载文件的名称（如果链接的末尾部分不是所需下载文件的名称，则需要输入该参数）。
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

字符串，储存下载所得文件的地址。
字符串，下载所得文件的名称。

抛出

TypeError – 如果`url`不是一个字符串。
TypeError – 如果`cache_dir`不是一个路径。
RuntimeError – 如果`url`为空值。

示例

>>> path = "https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz"
>>> path, filename = cached_path(path)
>>> print(path, filename)
'{home}\.text' 'aclImdb_v1.tar.gz'

mindnlp.utils.download.http_get(url, path=None, md5sum=None, download_file_name=None, proxies=None)[源代码]

通过给定的url地址下载，储存到地址。

参数

url (str) – 下载url地址
path (str) – 下载到给定地址（默认值：’{home}.text）
md5sum (str) – 下载文件的真实MD5值。
download_file_name (str) – 下载所得文件的名称（如果链接的末尾部分不是所需下载文件的名称，则需要输入该参数）。
proxies (dict) – 定义代理的字典，例如：{“https”: “https://127.0.0.1:7890”}

返回

字符串，默认的路径或环境变量`cache_path`。

抛出

TypeError – 如果`url`不是一个字符串。
RuntimeError – 如果`url`为空值。

示例

>>> url = 'https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz'
>>> cache_path = http_get(url)
>>> print(cache_path)
('{home}\.text', '{home}\aclImdb_v1.tar.gz')

mindnlp.utils.download.match_file(filename: str, cache_dir: str) → str[源代码]

如果`cache_dir`地址中存在该文件，返回对应路径；否则，返回一个空字符串或者报错信息。

参数

filename (str) – 所需文件的名称。
cache_dir (str) – 储存文件的路径。

返回

字符串，如果`cache_dir`地址中存在该文件，则返回文件名称；如果没有对应文件存在，返回空字符串；如果存在两个或多个可匹配的文件，返回报错信息。

抛出

TypeError – 如果`filename`不是一个字符串。
TypeError – 如果`cache_dir`不是一个字符串。
RuntimeError – 如果`filename`为空值。
RuntimeError – 如果`cache_dir`为空值。

示例

>>> name = 'aclImdb_v1.tar.gz'
>>> path = get_cache_path()
>>> match_file_result = match_file(name, path)

Common utils