Utils
decompress
Decompress functions
- mindnlp.utils.decompress.ungz(file_path: str, unzip_path: Optional[str] = None)[源代码]
Untar .gz file
- 参数
file_path (str) – The path where the .gz file is located.
unzip_path (str) – The directory where the files were unzipped.
- 返回
The directory where the files were unzipped.
- 返回类型
unzip_path (str)
- 抛出
TypeError – If file_path is not a string.
TypeError – If untar_path is not a string.
- mindnlp.utils.decompress.untar(file_path: str, untar_path: str)[源代码]
Untar tar.gz file
- 参数
file_path (str) – The path where the tgz file is located.
multiple (str) – The directory where the files were unzipped.
- 返回
names (list) -All filenames in the tar.gz file.
- 抛出
TypeError – If file_path is not a string.
TypeError – If untar_path is not a string.
示例
>>> file_path = "./mindnlp/datasets/IWSLT2016/2016-01.tgz" >>> untar_path = "./mindnlp/datasets/IWSLT2016" >>> output = untar(file_path,untar_path) >>> print(output[0]) '2016-01'
- mindnlp.utils.decompress.unzip(file_path: str, unzip_path: str)[源代码]
Untar .zip file
- 参数
file_path (str) – The path where the .zip file is located.
unzip_path (str) – The directory where the files were unzipped.
- 返回
names (list) -All filenames in the .zip file.
- 抛出
TypeError – If file_path is not a string.
TypeError – If untar_path is not a string.
下载
下载函数
- mindnlp.utils.download.cache_file(filename: str, cache_dir: Optional[str] = None, url: Optional[str] = None, md5sum=None, download_file_name=None, proxies=None)[源代码]
如果本地缓存路径中存在该文件,直接返回对应文件路径;否则,若不存在该文件,则使用给定的url地址进行下载。
- 参数
filename (str) – 所需数据集文件的名称。
cache_dir (str) – 储存文件的路径。
url (str) – 所需数据集文件的url地址。
md5sum (str) – 下载文件的真实MD5值。
download_file_name (str) – 所需下载文件的名称(如果链接的末尾部分不是所需下载文件的名称,则需要输入该参数)。
proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}
- 返回
字符串,如果`path`是一个包含有一个文件的文件夹,则以`{path}{filename}`的形式返回;如果`path`是一个包含有多个文件的文件夹或单个文件,则返回`path`。
- 抛出
TypeError – 如果`filename`不是一个字符串。
TypeError – 如果`cache_dir`不是一个字符串。
TypeError – 如果`url`不是一个字符串。
RuntimeError – 如果`filename`为空值。
示例
>>> filename = 'aclImdb_v1' >>> path, filename = cache_file(filename) >>> print(path, filename) '{home}\.text' 'aclImdb_v1.tar.gz'
- mindnlp.utils.download.cached_path(filename_or_url: str, cache_dir: Optional[str] = None, foldername=None, md5sum=None, download_file_name=None, proxies=None)[源代码]
如果本地缓存路径中存在该文件,直接返回对应文件路径;否则,若不存在该文件,则使用给定的url地址进行下载。
- 参数
filename_or_url (str) – 所需文件的名称或url地址。
cache_dir (str) – 储存文件的路径。
foldername (str) – 数据集存储所在的具体文件夹(位于缓存地址`cache_dir`之下)。
md5sum (str) – 下载文件的真实MD5值。
download_file_name (str) – 所需下载文件的名称(如果链接的末尾部分不是所需下载文件的名称,则需要输入该参数)。
proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}
- 返回
字符串,如果`path`是一个包含有一个文件的文件夹,则以`{path}{filename}`的形式返回;如果`path`是一个包含有多个文件的文件夹或单个文件,则返回`path`。
- 抛出
TypeError – 如果`path`不是一个字符串。
RuntimeError – 如果`path`为空值。
示例
>>> path = "https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz" >>> path, filename = cached_path(path) >>> print(path, filename) '{home}\.text\aclImdb_v1.tar.gz' 'aclImdb_v1.tar.gz'
- mindnlp.utils.download.check_md5(filename: str, md5sum=None)[源代码]
检查下载文件的MD5值。
- 参数
filename (str) – 下载文件的完整名称。
md5sum (str) – 下载文件的真实MD5值。
- 返回
布尔值,MD5值检验的结果。
- 抛出
TypeError – 如果`filename`不是一个字符串。
RuntimeError – 如果`filename`为空值。
示例
>>> filename = 'test' >>> check_md5_result = check_md5(filename) True
- mindnlp.utils.download.get_cache_path()[源代码]
得到默认缓存的储存地址,如果环境变量`cache_path`已设置,则使用环境变量的值。
- 参数
None –
- 返回
字符串,默认的路径或环境变量`cache_path`。
示例
>>> default_cache_path = get_cache_path() >>> print(default_cache_path) '{home}\.text'
- mindnlp.utils.download.get_dataset_url(datasetname: str)[源代码]
得到数据集的url地址以供下载
- 参数
datasetname (str) – 需要下载的数据集的名称。
- 返回
字符串,需要下载的数据集的url地址。
- 抛出
TypeError – 如果`datasetname`不是一个字符串。
RuntimeError – 如果`datasetname`为空值。
示例
>>> name = 'aclImdb_v1' >>> url = get_dataset_url(name) >>> print(url) 'https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz'
- mindnlp.utils.download.get_filepath(path: str)[源代码]
得到文件对应的文件地址。
- 参数
path (str) – 所需文件的地址。
- 返回
字符串,如果`path`是一个包含有一个文件的文件夹,则以`{path}{filename}`的形式返回;如果`path`是一个包含有多个文件的文件夹或单个文件,则返回`path`。
- 抛出
TypeError – 如果`path`不是一个字符串。
RuntimeError – 如果`path`为空值。
示例
>>> path = '{home}\.text' >>> get_filepath_result = get_filepath(path) >>> print(get_filepath_result) '{home}\.text'
- mindnlp.utils.download.get_from_cache(url: str, cache_dir: Optional[str] = None, md5sum=None, download_file_name=None, proxies=None)[源代码]
如果本地缓存路径中存在该文件,直接返回对应文件路径;否则,若不存在该文件,则使用给定的url地址进行下载。
- 参数
url (str) – 下载文件的地址。
cache_dir (str) – 储存文件的路径。
md5sum (str) – 下载文件的真实MD5值。
download_file_name (str) – 所需下载文件的名称(如果链接的末尾部分不是所需下载文件的名称,则需要输入该参数)。
proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}
- 返回
字符串,储存下载所得文件的地址。
字符串,下载所得文件的名称。
- 抛出
TypeError – 如果`url`不是一个字符串。
TypeError – 如果`cache_dir`不是一个路径。
RuntimeError – 如果`url`为空值。
示例
>>> path = "https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz" >>> path, filename = cached_path(path) >>> print(path, filename) '{home}\.text' 'aclImdb_v1.tar.gz'
- mindnlp.utils.download.http_get(url, path=None, md5sum=None, download_file_name=None, proxies=None)[源代码]
通过给定的url地址下载,储存到地址。
- 参数
url (str) – 下载url地址
path (str) – 下载到给定地址(默认值:’{home}.text)
md5sum (str) – 下载文件的真实MD5值。
download_file_name (str) – 下载所得文件的名称(如果链接的末尾部分不是所需下载文件的名称,则需要输入该参数)。
proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}
- 返回
字符串,默认的路径或环境变量`cache_path`。
- 抛出
TypeError – 如果`url`不是一个字符串。
RuntimeError – 如果`url`为空值。
示例
>>> url = 'https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz' >>> cache_path = http_get(url) >>> print(cache_path) ('{home}\.text', '{home}\aclImdb_v1.tar.gz')
- mindnlp.utils.download.match_file(filename: str, cache_dir: str) str[源代码]
如果`cache_dir`地址中存在该文件,返回对应路径;否则,返回一个空字符串或者报错信息。
- 参数
filename (str) – 所需文件的名称。
cache_dir (str) – 储存文件的路径。
- 返回
字符串,如果`cache_dir`地址中存在该文件,则返回文件名称;如果没有对应文件存在,返回空字符串;如果存在两个或多个可匹配的文件,返回报错信息。
- 抛出
TypeError – 如果`filename`不是一个字符串。
TypeError – 如果`cache_dir`不是一个字符串。
RuntimeError – 如果`filename`为空值。
RuntimeError – 如果`cache_dir`为空值。
示例
>>> name = 'aclImdb_v1.tar.gz' >>> path = get_cache_path() >>> match_file_result = match_file(name, path)
Common utils