Utils

decompress

Decompress functions

mindnlp.utils.decompress.ungz(file_path: str, unzip_path: Optional[str] = None)[源代码]

Untar .gz file

参数
  • file_path (str) – The path where the .gz file is located.

  • unzip_path (str) – The directory where the files were unzipped.

返回

The directory where the files were unzipped.

返回类型

  • unzip_path (str)

抛出
  • TypeError – If file_path is not a string.

  • TypeError – If untar_path is not a string.

mindnlp.utils.decompress.untar(file_path: str, untar_path: str)[源代码]

Untar tar.gz file

参数
  • file_path (str) – The path where the tgz file is located.

  • multiple (str) – The directory where the files were unzipped.

返回

  • names (list) -All filenames in the tar.gz file.

抛出
  • TypeError – If file_path is not a string.

  • TypeError – If untar_path is not a string.

示例

>>> file_path = "./mindnlp/datasets/IWSLT2016/2016-01.tgz"
>>> untar_path = "./mindnlp/datasets/IWSLT2016"
>>> output = untar(file_path,untar_path)
>>> print(output[0])
'2016-01'
mindnlp.utils.decompress.unzip(file_path: str, unzip_path: str)[源代码]

Untar .zip file

参数
  • file_path (str) – The path where the .zip file is located.

  • unzip_path (str) – The directory where the files were unzipped.

返回

  • names (list) -All filenames in the .zip file.

抛出
  • TypeError – If file_path is not a string.

  • TypeError – If untar_path is not a string.

下载

下载函数

mindnlp.utils.download.cache_file(filename: str, cache_dir: Optional[str] = None, url: Optional[str] = None, md5sum=None, download_file_name=None, proxies=None)[源代码]

如果本地缓存路径中存在该文件,直接返回对应文件路径;否则,若不存在该文件,则使用给定的url地址进行下载。

参数
  • filename (str) – 所需数据集文件的名称。

  • cache_dir (str) – 储存文件的路径。

  • url (str) – 所需数据集文件的url地址。

  • md5sum (str) – 下载文件的真实MD5值。

  • download_file_name (str) – 所需下载文件的名称(如果链接的末尾部分不是所需下载文件的名称,则需要输入该参数)。

  • proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}

返回

  • 字符串,如果`path`是一个包含有一个文件的文件夹,则以`{path}{filename}`的形式返回;如果`path`是一个包含有多个文件的文件夹或单个文件,则返回`path`。

抛出
  • TypeError – 如果`filename`不是一个字符串。

  • TypeError – 如果`cache_dir`不是一个字符串。

  • TypeError – 如果`url`不是一个字符串。

  • RuntimeError – 如果`filename`为空值。

示例

>>> filename = 'aclImdb_v1'
>>> path, filename = cache_file(filename)
>>> print(path, filename)
'{home}\.text' 'aclImdb_v1.tar.gz'
mindnlp.utils.download.cached_path(filename_or_url: str, cache_dir: Optional[str] = None, foldername=None, md5sum=None, download_file_name=None, proxies=None)[源代码]

如果本地缓存路径中存在该文件,直接返回对应文件路径;否则,若不存在该文件,则使用给定的url地址进行下载。

参数
  • filename_or_url (str) – 所需文件的名称或url地址。

  • cache_dir (str) – 储存文件的路径。

  • foldername (str) – 数据集存储所在的具体文件夹(位于缓存地址`cache_dir`之下)。

  • md5sum (str) – 下载文件的真实MD5值。

  • download_file_name (str) – 所需下载文件的名称(如果链接的末尾部分不是所需下载文件的名称,则需要输入该参数)。

  • proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}

返回

  • 字符串,如果`path`是一个包含有一个文件的文件夹,则以`{path}{filename}`的形式返回;如果`path`是一个包含有多个文件的文件夹或单个文件,则返回`path`。

抛出
  • TypeError – 如果`path`不是一个字符串。

  • RuntimeError – 如果`path`为空值。

示例

>>> path = "https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz"
>>> path, filename = cached_path(path)
>>> print(path, filename)
'{home}\.text\aclImdb_v1.tar.gz' 'aclImdb_v1.tar.gz'
mindnlp.utils.download.check_md5(filename: str, md5sum=None)[源代码]

检查下载文件的MD5值。

参数
  • filename (str) – 下载文件的完整名称。

  • md5sum (str) – 下载文件的真实MD5值。

返回

布尔值,MD5值检验的结果。

抛出
  • TypeError – 如果`filename`不是一个字符串。

  • RuntimeError – 如果`filename`为空值。

示例

>>> filename = 'test'
>>> check_md5_result = check_md5(filename)
True
mindnlp.utils.download.get_cache_path()[源代码]

得到默认缓存的储存地址,如果环境变量`cache_path`已设置,则使用环境变量的值。

参数

None

返回

字符串,默认的路径或环境变量`cache_path`。

示例

>>> default_cache_path = get_cache_path()
>>> print(default_cache_path)
'{home}\.text'
mindnlp.utils.download.get_dataset_url(datasetname: str)[源代码]

得到数据集的url地址以供下载

参数

datasetname (str) – 需要下载的数据集的名称。

返回

字符串,需要下载的数据集的url地址。

抛出
  • TypeError – 如果`datasetname`不是一个字符串。

  • RuntimeError – 如果`datasetname`为空值。

示例

>>> name = 'aclImdb_v1'
>>> url = get_dataset_url(name)
>>> print(url)
'https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz'
mindnlp.utils.download.get_filepath(path: str)[源代码]

得到文件对应的文件地址。

参数

path (str) – 所需文件的地址。

返回

  • 字符串,如果`path`是一个包含有一个文件的文件夹,则以`{path}{filename}`的形式返回;如果`path`是一个包含有多个文件的文件夹或单个文件,则返回`path`。

抛出
  • TypeError – 如果`path`不是一个字符串。

  • RuntimeError – 如果`path`为空值。

示例

>>> path = '{home}\.text'
>>> get_filepath_result = get_filepath(path)
>>> print(get_filepath_result)
'{home}\.text'
mindnlp.utils.download.get_from_cache(url: str, cache_dir: Optional[str] = None, md5sum=None, download_file_name=None, proxies=None)[源代码]

如果本地缓存路径中存在该文件,直接返回对应文件路径;否则,若不存在该文件,则使用给定的url地址进行下载。

参数
  • url (str) – 下载文件的地址。

  • cache_dir (str) – 储存文件的路径。

  • md5sum (str) – 下载文件的真实MD5值。

  • download_file_name (str) – 所需下载文件的名称(如果链接的末尾部分不是所需下载文件的名称,则需要输入该参数)。

  • proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}

返回

  • 字符串,储存下载所得文件的地址。

  • 字符串,下载所得文件的名称。

抛出
  • TypeError – 如果`url`不是一个字符串。

  • TypeError – 如果`cache_dir`不是一个路径。

  • RuntimeError – 如果`url`为空值。

示例

>>> path = "https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz"
>>> path, filename = cached_path(path)
>>> print(path, filename)
'{home}\.text' 'aclImdb_v1.tar.gz'
mindnlp.utils.download.http_get(url, path=None, md5sum=None, download_file_name=None, proxies=None)[源代码]

通过给定的url地址下载,储存到地址。

参数
  • url (str) – 下载url地址

  • path (str) – 下载到给定地址(默认值:’{home}.text)

  • md5sum (str) – 下载文件的真实MD5值。

  • download_file_name (str) – 下载所得文件的名称(如果链接的末尾部分不是所需下载文件的名称,则需要输入该参数)。

  • proxies (dict) – 定义代理的字典,例如:{“https”: “https://127.0.0.1:7890”}

返回

字符串,默认的路径或环境变量`cache_path`。

抛出
  • TypeError – 如果`url`不是一个字符串。

  • RuntimeError – 如果`url`为空值。

示例

>>> url = 'https://mindspore-website.obs.myhuaweicloud.com/notebook/datasets/aclImdb_v1.tar.gz'
>>> cache_path = http_get(url)
>>> print(cache_path)
('{home}\.text', '{home}\aclImdb_v1.tar.gz')
mindnlp.utils.download.match_file(filename: str, cache_dir: str) str[源代码]

如果`cache_dir`地址中存在该文件,返回对应路径;否则,返回一个空字符串或者报错信息。

参数
  • filename (str) – 所需文件的名称。

  • cache_dir (str) – 储存文件的路径。

返回

  • 字符串,如果`cache_dir`地址中存在该文件,则返回文件名称;如果没有对应文件存在,返回空字符串;如果存在两个或多个可匹配的文件,返回报错信息。

抛出
  • TypeError – 如果`filename`不是一个字符串。

  • TypeError – 如果`cache_dir`不是一个字符串。

  • RuntimeError – 如果`filename`为空值。

  • RuntimeError – 如果`cache_dir`为空值。

示例

>>> name = 'aclImdb_v1.tar.gz'
>>> path = get_cache_path()
>>> match_file_result = match_file(name, path)

Common utils