seo建站公司推荐,和田哪里有做网站的地方,dw网页设计步骤,微官网怎么注册众所周知#xff0c;计算机领域论文是要以实验为基础的#xff0c;而实验的原料就是数据。不管是在图像#xff0c;文字或者语音领域#xff0c;开源的数据都十分宝贵和重要。这里主要收集各领域的一些常用的公开数据集。 计算机视觉#xff1a; 【ImageNet】 【Caltech P…众所周知计算机领域论文是要以实验为基础的而实验的原料就是数据。不管是在图像文字或者语音领域开源的数据都十分宝贵和重要。这里主要收集各领域的一些常用的公开数据集。 计算机视觉 【ImageNet】 【Caltech Pedestrian Dataset】 简介行人检测数据集 网址https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/ 细节 1摄像头位于车上 2图片模糊 3行人少而小大多数图片不包含行人 4原始数据为视频可以采样为图片 5官网给出了各种方法的性能给出了evaluation的代码。 自然语言处理 【维基百科简体中文语料】 简介较大规模的中文语料 网址http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 细节 1这个压缩包包含标题和正文 2用http://medialab.di.unipi.it/wiki/Wikipedia_Extractor抽取数据 3抽取命令 bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted output.txt 4内容为简繁体混杂需要https://github.com/BYVoid/OpenCChttps://code.google.com/archive/p/opencc/wikis/Install.wiki解决运行命令opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini 5参考使用网站http://licstar.net/archives/262 语音处理 数字医学数据