2000P's Blog

最初のページ

最強データセット50個の最適なマシンで公共データを勉強して、ideaを検証してくれます。

著者 pinger 時間 2020-03-15
all
原作のmlmemoirs郭一霾コンパイルの量子ビット報道

外国の自メディアmlmemoirsはgithub、フォーブス、CMU公式サイトなどの情報をもとに、最適な50のマシンで公共データ集を勉強するランキングを整理しました。

二つの注意事項を先に言いなさい。

CMUによると、使いやすいデータセットを探すには、いくつか注意が必要ですか?

データセットが混乱していないと、データを整理するのに時間がかかります。

データセットには多すぎる行や列が含まれていないと使いにくいです。

データはきれいなほどいいです。大規模なデータセットを整理するのは時間がかかります。

面白い問題を設定すべきです。この問題はまたデータで答えられます。

Kaggale:競技好きの友達はよく知っているはずです。Kagleにはいろんな面白いデータセットがあります。ラーメンの評価、バスケットボールのデータ、さらにはシアトルのペットの許可証もあります。https://www.kagle.com/

UCIマシン学習ライブラリ:一番古いデータセットのソースの一つは、面白いデータセットを探す最初の駅です。データセットはユーザーの貢献ですので、異なるクリーン度を持っていますが、ほとんどは綺麗で、直接UCIマシン学習ライブラリからダウンロードできます。登録する必要がありません。http://mlr.cs.umass.edu/ml/

Visual Data:良い種類のコンピュータの視覚のデータ集を分けて、検索することができます。https://www.visualdata.io/

はい、次はその50個のデータセットです。後期に補足を加えたので、全部で50を超えました。

画像

Labelme:注釈付きの大型画像データセット。http://labelm.csail.mit.edu/Release 3.0/browser Tools/php/dataset.php

ImageNet:みんながよく知っているImageNet、女神の李飛は作成に参加して、同名の試合は全体のコンピュータの視覚界に影響します。http://image-net.org/

LSUN:シーン理解と多くのサブミッション(間取り推定、顕著な予測など)http:/lsun.prinncon.edu/2016/

MS COCO:同じく有名なコンピュータビジュアルデータセットで、同名の試合は毎年中国人によってランキングされます。http://mscoco.org/

COIL 100:100の異なる物体が360度回転する各角度で結像する。http://www 1.com lumbi.edu/CAVE/Software/coil-10.php

視覚ゲノム:非常に詳細な視覚知識ライブラリ。http://visualgenome.org/

Googleオープン画像:知識共有下の900万件の画像URLセット「6000種類以上のラベルを注釈しました」。https://rereearch.goog.com/2016/09/introduccing-open-mages-dataset.

野外マーカー面:13000枚の顔マーカー画像を、顔の識別に関するアプリケーションを開発するために使用します。http://vis-ws.umass.edu/lfw/

スタンフォード犬のデータセット:20508犬の画像、120種類の異なる種類が含まれています。http://vision.stanford.edu/aditya 86/ImageNetDogs/

室内シーン識別:67の室内カテゴリを含み、15620の画像。http://web.mit.edu/toralba/www/indoor.

感情分析

多域情緒分析データセット:やや古いデータセットで、アマゾンからの製品レビューを使用しています。http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDBコメント:二元情緒分類用のデータ集ですが、ちょっと古い、ちょっと小さい、約25000本の映画評論があります。http://ai.stanford.edu/~amas/data/sentiment/

スタンフォード情緒ツリー:感情的なコメントを持つ標準情緒データセット。http://nlp.stanford.edu/sentiment/codel.

Sentiment 140:人気のあるデータセットは、予め表情記号を削除するための160,000のプッシュを使用しています。http://help.sentiment 140.m/for-students/

Twitterアメリカン航空社の情緒:2015年2月のアメリカン航空のTwitterデータは、プラス、マイナス、中性のツイートに分類されます。https://www.kagle.com/crowdflower/twitter-airline-sentiment

自然言語処理

HotspotQAデータセット:自然、マルチホップ問題を持つクイズデータセットは、事実をサポートする強力な監督を持ち、より説明しやすいクイズシステムを実現します。https://hot potqa.githb.io/

エンロンデータセット:エンロン上級管理層からの電子メールデータ。https:/www.cmu.edu/~/enron/

Amazonのレビュー:18年間のAmazonのレビューを含む約3500万件、データには製品とユーザーの情報、評価とテキストの審査が含まれています。https://snap.stanford.edu/data/web-mazon.

Google Book s Ngrams:Google Book sの一連の文字。https://aws.amazon.com/datasets/google-book s-grams/

Blogger Corpus:Blogger.comから681,288編のブログを収集しました。各ブログには少なくとも200の常用英語単語が含まれています。http://u.cs.biu.ac.il/~koppel/BlogCorpus.httm

Wikipediaのリンクデータ:Wikipediaの全文は、400万編以上の文章から19億語近くの単語を含み、段落、フレーズまたは段落の一部によって検索できます。https://code.google.com/p/wiki-links/downloads/list

Gtensberg電子書籍リスト:Gtensberg項目に注釈付きの電子書籍リスト。http://www.gtens berg.org/wiki/Gtens berg:Offline Catalogs

Hansardsカナダ議会テキスト:第36回カナダ議会から記録された130万組のテキスト。http://www.isi.edu/natural-langgge/download/handsard/

Jeopardy:クイズ番組Jeopardyからの200,000を超える問題のアーカイブ。http://www.reddit.com/r/datasets/comments/1 uyd 0 t/200000_jopardy-uquestions/

英文のごみのショートメッセージは収集します:5574条の英文のごみのショートメッセージからなるデータ集。http://www.dt.fee.unicamp.br/~tiago/ssspamcollection/

Yelpコメント:Yelpは、米国の「大衆コメント」で、彼らが発表したオープンデータ集で、500万件以上のコメントが含まれています。https://www.yelp.com/dataset

UCIのSpambase:大規模な迷惑メールデータセットは、迷惑メールフィルタリングに非常に有用です。https://archive.ics.uci.edu/ml/datasets/Spambase

自動運転

Berkeley DeepDrive BD 100 k:現在最大の自動運転データセットは、1日の時間帯と天気条件によって1,100時間を超える運転体験を含む100,000個以上のビデオが含まれています。コメント付きの画像はニューヨークとサンフランシスコから来ています。http://bdd-data.berrkeley.edu/

度娘の大型データ集は、自動車、自転車、歩行者、建築物、街灯など26種類の異なる物体を定義しています。http://apploscape.aut/

Commma.ai:7時間を超える高速道路の運転、細部には車の速度、加速度、ステアリング角、GPS座標が含まれています。https://archive.org/detail/comma-dataset

オックスフォードのロボット自動車:このデータ集はオックスフォードのロボット自動車から来ています。一年の間にイギリスオックスフォードの同じ道を何度も繰り返して100回以上走りました。天気、交通、歩行者の組み合わせ、建築と道路工事などの長期化を捕まえました。http://robotcar-dataset.robots.ox.ac.uk/

都市景観データ集:大規模データ集で、50の異なる都市の街並みを記録しています。https://www.cyscapes-dataset.com/

CSSADデータセット:このデータセットは自動運転車の感知とナビゲーションに非常に役立ちます。しかし、データ集は先進国への道が重い。http://appcacions.mart.mx/Personal/jbhayet/csad-dataset

KURLベルギー交通標識データセット:ベルギーのフランダース地区からの数千の実体交通標識の10000以上の注釈。http://wwww.vision.ee.ethz.ch/~timofter/trfficians/

MIT AGE Lab:AgeLabで収集した1,000時間余りのマルチセンサー運転データセットのサンプル。http://lexfridmann.com/atomatied-synchronization-off-driving-data-video-audio-telement/

LISA:UCサンディエゴ知能と安全自動車実験室のデータ集は、交通標識、車両検査、交通信号灯と軌跡パターンを含む。http://cvrr.ucsd.edu/LISA/datasets.

博世小交通灯のデータ集:深度学習用の小型交通灯のデータ集。https://hci.iwr.uni-heidealberg.de/node/6132

LaRa信号識別:パリの交通信号データセット。http://www.lara.prd.fr/benchmarks/trfficlights recognition

WPIデータセット:交通灯、歩行者と車道の検査データセット。http://compputting.wpi.edu/dataset.

臨床

MIMIC-III:MITは生理学実験室の公開データ集を計算し、人口統計学、生命体征、実験室テスト、薬物などの次元を含む約400名の重症患者の健康データをマークしています。https://mic.physionet.org/

機械学習専用のデータセット以外に、他の一般データセットもあります。面白いかもしれません。

公共政府データセット

Data.gov:このウェブサイトは複数の米国政府機関からデータをダウンロードすることができて、各種の奇怪なデータを含んで、政府の予算から試験の点数まですべてあります。しかし、その大部分のデータはさらなる研究が必要です。https://www.data.gov/

食品環境地図集:地元の食材が米国の食事にどのように影響するかというデータ。https://catalog.data.gov/dataset/food-environment-atlas-f 4 a 22

学校財務システム:米国の学校財務システムの調査。https://catalog.data.gov/dataset/annual-survey-off-school-system-finances

慢性病データ:米国の各地域の慢性病指標データ。https://catalog.data.gov/dataset/u-s-chronic-disease-inndicators-cdi-e 50 c 9

米国国家教育統計センター:教育機関と教育人口統計データは、米国だけでなく、世界の他のところのデータもあります。https://nces.ed.gov/

イギリスのデータサービス:イギリス最大の社会、経済と人口データ集。https://wwww.udataservice.ac.uk/

データ米国:全面的に可視化された米国の公共データ。http://datausa.io/

量位を補充してください。わが国の国家統計局もいいです。http://www.stats.gov.cn/

金融と経済

Qudl:経済と金融データの良いソースは、経済指標や株価を予測するモデルの確立に役立ちます。https://www.quandl.com/

世界銀行開放データ:世界人口統計データ、そして大量の経済と発展指標のデータ集。https://data.world bank.org/

国際通貨基金のデータ:国際通貨基金が発表した国際金融、債務利率、外貨準備、商品価格と投資に関するデータ。https://wwww.imf.org/en/Data

フィナンシャルタイムズ市場のデータ:世界各地の金融市場からの最新情報は、株価指数、商品と外貨を含む。https://markets.ft.com/data/

Google Trends:世界各地のインターネット検索行為と人気ニュース報道のデータ。http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

米国経済協会:米国のマクロ経済データ。https://www.aeaweb.org/reources/data/us-macro-regional

mlmemoirs:50の最適なマシン学習公共データセットhttps:/medium.com/datadriveninvestor/the-50-best-putblic-datasets-for-machine-learning-d 80 e 9 f 030279

子曰:世界には3つのインターネットがあります。米国のインターネット、中国のインターネット、ヨーロッパのインターネット。

したがって、いくつかのリンクがあります。まず科学的なインターネット接続方法を調べてから開けます。

ちょっと手持ちのものがないですが、どうすればいいですか?先に収集します

余談をする

昨日皆さんにあげたカンカンクーポンは、プログラムをスキャンして、ファン専用の通路を使って、ここで再発行します。説明します。私は何の利益もありません。9日から11日までの大部分の本は5割引になります。必要な子供靴は買えます。信頼できますか?

おすすめの読書:

今回は、深い学習書を10冊選んで皆さんにプレゼントします。

Googleグローバル大ストライキ!「安卓の父」のセクハラをかばって皆を怒らせ、社員は5つの要求を出しました。

leetcodeブラシのタイトルガイドBurst Ballons