22 open source datasets om AI-modellering te stimuleren


We zijn verheugd om Transform 2022 persoonlijk terug te brengen op 19 juli en vrijwel 20 – 28 juli. Sluit je aan bij AI- en dataleiders voor inzichtelijke gesprekken en spannende netwerkmogelijkheden. Registreer vandaag!

Sommigen zeggen: “data is de nieuwe olie”, met een air van ernst. En hoewel de uitdrukking een bepaalde waarheid over de moderne digitale economie kan bevatten, geeft het geen model voor de manier waarop bits keer op keer kunnen worden gekopieerd. Soms zorgt het gemak van delen voor een duidelijke afwezigheid van schaarste en dat verandert de economie van het hele spel. Een van de beste manieren om dit te visualiseren, is door gebruik te maken van enkele open source-datasets die zich op internet verspreiden. Ze zijn allemaal gratis te gebruiken en een ervan is misschien precies wat uw project nodig heeft.

Waarom delen mensen ze? Sommigen gebruiken ze voor promotie, een soort goedkope reclame. Sommige cloudproviders bouwen de datasets uit in de wetenschap dat mensen die ze nodig hebben, zich eerder aanmelden voor rekenkracht van hetzelfde bedrijf. Als de gegevens klaar zijn, waarom wachten om ze door het hele land te verzenden.

Sommige regeringen delen ze omdat het deel uitmaakt van een traditie. De belastingbetalers zouden iets moeten krijgen – in deze gevallen transparantie over wat hun geld financiert.

Anderen begrijpen dat samenwerking vaak wint. Datasets die zijn opgebouwd uit honderden, duizenden of zelfs miljoenen kleine bijdragen kunnen nauwkeuriger en nuttiger zijn dan datasets van een op zichzelf staand bedrijf.

Weer anderen delen de gegevens omdat het deel uitmaakt van het wetenschappelijke proces. Misschien werd het ingezameld dankzij een subsidie ​​waarvoor het moest worden gedeeld. Misschien wil het verantwoordelijke team dat anderen erop voortbouwen. Mogelijk is er iemand die gelooft dat de wetenschappelijke gemeenschap het zou kunnen gebruiken.

Ongetwijfeld is een deel van deze informatie mogelijk niet zo nauwkeurig als we nodig hebben. Soms is een goede eigen gegevensverzameling de enige manier om te betalen voor betrouwbare informatie. Maar als uw project het risico kan dragen, als uw berekeningen kunnen werken met het foutenbereik van de gegevens, dan is het het beste om een ​​gegeven paard niet in de mond te kijken.

Hier zijn 22 opties voor gratis data:

OpenStraatkaart

Ze noemen het een ‘kaart van de wereld, door jou gemaakt’. Hun browsergebaseerde editor maakt het relatief eenvoudig voor iedereen om de dataset te bereiken en de locaties van straten, gebouwen, borden en meer te bewerken. De resultaten zijn gebundeld in een grote tarball die iedereen kan gebruiken, inclusief de bedrijven die grote kaarten maken en routes zoeken.

Amerikaanse volkstelling

Hoewel de details van elke telling 72 jaar lang bij wet geheim worden gehouden, deelt het US Census Bureau statistieken met iedereen. Ze hebben verschillende portals die het mogelijk maken om details van buurten en steden te downloaden. Fastfoodrestaurants gebruiken de informatie om nieuwe locaties te plannen. Staten gebruiken ze om geld toe te kennen aan lokale overheden. Zie hier, hier, hier of hier om te beginnen.

Kaggle

De organisatie is toegewijd aan data science, het leren van data science en de data zelf. Hun portaal biedt gemakkelijke toegang tot notebooks gevuld met Python- en R-code, evenals enkele lessen om ze te leren gebruiken en zelfs enkele wedstrijden. Een hoek is een grote verzameling datasets die variëren van essentieel tot bizar. Van ommicron dagelijkse gevallen, getabelleerd per land, tot de winnende nummers van de Zuid-Koreaanse loterij.

Data.gov

Overheden draaien op data en de Amerikaanse overheid deelt die soms ook. Data.gov is een centraal informatiecentrum met een lijst van vele gegevensbronnen, zoals het Integrated Postsecondary Education Data System, gevuld met gegevens over de universiteit, of de verzameling topografische gegevens van de US Geological Survey over elke vierkante mijl van het land. En als extra meta-verrassing bieden ze ook een lijst met datahubs in de afzonderlijke agentschappen, bureaus en afdelingen voor verder graven.

Data.Europa.EU

Europa gelooft ook in het openstellen van data voor de wereld en Data Europa is een project van de Europese Unie om bytes te verzamelen van alle lidstaten. Op dit moment zijn er 1.397.730 datasets in de collectie en deze omvatten een breed scala aan onderwerpen, van landbouw tot transport. Traditionele gebieden van overheidstoezicht, zoals politie en economie, zijn goed vertegenwoordigd, maar er zijn tal van vreemde en onverwachte vondsten, zoals een lijst van alle middeleeuwse manuscripten in de bibliotheek van de Universiteit van Basel of een enquête onder internetgebruikers in Zwitserland.

Data.Gov.UK

Er is geen reden om je af te vragen over de stand van de Brexit. Het Verenigd Koninkrijk publiceert ook een lijst van eigen openbare gegevensbronnen. Sommige gegevens zijn afkomstig van de centrale overheid en sommige komen van lokale autoriteiten of zelfs enkele openbare organisaties.

PLOS

De Public Library of Science werd in 2001 opgericht als alternatief voor de wetenschappelijke tijdschriften met winstoogmerk die de onderzoekswereld domineren. Ondertussen creëerde het ook PLOS Open Data, een verzameling open datasets die meestal gekoppeld zijn aan het onderzoek in het tijdschrift. Als je een vraag hebt over de analyse of als je de cijfers gewoon anders wilt laten lopen, is de kans groot dat de gegevens beschikbaar zijn. Dit was een cruciale kans voor wetenschappers om meta-analyses te maken door het onderzoek van meerdere onderzoeken te combineren om naar grotere patronen en problemen te zoeken.

Open wetenschap

De Open Science Data Cloud is een ander mechanisme waar wetenschappers uit veel verschillende disciplines hun labdata met elkaar kunnen delen. Enkele van de grootste projecten zijn Harvard’s Cultural Observatory’s Bookworm, een verzameling boeken en ander tekstueel materiaal, en Bionimbus, een verzameling biologische en biomedische gegevens voor het bestuderen van cellen.

Universitaire collecties

Veel disciplines en subdisciplines houden hun gegevensverzamelingen bij, vaak samengesteld door toegewijde onderzoekers met een bepaald begrip van het veld en wat andere onderzoekers mogelijk willen gebruiken. De machine learning-groep bij UC Irvine heeft bijvoorbeeld een verzameling van honderden datasets die al zijn opgezet voor het trainen van machine learning-algoritmen. CERN, de thuisbasis van de grote deeltjesversneller, deelt petabytes en petabytes aan gegevens voor natuurkundigen.

Stadsgegevens

Veel van de steden in het land hebben open data met wisselende toewijding omarmd. De belastingdatabases en de onroerendgoedinformatie verschijnen meestal als eerste. Sommigen verspreiden de gegevens over hun verschillende websites, maar sommigen hebben mappen vol met verwijzingen. Zie New York City, Baltimore, Miami of Orlando om te beginnen. Veel kleinere plaatsen zoals Ithaca of Auburn zijn ook online.

Amazone

AWS biedt een brede verzameling datasets en laadt ze ook vooraf in enkele van hun beste services zoals EMR, vaak om als voorbeeld te gebruiken. Veel hiervan bevatten enkele van de grootste overheidsdatasets zoals het NEXRAD-weerradarsysteem of de Landsat-afbeeldingen. Het bedrijf stimuleert het milieubewustzijn op dit gebied, dus veel van de collecties richten zich op natuurlijke gegevens als onderdeel van het Amazon Sustainability Data Initiative en Earth on AWS. In januari hebben ze bio-akoestische opnames van Orca-geluiden bijgewerkt met streaming audio uit de omgeving van Puget Sound.

azuurblauw

De Azure Open Datasets zijn samengesteld en voorverwerkt om ze gemakkelijker te gebruiken met de instanties en AI-routines van Azure. Veel van de grote overheidssets, zoals de weergegevens, worden routinematig opgevraagd en bijgewerkt, zodat de meest recente informatie op dezelfde locatie beschikbaar is. Economen kunnen de inflatie volgen met details van de Producer Price Index die is samengesteld door het Amerikaanse ministerie van Handel. Stedenbouwkundigen zijn bijvoorbeeld misschien geïnteresseerd in de gele taxi-records van New York City die ophaal- en wegbrengtijden bevatten, maar geen persoonlijke informatie.

Google

De cloud van Google slaat een breed scala aan verschillende datasets op uit veel van de overheidsbronnen. Ze hebben ook onderzocht om het gemakkelijker te maken om de gegevens rechtstreeks te gebruiken zonder iets te bouwen. Met de openbare gegevensverkenner kunt u rechtstreeks in de gegevens duiken om grafieken en grafieken te maken die interactief zijn op basis van bronnen zoals het rapport over de wereldwijde concurrentiepositie van het World Economic Forum. Google’s Colab biedt een Jupyter Notebook-interface om elke R- of Python-analyse van de open gegevens of zelfs uw eigen privégegevens bij te houden.

IBM

Voor de datawetenschappers die informatie nodig hebben, voert IBM de Data Access Exchange (DAX) uit. Een verzameling datasets verzameld van de grote overheid en open databronnen. De focus ligt op het ondersteunen van machine learning en kunstmatige intelligentie in de industrieën die de basis vormen van het IBM-klantenbestand. De dataset Oil Reservoir is bijvoorbeeld gevuld met 30.000 verschillende simulaties. De Fashion-dataset bevat bijvoorbeeld 60.000 afbeeldingen van outfits die zijn gestandaardiseerd voor het trainen van machine learning-algoritmen.

Bedrijven die hun eigen gegevensopslagplaatsen willen creëren, kunnen zich ook wenden tot Open Data for Industries, een hybride verzameling tools die is ontworpen om gegevenssilo’s in organisaties te doorbreken en tegelijkertijd analyse, rapportage en AI-training te vereenvoudigen.

VijfdertigAcht

De populaire datajournalistieksite FiveThirtyEight bevat vaak de gegevens die de basis vormen voor hun analyse en schrijven. De NHL-voorspellingen zijn bijvoorbeeld gebaseerd op duizenden simulaties die na elke wedstrijd worden bijgewerkt. Politieke peilingen over vragen zoals of kiezers een Republikeinse of Democratische generieke stemming verkiezen, zijn klaar voor uw eigen statistisch onderzoek. En als je benieuwd bent welke peilingen betrouwbaarder zijn: FiveThirtyEight verspreidt hun meta-analyse ook op opiniepeilingen.

GitHub-beveiliging

Programmeurs die GitHub gebruiken om versies van hun code op te slaan, moeten zich zorgen maken over beveiligingsproblemen en GitHub wil hen helpen. Ze verzamelen beveiligingsadviezen over fouten die zijn gevonden in de verschillende frameworks, bibliotheken en andere open source-codeblokken die ontwikkelaars kunnen bekijken. Ze besloten ook om de collectie open te stellen, zodat iedereen kan bijdragen.

Autonome auto’s

Een van de grote uitdagingen voor de auto-industrie is het creëren van de autonome auto’s van ieders dromen. Veel van de autobedrijven delen datasets die zijn verzameld door hun auto’s of laboratoriumapparatuur, zodat iedereen kan experimenteren met het bouwen van enkele van de vele lagen die nodig zijn om alles soepel te laten verlopen. Sommige van de verschillende sets bevatten gegevens van Audi, ApolloScape. Google, Motional, Oxford en Waymo.

Yelp

Op het moment van schrijven verspreidt Yelp een deel van hun uitgebreide verzameling meningen over de restaurants, winkels en andere etablissementen. De huidige batch bevat bijna 7 miljoen reviews van meer dan 150.000 bedrijven uit elf grote steden. Yelp verwacht dat de tekst en foto’s geweldige mogelijkheden bieden om natuurlijke taalverwerkingsalgoritmen en andere AI-toepassingen te trainen, maar misschien kom je op een ander idee.

DBpedia

Veel datasets zijn vrij ruw en ongestructureerd. DBpedia is een poging om een ​​open kennisgrafiek te maken vol met ontologische informatie die kan worden opgevraagd met SPARQL. De structuur maakt het mogelijk om zoekopdrachten te maken die sterke gevolgtrekkingen bevatten en niet alleen op onbewerkte trefwoorden vertrouwen om het antwoord te vinden. De meeste informatie is afkomstig van de verschillende Wikipedia’s.

Facebook

Veel van de stukjes cultureel afval zijn te vinden op het sociale netwerk van Facebook en een manier om ze te doorzoeken is via Meta’s Graph API. We zijn allemaal slechts knooppunten in deze enorme gegevensstructuur en uw code kan er doorheen prikken via de API en ziet min of meer dezelfde dingen die u zou kunnen zien als u zich aanmeldde.

GitHub

Hoewel velen repositories zoals GitHub beschouwen als plaatsen voor code, slaan velen ook gegevens op, soms naast wat code, maar ook als een op zichzelf staande bron. De aanpak brengt alle ingebouwde functies met zich mee om de evolutie van de bestanden in de loop van de tijd te volgen, iets dat vaak ontbreekt in veel databases. Sommige snelle zoekopdrachten onthullen vaak verschillende repositories die mogelijk doen wat u nodig hebt. In de cursus Deep Learning van MIT wordt bijvoorbeeld voorbeeldmateriaal opgeslagen voor klasopdrachten zoals het trainen van autonome auto’s. Als je NFT’s bestudeert, kunnen sommige Python-analyses doen wat je nodig hebt. Duizenden repositories worden weggekaapt.

Brancheorganisaties
Veel industrieën vertrouwen op netwerken van ledenorganisaties om taken uit te voeren die alle leden ten goede komen, zoals het publiceren van tijdschriften, het houden van conferenties, het sponsoren van studies, het lobbyen bij de regeringen en, soms nu, het verzamelen van datasets die iedereen kan gebruiken. Het British Film Institute houdt bijvoorbeeld de kassabonnen door de jaren heen bij en geeft de gegevens vrij in ruwe vorm en statistische jaarboeken. Het American Iron and Steel Institute volgt de productie van ruw staal. De meeste grote industrieën ondersteunen iemand die nuttige gegevens verzamelt.

De missie van VentureBeat is om een ​​digitaal stadsplein te zijn voor technische besluitvormers om kennis op te doen over transformatieve bedrijfstechnologie en transacties. Leer meer over lidmaatschap.

This post 22 open source datasets om AI-modellering te stimuleren
was original published at “https://venturebeat.com/2022/04/07/22-open-source-datasets-to-fuel-your-next-project/”

No Comment

Leave a reply

Your email address will not be published. Required fields are marked *