273 liens privés
Outil en ligne permettant de convertir des données et par exemple du CSV en tableau Markdown ce qui peut-être très pratique !
Outil d'analyse en ligne permettant de lancer des requêtes SQL sur des fichiers CSV directement dans son navigateur
Il est possible d'autohéberger l'outil: https://github.com/incentius-foss/WhatTheDuck (licence MIT)
Si, ça a l'air assez cool, il faut toutefois se garder d'y uploader des fichiers contenant des données personnelles ou confidentielles sur l'interface mise à disposition par Incentius, qui reste une entreprise commerciale.
découvert grâce à Korben
Répertoire d'applications garantissant le contrôle de vos données en se basant sur les protocoles remoteStorage, Fission ou Solid
découvert grâce au blog du NTE
Le problème des données de la recherche... et peut-être de la publication scientifique en général
Scripts R de Paolo Crosetto servant à analyser l'explosion des special issues paraissant chez MDPI dont il est question dans le billet qu'il a rédigé sur son blog en avril 2021
Reproduction du Gapminder d'Hans Rosling & Co. à l'aide de Bokeh, bibliothèque Python de visualisation interactive de données
Rapports de CrossRef permettant de jauger (juger ?) de l'ouverture des pratiques des éditeurs en matière de références, résumés, etc.
Créez des cartes à partir de données géographiques issues de textes. Annotez des images. Mettez vos données de recherche en relation avec d'autres données présentes sur le web, augmentez leur visibilité en les rendant partageables, sans avoir besoin d'être un expert des technologies du Web Sémantique.
La loi de Benford stipule que la fréquence d'apparition des chiffres 1 à 9 en tête d'un nombre (ex. 1xxx) n'est pas d'environ 1/9, mais que le 1 apparaît plus souvent que le 2 qui apparaît lui-même plus que le 3 et ainsi de suite jusqu'au 9, qui est le moins fréquent.
Cette propriété contre-intuitive permet de détecter des fraudes (notamment dans le domaine scientifique - si cette loi n'est pas respectée, les données pourraient bien avoir été manipulées)
découvert grâce à Orangina Rouge
Consortium de journalistes d'investigation mettant à disposition les données provenant de fuites... :-)
Page des Décodeurs, les datajournalists du Monde
J'aime beaucoup l'article sur Raymond Poulidor : hé oui, quand on regarde les données, Raymond Poulidor n'était (de loin pas) un éternel deuxième !
swissbib est désormais relié à Wikidata
page (re)découverte via ce billet de Lionel Walter
Totalité des données publiques de CrossRef (65 Go quand même...) mise à disposition de la communauté au format JSON et réutilisable librement (même si aucune licence - libre - n'est spécifiée)
Quand il y a vraisemblablement une erreur dans le graphique... :-P
découvert grâce à Alain
série de films d’animation conçue pour lutter contre les idées reçues et les fausses informations
avec des visualisations de données "à la Datagueule"
découvert sur AperiTube :-)
Page de téléchargement des données des divers projets de la Wikimedia Foundation incluant:
Analytics data files, Pageview, Mediacount, Unique, and other stats.
Many additional datasets that may be of interest to researchers, users and developers can be found in this collection. These data sets are not officially supported and may not be up to date.
Python build-in functions
read()
: reads from the file based on the number of bytes.
readline()
: reads the entire line if no arguments are passed
readlines()
: reads all the lines or remaining lines from the file
Python csv library
csv.reader()
: reads all lines in the given file
csv.DictReader()
: if the file has headers (normally the first row that identifies each filed of data), this function reads each line as a dict
with the headers as keys
Import data using Pandas
pd.read_csv()
: reads a csv file into DataFrame
pd.read_excel()
: reads an excel file into DataFrame
Options for importing large size data
dask.dataframe()
: large parallel DataFrame composed of many smaller Pandas DataFrames, split along the index
datatable
: a Python package for manipulating big 2-dimensional tabular data structures (aka data frames, up to 100GB)
data and notebook can be accessed from my Github
Logiciel libre (licence MIT/X11) pour l'analyse de données qualitatives (du type Nvivo) écrit en Python 3 et pyqt5
dépôt Github: https://github.com/ccbogel/QualCoder
Incroyables outils pour essayer de mieux comprendre l'évolution du monde lequel nous vivons...
... et ne pas en rester aux vieilles idées que nous tenons de notre enfance, en considérant tous les pays d'Afrique comme des pays où règne une extrême pauvreté, ou encore que la religion ou la culture n'évolue pas que ce qui est vrai aujourd'hui l'était autrefois et le sera toujours
Tout évolue et pour comprendre ces évolutions, ces outils sont très utiles !
P.S. Vous pouvez aussi lire l'ouvrage suivant pour vous en convaincre (un vrai bol d'air frais dans un monde dépeint comme horrible et en plein naufrage):
ROSLING, Hans, ROSLING, Ola et RÖNNLUND, Anna Rosling, 2018. Factfulness: ten reasons we’re wrong about the world--and why things are better than you think. New York : Flatiron Books. ISBN 978-1-250-10781-7.
Dépôt de données (de recherche) de l'Université de Genève