305 liens privés
PLugin pour WordPress fournissant un éditeur graphique puissant et hautement personnalisable
À tester !
découvert grâce à Antoine
<em>cheatsheet</em> pour la bibliothèque de fonctions Pandas de Python
Python build-in functions
read(): reads from the file based on the number of bytes.
readline(): reads the entire line if no arguments are passed
readlines(): reads all the lines or remaining lines from the file
Python csv library
csv.reader(): reads all lines in the given file
csv.DictReader(): if the file has headers (normally the first row that identifies each filed of data), this function reads each line as a dict with the headers as keys
Import data using Pandas
pd.read_csv(): reads a csv file into DataFrame
pd.read_excel(): reads an excel file into DataFrame
Options for importing large size data
dask.dataframe(): large parallel DataFrame composed of many smaller Pandas DataFrames, split along the index
datatable: a Python package for manipulating big 2-dimensional tabular data structures (aka data frames, up to 100GB)
data and notebook can be accessed from my Github
Exemple de génération de texte automatique par un réseau neuronal
créé par <Ahref="https://adamdking.com/">Adam King</A> (Ahref="https://twitter.com/adamdanielking">@AdamDanielKing</A)
basé sur le nouveau modèle de <em>machine learning</em> d'OpenAI et le <Ahref="https://openai.com/blog/better-language-models/">modèle de langage GPT-2</A>
découvert grâce à Francesco
Internet Archive, en plus de backuper le web, propose maintenant aussi d'emprunter des livres scannés gratuitement, en créant un compte en quelques secondes !
Alors, évidemment, il n'est pas question d'avoir accès aux dernières nouveautés, mais il y a de quoi faire.
découvert via le billet Helping Libraries Transform their Physical Collections
pour bricoler...
Cartographie des outils et moyens de protéger sa vie privée faite par le laboratoire d'innovation numérique de la Cnil (LINC)
découvert grâce à <Ahref="https://www.zotero.org/users/7370/items/top">Diane Mercier</A>
Outil de transformation de références extraites d'un traitement de texte en fichier RIS ou BibTeX
pourrait remplacer <Ahref="https://anystyle.io">anystyle.io</A>, qui est en maintenance pour une durée indéterminée
Même si les premiers tests sur PubMed ont l'air concluants, ce n'est pas le cas pour les autres sources. Cela, cet outil fait tout de même gagner du temps...
cheatsheet Python
This is an example of European Union map made with Nuts2json API showing countries with a coastal margin.
Top 100 des articles scientifiques (preprint et version validée) ayant obtenu le plus d'attention en 2019 en se basant sur les sources utilisant la solution proposée par altmetric.com
À relever: 36% ne sont accessibles que sur abonnement, tous les autres sont soit publiés en Open Access, soit consultables gratuitement (év. après un embargo de quelques mois)
- Markdown Conversion: you can easily produce markdown tables as a result of a Pandas DataFrame operation. You will need one additional library though, called
tabluate. - NA Scalar: Pandas finally got a scalar for representing missing values
- String Data type: Until now we only had object datatype to deal with anything not numeric, and it could be problematic [...]. Just like pd.NA this is still considered experimental, meaning it is prone to change without warning.
<em>No additional comment needed</em>
via <Ahref="https://lehollandaisvolant.net/?id=20200305184837">le hollandais volant</A>
Interface permettant de visualiser les informations statistiques dans un set de données et selon la distribution de son choix (assez similaire à Geogebra)
Le code qui fait tourner l'outil est sur Github (aucune licence indiquée): https://github.com/AntoineSoetewey/statsandr
Explications ici: https://towardsdatascience.com/a-guide-on-how-to-read-statistical-tables-8fcfdb9e1a56
découvert grâce à Francesco
Tutoriel concernant la façon de travailler avec des données en JSON en Python trouvé sur DataCamp
<em>cheatsheet</em> des commandes de base de Git
Il suffit de faire commencer la cellule contenant le code de solution par # SOLUTION: et de faire tourner le script ci-dessous :
import json
import re
def stripcell(cell, pattern):
"""Check if the first line of the cell's content matches <code>pattern</code>"""
if cell["cell_type"] != "code":
return False
content = cell["source"]
return ( len(content) > 0 and re.search(pattern, content[0]) )
pattern = r"^# SOLUTION:"
struct = json.load(open("Final Exercices Solution.ipynb"))
cells = struct["cells"]
struct["cells"] = [ c for c in cells if not stripcell(c, pattern) ]
with open('Final Exercices.ipynb', 'w') as f:
json.dump(struct, f, ensure_ascii=False)
astuce donnée par Antoine
Pour traduire de Zotero...
Rapport annuel de Github sur l'utilisation de la plateforme
Il manque l'accès aux données pour savoir p. ex. à quel rang se situe la Suisse ? Combien de projets ont plus de 1'000 contributeurs ? etc.
Excellente pub d'Infomaniak, reprenant les codes des pubs Apple des années 2000