Introduktion til statistisk programmering med R

Indholdsfortegnelse
R er et statistisk programmeringssprog, er det gratis og open source. Det bruges hovedsageligt til driften af datamining eller statistik, alt dette med det formål at oprette applikationer til analyse af store datamængder.
Kommandolinjegrænsefladen til R I første omgang kan det være noget skræmmende, men dette overskygges efter at have sat pris på den magt og de muligheder, som sproget giver os til at dele og gengive informationsanalyse.
R Det kan downloades gratis til alle de gratis platforme, der findes i dag, vi har mulighed for at installere det i Windows, Linux og endda Mac.
I forbindelse med denne vejledning bruger vi versionen til Windows som vi kan finde på den officielle side af projektet i det følgende link. Efter download og installation har vi vores funktionelle kopi af R, hvis vi udfører det, får vi den første skærm på R som skal se sådan ud:

R Det giver os mulighed for at arbejde med data på en hurtig og effektiv måde, men standardgrænsefladen er ikke perfekt til denne opgave. Et af problemerne er, at alt åbner i separate vinduer, hvilket gør det svært at arbejde, og kommandolinjegrænsefladen er ikke den samme i alle operativsystemer.
Selvom der er mange grænseflader til at løse dette problem, vil vi i denne vejledning bruge RStudio som er tilgængelig for alle platforme, men det er vigtigt at nævne, at det er nødvendigt at have R installeret før installation, for at få versionen af Windows vi går til følgende link og downloader den tilsvarende version.
Efter installationen udfører vi RStudio og vi skulle se hovedgrænsefladen:

RStudio giver os organiseringen af ​​alle vinduerne i R i et enkelt panel og giver os desuden adgang til funktioner, der kan være svære at finde, udover dette kan vi nævne andre yderligere fordele:
  • Lad os dele vores arbejde op i Projekter hvor hver af disse vil have sit arbejdskatalog, historik og kildefiler.
  • Integration med GitHub.
  • Giver dig mulighed for at gemme en historie grafisk.
  • Du kan eksportere grafikken i forskellige formater og størrelser.
  • Det giver os mulighed for at fuldføre kode med tabellenøglen.
  • Du kan oprette interaktive diagrammer takket være visse pakker.
Som vi ser RStudio er en ret optimal måde at arbejde med RDer er dog andre løsninger på markedet, det er op til hver person at undersøge disse og vurdere, om de er bedre tilpasset den enkeltes behov.
Der er flere måder at arbejde med R hvor det første vi vil tage fat på er R -konsolPå trods af at vi ikke kan gemme det udførte arbejde her, er det ganske nyttigt at teste nogle funktioner og begynde at blive fortrolig med sproget.
At arbejde med konsollen er ganske enkelt, vi indtaster en kommando, og derefter giver R os output af det, lad os prøve en simpel tilføjelsesoperation som følgende:
> 10 + 7

Vi skubber Gå ind og automatisk R I den følgende linje giver det os svaret på vores operation:

Som vi kan se på billedet, indeholder den første linje kommandoen med vores operation, det er vigtigt at nævne det R det kræver ikke brug af semikolon for at afslutte linjen eller en anden terminerende operatør. Vi kan se i den anden linje før svaret [1] dette angiver den måde, hvorpå R udfører regneoperationer og bruger vektor, den ene betyder indekset for det første element i vektoren, hvor vi kan fremhæve, at mange andre sprog håndterer indekserne fra bunden, men R gør det fra den ene.
Som vi nævnte tidligere, er konsollen ret nyttig, men den er ikke den bedste at arbejde med, hovedsagelig fordi den ikke har mulighed for at gemme vores kommandoer og muligheden for kun at indtaste en kommando ad gangen, noget lignende sker med Python, men vi skal ikke bekymre os siden RStudio giver os script vindue placeret i den øverste del af vores konsol, hvis vi ikke finder den, går vi til Fil> Ny fil> R -script eller tryk på Shift + Command + N.
Grundlæggende er et R -script almindelig tekst med udvidelsen .R. For at se, hvordan det fungerer, kan vi genskabe vores aritmetiske operation fra det foregående eksempel ved at oprette et nyt script og tilføje flere ekstra kommandolinjer, lad os se:
 10 + 7 1:50 print ("Hej verden") 

EN R script du kan køre linje for linje med den mulighed, vi har i den øverste menu kaldet Løb og vi vil se output af det samme i konsollen, lad os se svaret for hver linje i vores script:

Hvordan kan vi se, at den første linje giver os det resultat, vi tidligere har opnået, den anden linje opretter en liste med tal fra 1 til 50, hvor tallet i parentes er det første indeks for den linje, og endelig har vi indtryk af den klassiske Hej Verden.
Efter at have set måderne, hvorpå vi kan arbejde med sprog, vil vi gå videre til mere teoretiske begreber for bedre at forstå, hvad vi har til rådighed i sproget til at arbejde og udføre vores projekter.
Som i alle programmeringssprog, variabler er et af de vigtigste aspekter, at skabe dem i R Vi behøver kun at skrive navnet på det uden at definere typen. Vi bruger opgaveoperatør at give værdien til variablen.
VigtigVi kan tildele værdien af ​​en variabel med lighedstegnet, men dette er dårlig praksis i R, brug operatøren for at foretage den korrekte tildeling <-.
Lad os se, hvordan tildeling af en værdi til en variabel og derefter udskrivning den ser ud:
 x <- 58 x 

Vi kan også tildele vores værdier flere værdier med sammenkædningsfunktionen:
y <- c (5, 2, 11, 28, 17)

Hvis vi kører eksemplet, vil vi se i det højre panel, hvordan vi har værdien af x og den numeriske liste, der er tildelt Y:

FORSTØRRE

Derudover skal vi bare bruge funktionen for at fjerne en variabel fra arbejdsområdet rm, vi kan endda rense hele arbejdsområdet, lad os se, hvordan vi gør dette:
 rm (x) rm (liste = ls ()) 

Med den første linje fjerner vi variablen og med den anden linje hele rummet.
I sprog har vi fire datastrukturer, som genkendes af R:
Tegneserie vektorEn vektor er en endimensionel matrix, hvor alle de data, der er til stede i den, skal være af samme type, heltal, kul osv., Desuden er det vigtigt at bemærke, at dette er det grundlæggende dataobjekt i R.
Arrays og matricerEn matrix ligner en vektor, hvor dataene skal være af samme type, men matricen har to dimensioner, og oplysningerne er organiseret i rækker og kolonner. Arrayet ligner arrayet, men det kan have mere end to dimensioner.
DatarammerDatarammerne er en samling af vektorer af samme længde, den ligner matricen, men særegenheden ved denne type struktur er, at de kan være af blandede datatyper, hvor vektorerne endda kan have navne.
ListerDen mest generiske type struktur i R, en liste er en samling af elementer af enhver klasse, længde eller struktur, vi kan endda have andre lister.
Yderligere, R Det har flere funktioner, der giver os mulighed for at konvertere en type struktur til en anden, lad os se:
som. vektor ()Denne funktion giver dig mulighed for at konvertere matricer til endimensionelle vektorer.
as.matrix ()Du kan konvertere datastrukturer til en matrix.
as.data.frame ()Du kan konvertere datastrukturer til datarammer.
as.list ()Du kan konvertere datastrukturer til lister.
En af styrkerne ved R er, at du kan tilføje pakker, der giver os mulighed for at udvide sprogets funktionaliteter. På andre sprog kommer disse plugins på biblioteker, men i R er biblioteket stedet, hvor alle pakkerne gemmes.
Det pakker af R kan komme fra to forskellige steder, nogle kommer med R som standard, men de er ikke aktive, og andre kan findes i onlinelager.
For at se de pakker, der aktuelt er installeret eller indlæst, kan vi udføre følgende funktioner:
 bibliotek () søg () 

Funktionen bibliotek () bringer os en liste over de pakker, der i øjeblikket er installeret, lad os se en del af, hvad det kaster os, når vi udfører denne linje:

Funktionen Søg () På den anden side viser det os ved konsol de pakker, der i øjeblikket er indlæst, lad os se i følgende billede, hvilke pakker vi har indlæst:

Derudover kan vi gøre det på flere måder for at installere pakker, den første er gennem indstillingen i topmenuen Værktøjer> Installer pakker og så har vi gennem sprogets funktioner, sidstnævnte er den, vi anbefaler, da det dermed kan være en del af vores script.
For at installere en pakke, vi bruger installer. pakker, efter dette skal vi inkludere det, kan vi bruge bibliotek eller kræve Til dette er det dog bedst at bruge sidstnævnte til at undgå forvirring med funktionsomfanget, lad os se, hvordan vi installerer og inkluderer pakken ggplot2:
 install.packages ("ggplot2") kræver ("ggplot2") 

Endelig for at slette en pakke, vi kan bruge fjern. pakker, lad os se, hvordan det bruges:
remove.packages ("ggplot2")

Hermed afslutter vi denne vejledning, som vi allerede har en idé om, hvordan vi arbejder med R, ud over at have afklarede punkter som f.eks. variabler og datastrukturer, væsentlige aspekter, som vi skal kende for at kunne drage fuld fordel af dette kraftfulde og effektive sprog.Kan du lide og hjælpe denne vejledning?Du kan belønne forfatteren ved at trykke på denne knap for at give ham et positivt punkt

Du vil bidrage til udviklingen af ​​hjemmesiden, at dele siden med dine venner

wave wave wave wave wave