<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>i314 &#124;  Data Science_i314 |  Data Science</title>
	<atom:link href="http://i314.com.ar/?feed=rss2" rel="self" type="application/rss+xml" />
	<link>http://i314.com.ar</link>
	<description>Research in Data Science</description>
	<lastBuildDate>Tue, 12 Jul 2011 22:44:16 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>Primer encuentro de usuarios de R en Buenos Aires</title>
		<link>http://i314.com.ar/?p=264</link>
		<comments>http://i314.com.ar/?p=264#comments</comments>
		<pubDate>Fri, 01 Jul 2011 19:18:19 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[Grupo Usuarios R Argentina]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=264</guid>
		<description><![CDATA[ <p>Me encuentro ultimando los detalles para organizar el primer encuetro de usuarios de R en Buenos Aires.Estoy interesado en contactarme con algún biólogo con muy buenos conocimientos en Microarrays para una de las charlas orientadas a Bioinformática con Bioconductor, y un especialista en Finanzas para otra de las exposiciones.</p> <p>Cualquier otro interesado en participar, <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=264">Primer encuentro de usuarios de R en Buenos Aires</a></span>]]></description>
			<content:encoded><![CDATA[<div>
<div>
<h3><a href="http://i314.com.ar/wp-content/uploads/2011/07/aR-logo-square.jpg"><img class="alignleft size-thumbnail wp-image-265" title="aR-logo-square" src="http://i314.com.ar/wp-content/uploads/2011/07/aR-logo-square-150x150.jpg" alt="" width="150" height="150" /></a></h3>
<p>Me encuentro ultimando los detalles para organizar el primer encuetro de usuarios de R en Buenos Aires.Estoy interesado en contactarme con algún biólogo con muy buenos conocimientos en Microarrays para una de las charlas orientadas a Bioinformática con Bioconductor, y un especialista en Finanzas para otra de las exposiciones.</p>
<p>Cualquier otro interesado en participar, ya sea como oyente o expositor, por favor no duden en contactarse conmigo:  juan.brana@gmail.com</p>
<p>Espero que este sea otro simple aporte a todos los esfuerzos que se estan produciendo para difundir y seguir desarrollando esta maravillosa plataforma open source.</p>
<p>Pueden visitarnos en: <a href="http://www.linkedin.com/redirect?url=http%3A%2F%2Far%2Ei314%2Ecom%2Ear&amp;urlhash=yoRZ&amp;_t=tracking_anet" rel="nofollow" target="blank">http://ar.i314.com.ar</a></p>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=264</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Análisis de Microarrays de ADN</title>
		<link>http://i314.com.ar/?p=254</link>
		<comments>http://i314.com.ar/?p=254#comments</comments>
		<pubDate>Tue, 17 May 2011 13:14:43 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[DATA ANALYTICS]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=254</guid>
		<description><![CDATA[<p></p> <p>Los chips de ADN, tambien conocidos como micromatrices o microarrays, se han convertido en una herramienta de investigación médica y biológica de vanguardia. Sus aplicaciones más notables están relacionadas la investigación en Cancer, nuevas medicinas y mejorar alimentos a través del mejoramiento genético.</p> <p>La Matemática y el Análisis de Datos, juegan un papel fundamental <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=254">Análisis de Microarrays de ADN</a></span>]]></description>
			<content:encoded><![CDATA[<p><a href="http://i314.com.ar/wp-content/uploads/2011/05/dna.jpg"><img class="alignleft size-thumbnail wp-image-255" title="dna" src="http://i314.com.ar/wp-content/uploads/2011/05/dna-150x150.jpg" alt="" width="150" height="150" /></a></p>
<p>Los <a title="Micromatrices" href="http://es.wikipedia.org/wiki/Chip_de_ADN" target="_blank">chips de ADN</a>, tambien conocidos como micromatrices o microarrays, se han convertido en una herramienta de investigación médica y biológica de vanguardia. Sus aplicaciones más notables están relacionadas la investigación en Cancer, nuevas medicinas y mejorar alimentos a través del mejoramiento genético.</p>
<p>La Matemática y el Análisis de Datos, juegan un papel fundamental en el procesamientos de datos que arrojan los experimentos realizados con Microarrays. Los cuales enfrentan dos grandes desafíos:</p>
<p>1.1- Identificar el tratar el ruido en los datos.<br />
1.2- Trabajar con data sets no tradicionales.</p>
<p>Con referencia al punto dos, en los estudios de Análisis de Datos tradicionales uno está acostumbrado a trabajar con set de datos con decenas de columnas y miles o millones de filas.<br />
Por el contrario los data sets provenientes de exprimentos de Microarrays contienen miles de columnas y tan solo una pocas decenas de filas. De esta manera los modelos de clusterización tradicionales suelen no se tan exactos como se podría desear.</p>
<p>Hoy por hoy, <a title="Bioconductor" href="http://www.bioconductor.org/" target="_blank">Bioconductor</a>, una plataforma para Bioinformática que corre bajo <a title="R" href="http://www.r-project.org/" target="_blank">R</a>, es una de las mejores herramientas y más difundidas para este tipo de análisis. Sin embargo quería comentarles dos alternativas, que parecen ser sumamente potentes para conseguir buenos resultados de clusterización:</p>
<p><span style="color: #808000;"><strong>2.1- Fractal Clustering:</strong></span><br />
- El Análisis Fractal es robusto para trabajar con data sets de gran tamaño, alta dimensionalidad y ruido.  Lo cual parece ser ideal para los puntos 1.1 y 2.1<br />
- La idea detrás de la Clusterización Fractal es la de agrupar puntos tal que al agregar uno nuevo este no cambie radicalmente la Dimensión Fractal del Cluster en cuestión.<br />
- Es posible caracterizar patrones genéticos actuando en diferentes escalas. Esta es una propiedad directamente relacionada con la &#8220;autosimilitud&#8221;, otra de las propiedades de la Geometría Fractal.</p>
<p><span style="color: #808000;"><strong>2.2 Fuzzy Logic</strong></span><br />
Los métodos más utilizados de clusterización asignan un elemento a cada cluster, sin embargo no brindan información sobre cual es la influencia de dicho punto en el cluster.<br />
Por el contrario, el <a title="c-means" href="http://omarsanchez.net/meanclust.aspx" target="_blank">algoritmo de c-means</a>, brinda un índice de pertenencia al cluster en lugar de hacerlo pertenecer completamente. Diferencia que puede ser fundamental en el estudio de expresión de genes en un experimento de micromatrices.</p>
<p>Tanto la Geometría Fractal como la Lógica Difusa, tienen aspectos en común y existe algorítmos híbridos entre ambas disciplinas, como ser las Dimensiones Fractales Difusas (Fuzzy Fractal Dimensions, FFD)</p>
<p>Estos algoritmos híbridos entre ambas tecnologías pueden marcar una diferencia importante y grandes avances en el Análisis de Datos de Microarrays.</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=254</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Data Mining based on Information Theory</title>
		<link>http://i314.com.ar/?p=249</link>
		<comments>http://i314.com.ar/?p=249#comments</comments>
		<pubDate>Sat, 30 Apr 2011 17:20:50 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[DATA ANALYTICS]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=249</guid>
		<description><![CDATA[<p></p> <p>Theoretical background</p> <p>The Information Theory formulated by Claude Shannon has become a solid ground for data analysis and the development of predictive and cluster models.</p> <p>Research carried out by Dorian Pyle in this field allowed us to develop new algorithms that show a new way to approach data analysis, which among other things, allow <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=249">Data Mining based on Information Theory</a></span>]]></description>
			<content:encoded><![CDATA[<p><a href="http://i314.com.ar/wp-content/uploads/2011/04/powerhouse1.jpg"><img class="alignleft size-full wp-image-251" title="powerhouse" src="http://i314.com.ar/wp-content/uploads/2011/04/powerhouse1.jpg" alt="" width="160" height="160" /></a></p>
<p>Theoretical background</p>
<p>The Information Theory formulated by Claude Shannon has become a solid ground for data analysis and the development of predictive and cluster models.</p>
<p>Research carried out by Dorian Pyle in this field allowed us to develop new algorithms that show a new way to approach data analysis, which among other things, allow us to know the quantity of free noise  information that contains the data base, even before trying to create a model.</p>
<p>Once they have the capability of measuring information it is possible to obtain other advantages. For instance, if it is known that the data have n bits of information, then it is possible to have an objective reference to evaluate the models. It is also possible to design a simple and efficient algorithm which could select the best variables to develop a model.</p>
<p>Data Mining looks for and reveals the relationships and patterns which contain data known as information. The Information Theory, therefore, becomes an ideal tool to create algorithms that may treat massive volumes of data efficiently.</p>
<p>Thanks to Marcelo Ferreyra from <a title="Dataxplore" href="http://www.dataxplore.com.ar" target="_blank">Dataxplore</a>, Chief Scientist Application Developer of <a title="Powerhouse" href="http://www.dataxplore.com.ar/index_archivos/Page446.htm#Powerhouse" target="_blank">Powerhouse</a>, Data Mining platform based on Information Theory.</p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=249</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Data Mining basado en Teoría de la Información</title>
		<link>http://i314.com.ar/?p=241</link>
		<comments>http://i314.com.ar/?p=241#comments</comments>
		<pubDate>Thu, 28 Apr 2011 19:00:33 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[DATA ANALYTICS]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=241</guid>
		<description><![CDATA[<p> La Teoría de la Información formulada por Claude Shannon ha pasado a ser una base sólida para al análisis de datos y el desarrollo de modelos predictivos y de clusters. Las investigaciones de Dorian Pyle en este campo, han permitido desarrollar nuevos algoritmos que posibilitan un nuevo enfoque al análisis de datos, que entre <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=241">Data Mining basado en Teoría de la Información</a></span>]]></description>
			<content:encoded><![CDATA[<p><a href="http://i314.com.ar/wp-content/uploads/2011/04/image353.jpg"><img class="alignleft size-thumbnail wp-image-242" title="image353" src="http://i314.com.ar/wp-content/uploads/2011/04/image353-150x150.jpg" alt="" width="150" height="150" /></a><br />
La Teoría de la Información formulada por Claude Shannon ha pasado a ser una base sólida para al análisis de datos y el desarrollo de modelos predictivos y de clusters.<br />
Las investigaciones de Dorian Pyle en este campo, han permitido desarrollar nuevos algoritmos que posibilitan un nuevo enfoque al análisis de datos, que entre otras cosas, permiten conocer la cantidad de información libre de ruido que contiene una base de datos, aún antes de intentar crear un modelo.<br />
A partir de la habilidad de medir la información es posible obtener otras ventajas. Por ejemplo, si se sabe que los datos contienen n bits de información, entonces se cuenta con una referencia objetiva para evaluar los modelos. También es posible diseñar un algoritmo simple y eficiente que seleccione las mejores variables para desarrollar un modelo.<br />
Data Mining busca y deja al descubierto las relaciones y patrones que contienen los datos y que llamamos información. La Teoría de la Información se convierte entonces en la herramienta ideal para crear algoritmos que puedan tratar de manera eficiente grandes volúmenes de datos.</p>
<p>&nbsp;</p>
<p><em>Por Marcelo Ferreyra de <a href="http://www.dataxplore.com.ar/" target="_blank">Dataxplore</a>, uno de los desarrolladores de <a title="PowerHouse Analytics" href="http://www.dataxplore.com.ar/index_archivos/Page446.htm#Powerhouse">PowerHouse Analytics</a>, plataforma de Data Mining basada en Teoría de la Información.</em></p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=241</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Gráficos Básicos en R: Dataset sobre terremotos en Fiji</title>
		<link>http://i314.com.ar/?p=227</link>
		<comments>http://i314.com.ar/?p=227#comments</comments>
		<pubDate>Sun, 13 Mar 2011 23:55:59 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[R Tips]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=227</guid>
		<description><![CDATA[<p>En el paquete de datasets de R 2.12, existe uno llamado &#8220;quakes&#8221;. El mismo registra una serie de eventos sísmicos en Fiji. Para chequear que lo tienen instalado simplemente desde consola tipeen el nombre del dataset:</p> <p>&#62; quakes</p> <p>En este post, vamos a trabajar con gráficos de los paquetes ggplot2 y lattice, asi que si <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=227">Gráficos Básicos en R: Dataset sobre terremotos en Fiji</a></span>]]></description>
			<content:encoded><![CDATA[<p>En el paquete de datasets de R 2.12, existe uno llamado &#8220;quakes&#8221;. El mismo registra una serie de eventos sísmicos en Fiji.<br />
Para chequear que lo tienen instalado simplemente desde consola tipeen el nombre del dataset:</p>
<p><span style="color: #808080;"><em><strong>&gt; quakes</strong></em></span></p>
<p>En este post, vamos a trabajar con gráficos de los paquetes ggplot2 y lattice, asi que si no los tienen instalados:</p>
<p><em><strong><span style="color: #808080;">&gt;install.packages(&#8220;lattice&#8221;)</span></strong></em><br />
<em><strong><span style="color: #808080;">&gt;install.packages(&#8220;ggplot2&#8243;)</span></strong></em></p>
<p>Ahi vemos el dataset completo, 1000 registros. Para obtener mayores detalles sobre el mismo:</p>
<p><span style="color: #808080;"><em><strong>&gt; help(quakes)</strong></em></span></p>
<p>Veamos que variables se encuentran en el dataset:</p>
<p><span style="color: #808080;"><em><strong>&gt; names(quakes)</strong></em></span></p>
<p>Vemos: lat (latitud), long (longitud), depth (profundidad), mag (magnitud), stations (estaciones que los reportaron)</p>
<p>Empecemos visualizando un poco nuestro set de datos, para ello creemos un histograma de la magnitud de los eventos sismicos en las islas Fiji.</p>
<p>- Cargamos la librería &#8220;lattice&#8221;<br />
<span style="color: #808080;"><em><strong>&gt;library(lattice)</strong></em></span></p>
<p>- Graficamos el histograma<br />
<span style="color: #808080;"><em><strong>&gt; histogram(~mag, data=quakes, col=&#8221;blue&#8221;)</strong></em></span><br />
~variable_a_plotear, data=nuestro_set_de_datos, col=&#8221;color_que_deseamos&#8221;)<br />
Vemos que la magnitud que más se presento fué de 4.5 grados</p>
<p><a href="../wp-content/uploads/2011/03/histograma.jpg"><img class="aligncenter" title="histograma" src="../wp-content/uploads/2011/03/histograma-300x168.jpg" alt="" width="300" height="168" /></a></p>
<p>- Grafiquemos ahora la magnitud en función de la profundidad en las que se presentaron:<br />
Cargamos el paquete &#8220;ggplot2&#8243;<br />
<span style="color: #808080;"><em><strong>&gt;library(ggplot2)</strong></em></span></p>
<p>Ahora sí graficamos:<br />
<span style="color: #808080;"><em><strong>&gt; qplot(mag,depth,data=quaks)</strong></em></span></p>
<p><a href="http://i314.com.ar/wp-content/uploads/2011/03/mag_depth.jpg"><img class="aligncenter size-medium wp-image-229" title="mag_depth" src="http://i314.com.ar/wp-content/uploads/2011/03/mag_depth-300x168.jpg" alt="" width="300" height="168" /></a><br />
Interesante observar que los sismos de más alto grado, se han producido a profundides más bajas</p>
<p>- Vamos a hacer un gráfico con la función DENSIDAD:<br />
para ello, creamos una variable &#8220;d&#8221; a la que le asignamos la data que deseamos calcularle la densidad:<br />
a la izquierda del signo $ por supuesto el dataset con el que estamos trabajando, y a la derecha la variable que estamos calculando su densidad. Por ultimo, graficamos la nueva variable &#8220;d&#8221;</p>
<p><span style="color: #808080;"><em><strong>&gt; d &lt;- density(quakes$mag)</strong></em></span><br />
<span style="color: #808080;"><em><strong>&gt; plot(d)</strong></em></span></p>
<p><a href="http://i314.com.ar/wp-content/uploads/2011/03/density.jpg"><img class="aligncenter size-medium wp-image-230" title="density" src="http://i314.com.ar/wp-content/uploads/2011/03/density-300x168.jpg" alt="" width="300" height="168" /></a>Bueno, con esto tenemos algunos comandos básicos de los paquetes ggplot2 y lattice, para graficar de manera sencilla varios estadísticos útiles para visualizar nuestra data.</p>
<p>Como ejercicio, pueden probar graficar la cantidad de estaciones que detectaron los sismos en función de su magnitud.</p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=227</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>R Basic Tip: Convertir archivos rda a csv</title>
		<link>http://i314.com.ar/?p=214</link>
		<comments>http://i314.com.ar/?p=214#comments</comments>
		<pubDate>Thu, 10 Mar 2011 16:45:49 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[R Tips]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=214</guid>
		<description><![CDATA[<p> Si bien R cuenta con varias herramientas para visualizar y trabajar con archivos nativos &#8220;rda&#8221; a veces es cómodo exportar la base a un csv y trabajarlo con Excel.</p> <p>En este ejemplo, trabajaré con la misma base del post anterior, ALL.rda (hacer click aquí)</p> <p>Antes de convertirlo a CSV, es importante asegurarse que el <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=214">R Basic Tip: Convertir archivos rda a csv</a></span>]]></description>
			<content:encoded><![CDATA[<p><a href="http://i314.com.ar/wp-content/uploads/2011/03/r.jpg"><img class="alignleft size-thumbnail wp-image-201" title="r" src="http://i314.com.ar/wp-content/uploads/2011/03/r-150x150.jpg" alt="" width="69" height="69" /></a><br />
Si bien R cuenta con varias herramientas para visualizar y trabajar con archivos nativos &#8220;rda&#8221; a veces es cómodo exportar la base a un csv y trabajarlo con Excel.</p>
<p>En este ejemplo, trabajaré con la misma base del post anterior, <span style="color: #993300;"><strong>ALL.rda</strong></span> (<a href="http://i314.com.ar/?p=209" target="_blank">hacer click aquí</a>)</p>
<p>Antes de convertirlo a CSV, es importante asegurarse que el dataset se encuentra cargado en memoria, y en el entorno adecuado.</p>
<p>Supongamos que el dataset ALL.rda se encuentra alojado en el directorio &#8220;/data&#8221; : (en Linux)</p>
<p><strong><span style="color: #888888;"><em>&gt; setwd(&#8220;/data&#8221;)</em></span></strong><br />
Con esto seteamos el entorno adecuado donde se encuentra el archivo rda</p>
<p><strong><em><span style="color: #888888;">&gt; library(&#8220;ALL&#8221;)</span></em></strong></p>
<p><em><strong><span style="color: #888888;">&gt; data(&#8220;ALL&#8221;)</span></strong></em><br />
Cargamos el dataset en memoria y en nuestro entorno &#8220;/data&#8221;</p>
<p><span style="color: #999999;"><em><strong>&gt; ls()</strong></em></span><br />
<span style="color: #999999;"><em><strong>[1] &#8220;ALL&#8221;</strong></em></span><br />
Comprobamos que ALL.rda está en memoria y en nuestro entorno.</p>
<p><strong><em><span style="color: #888888;">&gt; write.csv(ALL, file = &#8220;ALL.csv&#8221;)</span></em></strong><br />
Finalmente convertimos el dataset ALL.dar a ALL.csv<br />
(notar que no es necesario ponerle la extención rda al dataset en nuestra sintaxys.<br />
Con esto obtenemos el archivo:  /data/ALL.csv.</p>
<p>&nbsp;</p>
<p><span style="color: #c0c0c0;">rda 2 csv</span></p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=214</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>R Basic Tip: Trabajando con entornos en R</title>
		<link>http://i314.com.ar/?p=209</link>
		<comments>http://i314.com.ar/?p=209#comments</comments>
		<pubDate>Thu, 10 Mar 2011 16:10:24 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[R Tips]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=209</guid>
		<description><![CDATA[<p></p> <p>&#160;</p> <p>Más de una vez se presentan problemas trabajando con datasets que no se encuentran en el &#8220;entorno&#8221; (environment) adecuado. A continuación les dejo algunos comandos que los ayudarán a chequear y cambiar entornos de manera sencilla.</p> <p>(1) ls() Nos muestra lo que tenemos cargado en memoria en nuestro entorno en este momento. Si <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=209">R Basic Tip: Trabajando con entornos en R</a></span>]]></description>
			<content:encoded><![CDATA[<p><a href="http://i314.com.ar/wp-content/uploads/2011/03/r.jpg"><img class="alignleft size-thumbnail wp-image-201" title="r" src="http://i314.com.ar/wp-content/uploads/2011/03/r-150x150.jpg" alt="" width="70" height="70" /></a></p>
<p>&nbsp;</p>
<p>Más de una vez se presentan problemas trabajando con datasets que no se encuentran en el &#8220;entorno&#8221; (environment) adecuado.<br />
A continuación les dejo algunos comandos que los ayudarán a chequear y cambiar entornos de manera sencilla.</p>
<p>(1) ls()<br />
Nos muestra lo que tenemos cargado en memoria en nuestro entorno en este momento.<br />
Si acabamos de correr R, seguramente no devolverá nada.</p>
<p>(2) <code>rm(list=ls())</code><br />
Nos permite limpiar nuestro entorno y comenzar de cero nuevamente</p>
<p>(3) <code>getwd()</code><br />
Nos muestra nuestro actual entorno</p>
<p>(4) <code>setwd()</code></p>
<p>Nos permite setear un entorno nuevo, por ejemplo:<br />
&gt; setwd(&#8220;/data&#8221;)</p>
<p>&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;&#8230;..</p>
<p>Veamos un ejemplo: (se verán los pasos en el screenshot a continuación)</p>
<p>Mi intención es realizar una exploración veloz de un dataset extraído de bioconductor.org, específicamente una base de Leucemia llamada ALL. En lugar de instalar el paquete completo: &#8220;<a href="http://www.bioconductor.org/help/bioc-views/release/data/experiment/html/ALL.html" target="_blank">http://www.bioconductor.org/help/bioc-views/release/data/experiment/html/ALL.html</a>&#8220;, decidí bajar el tar.gz que se encuentra en la misma página.<br />
Una vez desempaquedo he movido ../data/ALL.rda (que es el dataset en cuestión) a mi directorio /data donde trabajo con datasets temporales. (Aclaron que estoy  trabajando sobre un sistema operativo Linux)</p>
<p>La secuencia que muestra el screenshot a contiuación va desde listar lo que tengo en memoria, hasta cargar /data como nuevo entorno, y trabajar con la base ALL.</p>
<p><a href="http://i314.com.ar/imagenes/screen-environment.png" target="_blank"><img class="aligncenter size-large wp-image-210" title="screen-environment" src="http://i314.com.ar/wp-content/uploads/2011/03/screen-environment-1024x575.png" alt="" width="640" height="359" /></a></p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=209</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>R Basic Tip: Trabajando con Datasets</title>
		<link>http://i314.com.ar/?p=193</link>
		<comments>http://i314.com.ar/?p=193#comments</comments>
		<pubDate>Wed, 02 Mar 2011 17:44:13 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[R Tips]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=193</guid>
		<description><![CDATA[<p></p> <p>&#160;</p> <p>Con la instalación básica de R, la plataforma nos brinda toda una serie de Datasets con los cuales podemos trabajar para perfeccionar nuestras técnicas.</p> <p>(1) Viendo los Datasets disponibles:</p> <p>&#62;library(help="datasets")</p> <p>Nos muestra los sets de datos ya existentes, y una breve descripción del mismo. Por ejemplo uno de ellos es CO2 (Carbon Dioxide <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=193">R Basic Tip: Trabajando con Datasets</a></span>]]></description>
			<content:encoded><![CDATA[<p><a href="http://i314.com.ar/wp-content/uploads/2011/03/r.jpg"><img class="alignleft size-thumbnail wp-image-201" title="r" src="http://i314.com.ar/wp-content/uploads/2011/03/r-150x150.jpg" alt="" width="66" height="66" /></a></p>
<p>&nbsp;</p>
<p>Con la instalación básica de R, la plataforma nos brinda toda una serie de Datasets con los cuales podemos trabajar para perfeccionar nuestras técnicas.</p>
<p>(1) Viendo los Datasets disponibles:</p>
<p><span style="color: #333333;"><em><code>&gt;library(help="datasets")</code></em></span></p>
<p>Nos muestra los sets de datos ya existentes, y una breve descripción del mismo.<br />
Por ejemplo uno de ellos es CO2 (Carbon Dioxide Uptake in Grass Plants)</p>
<p>(2) Obteniendo más información sobre el Dataset elegido:</p>
<p><span style="color: #333333;"><em>&gt; help(CO2)</em></span></p>
<p>(3) Veamos que variables componen el Dataset:</p>
<p><em><span style="color: #333333;">&gt; names (CO2)</span></em></p>
<p><span style="color: #333333;">(4) Vamos a ver más detalles aún y unos breves índices estadísticos:</span></p>
<p><em>&gt; summary (CO2)</em></p>
<p><span style="color: #333333;">(5) Carguemos el Dataset en memoria</span></p>
<p><em>&gt; data (CO2)</em></p>
<p><span style="color: #333333;">(6) Hagamos un breve ejemplo graficando dos variables con qplot. Recordar que el Dataset debe estar cargado en memoria como se vio en el paso anterior. Para este ejemplo debemos cargar tambien la libreria ggplot2 (instalarla de no tenerla) </span></p>
<p><em><span style="color: #333333;">&gt; p &lt;- qplot(Plant, uptake, data = CO2)</span></em><br />
<em><span style="color: #333333;">&gt; print(p)</span></em></p>
<p>En los proximos post iré subiendo con más detalle como trabajar con gráficos, solo quería mostrarles un ejemplo de como cargar los Datasets y trabajar con ellos.</p>
<p>Pueden descargar el mini-script para luego ejectuar el gráfico final:</p>
<p><a href="http://i314.com.ar/scripts/datasets.R">http://i314.com.ar/scripts/datasets.R</a></p>
<p>Para ejecutarlo, desde consola:</p>
<p># R CMD BATCH datasets.R</p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=193</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>R Basic Tip: Archivos CSV en R</title>
		<link>http://i314.com.ar/?p=191</link>
		<comments>http://i314.com.ar/?p=191#comments</comments>
		<pubDate>Thu, 24 Feb 2011 10:09:37 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[R Tips]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=191</guid>
		<description><![CDATA[<p></p> <p>En este tip, veremos alguas funciones para trabajar con archivos CSV en R, estos comandos será sumamente útiles cuando en el futuro hagamos scripts para crear diferentes gráficos en R.</p> <p>&#160;</p> <p>(1) Vamos a abrir nuestro archivo CSV, que consta de los registros de las acciones de IBM entre el 1/09/10 y el 21/12/10. <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=191">R Basic Tip: Archivos CSV en R</a></span>]]></description>
			<content:encoded><![CDATA[<p><a href="http://i314.com.ar/wp-content/uploads/2011/02/r.jpg"><img class="alignleft size-thumbnail wp-image-185" title="r" src="http://i314.com.ar/wp-content/uploads/2011/02/r-150x150.jpg" alt="" width="75" height="75" /></a></p>
<p>En este tip, veremos alguas funciones para trabajar con archivos CSV en R, estos comandos será sumamente útiles cuando en el futuro hagamos scripts para crear diferentes gráficos en R.</p>
<p>&nbsp;</p>
<p>(1) Vamos a abrir nuestro archivo CSV, que consta de los registros de las acciones de IBM entre el 1/09/10 y el 21/12/10. Pueden bajarlo <a title="Acciones IBM Dataset" href="http://i314.com.ar/datasets/ibm_1-09-10_21-12-10.csv" target="_blank">aquí</a>. Este dataset tiene 7 variables (&#8220;Date&#8221;     &#8220;Open&#8221;     &#8220;High&#8221;     &#8220;Low&#8221;      &#8220;Close&#8221;    &#8220;Volume&#8221;   &#8220;AdjClose&#8221;) Recuerden que las variables son sensibles a las mayusculas.</p>
<p><strong><span style="color: #808000;">&gt; ibm_stocks &lt;- read.csv(file=&#8221;/data/ibm_1-09-10_21-12-10.csv&#8221;,head=TRUE,sep=&#8221;,&#8221;)</span></strong></p>
<p>- en mi PC, el archivo csv de nombre: <strong>ibm_1-09-10_21-12-10.csv</strong> esta ubicado en el directorio<br />
<strong>/data</strong> , ustedes deberán poner su PATH correcto dependiendo donde tengan guardado su archivo.</p>
<p>-<strong> head=TRUE</strong> hace referencia que en la primera FILA, se encuentra el nombre de las variables</p>
<p>- sep=&#8221;,&#8221; , implica que las variables del CSV están separadas por comas, podrían estarlo por punto y coma, tabs o espacios.</p>
<p>- el contenido del archivo CSV se lo asignamos a la variable <strong>ibm_stocks</strong></p>
<p>&nbsp;</p>
<p>(2) Comprobamos y vemos el contenido de la variable ibm_stocks</p>
<p><strong><span style="color: #808000;">&gt; ibm_stocks</span></strong></p>
<p>Aquí se desplegará el dataset completo, con sus columnas y un índice.</p>
<p>&nbsp;</p>
<p>(3) Para obtener los primeros estadísticos y datos exploratorios podemos utilizar la función <strong>summary</strong>:</p>
<p><strong><span style="color: #808000;">&gt; summary(ibm_stocks)</span></strong></p>
<p><strong><span style="color: #808000;"><br />
</span></strong></p>
<p>(4) Vamos a chequear la cantidad de variables y sus nombres en el dataset:</p>
<p><span style="color: #808000;"><strong>&gt; names(ibm_stocks)</strong></span></p>
<p><span style="color: #808000;"><strong><br />
</strong></span></p>
<p>(5) Y una función MUY importante que utilizaremos en nuestros scripts para generar gráficos, es la de selección de columnas dentro del dataset.<br />
Para ello invocamos el nombre de la variable y separamos con un signo $ la columna que nos interesa, por ejemplo:</p>
<p>&gt; <span style="color: #808000;"><strong>ibm_stocks$close</strong></span></p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=191</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>R Basic Tip: Ordenar vectores en R</title>
		<link>http://i314.com.ar/?p=184</link>
		<comments>http://i314.com.ar/?p=184#comments</comments>
		<pubDate>Wed, 23 Feb 2011 10:26:16 +0000</pubDate>
		<dc:creator>i314</dc:creator>
				<category><![CDATA[R Tips]]></category>

		<guid isPermaLink="false">http://i314.com.ar/?p=184</guid>
		<description><![CDATA[R Tips - Como ordenar y recorrer vectores en R. rstats. <span style="color:#777"> . . . &#8594; Read More: <a href="http://i314.com.ar/?p=184">R Basic Tip: Ordenar vectores en R</a></span>]]></description>
			<content:encoded><![CDATA[<p><a href="http://i314.com.ar/wp-content/uploads/2011/02/r.jpg"><img class="alignleft size-thumbnail wp-image-185" title="r" src="http://i314.com.ar/wp-content/uploads/2011/02/r-150x150.jpg" alt="" width="70" height="70" /></a></p>
<p>R trabaja de manera muy fácil con vectores.<br />
En estos ejemplos voy a usar directamente desde la consola R, donde intentaremos definir un vector y luego ordenarlo.</p>
<p>(1) Primero definiremos nuestro vector, al cual voy a llamar vector01 y lo definiremos siempre con el comando &#8220;c&#8221;, el cual proviene de &#8220;combine&#8221;.</p>
<p><strong><span style="color: #808000;">&gt; vector01 &lt;- c(11,2,0,1,10,43,3)</span></strong></p>
<p>(2) Vamos a listarlo para ver como quedó.</p>
<p><strong><span style="color: #808000;">&gt; vector01</span></strong></p>
<p><span style="color: #000000;">(3) Vamos a ordenarlo.<br />
</span></p>
<p><strong><span style="color: #808000;">&gt;vector01[order(vector01)]</span></strong></p>
<p><span style="color: #000000;">(4) Lo ordenamos de una manera más intuitiva con la función SORT.</span></p>
<p><span style="color: #808000;"><strong>&gt; sort(vector01)</strong></span><br />
(5) Lo ordenamos de manera descendente.</p>
<p><strong><span style="color: #808000;">&gt; sort(vector01,decreasing = TRUE)</span></strong></p>
<p><strong><span style="color: #808000;"><a href="http://i314.com.ar/wp-content/uploads/2011/02/R-Vector-Order.png"><img class="aligncenter size-large wp-image-186" title="R-Vector-Order" src="http://i314.com.ar/wp-content/uploads/2011/02/R-Vector-Order-1024x575.png" alt="" width="640" height="359" /></a><br />
</span></strong></p>
<p><strong><span style="color: #808000;"><br />
</span></strong></p>
]]></content:encoded>
			<wfw:commentRss>http://i314.com.ar/?feed=rss2&#038;p=184</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

