<?xml version="1.0" encoding="utf-8" ?>
<?xml-stylesheet href="http://rss.egloos.com/style/blog.xsl" type="text/xsl" media="screen"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel>
	<title>신기루 속 신기루</title>
	<link>http://shingiru.egloos.com</link>
	<description>허허로운 사막, 그 오아시스 위에 뿌려진 별무리</description>
	<language>ko</language>
	<pubDate>Mon, 25 Feb 2008 05:13:12 GMT</pubDate>
	<generator>Egloos</generator>
	<image>
		<title>신기루 속 신기루</title>
		<url>http://pds3.egloos.com/logo/200612/22/80/b0015580.jpg</url>
		<link>http://shingiru.egloos.com</link>
		<width>80</width>
		<height>100</height>
		<description>허허로운 사막, 그 오아시스 위에 뿌려진 별무리</description>
	</image>
  	<item>
		<title><![CDATA[ 발치(拔齒) ]]> </title>
		<link>http://shingiru.egloos.com/3634350</link>
		<guid>http://shingiru.egloos.com/3634350</guid>
		<description>
			<![CDATA[ 
  여태 살아오며 치과 치료를 두 판 받은 적이 있다. 굳이 판이라 부르는 이유는 한 번 치료 받을 때마다 한 달 이상 씩 걸렸기 때문이다. 지금도 치아 상태가 썩 좋지 않으니, 조만간 금니를 씌운 것들을 다시 한 번 다 뜯어고쳐야 할 것 같다.<br />
<br />
치과 치료에 대해 이야기하면 누구나 크고 작은 공포감이 추억으로 있을 것이다. 나의 경우에도 윗턱 아랫턱 할 것 없이 좌우 위 아래 구석마다 서너 개 정도를 치료받았으니, 그 공포가 남 못지 않다. 심지어 치과의사가, 마취제를 너무 많이 쓰는 건 좋지 않으니 마취하지 말고 하자고 꼬시기도 했었다. 순진하게도 몇 번은 정말 마취를 하지 않고 치료를 받은 적도 있다. 그것도 신경치료를.<br />
<br />
내겐 이런 공포감 말고 다른 하나의 추억이 더 있다. 치과 치료 하면 생각나는 추억, 정확히는 생각나는 단어가 하나 있다.<br />
<br />
처음 치과 치료를 받은 때는 중학교 1학년 때이다. 그간 썩혀둔 치아를 한 번에 몰아서 치료를 받는 상황이었다. 이를 갈고, 신경을 뽑고, 땜을 하고. 그나마 완전히 뽑아버려야 하는 치아는 없었다. 그리고 금을 씌워야 할 정도도 아니었다.<br />
<br />
그렇게 하루하루 치과 치료를 받으러 다니던 때에, 어느날 치과 의원에서 순서를 기다리다가 재미난 상황을 목격한 적이 있다. 어떤 중년의 신사분이 점잖게 차려입고 치과에 들어섰다. 으레 그렇듯 간호사는 무슨 일로 오셨나고 물었다.<br />
<br />
그때 신사분 왈, 발치하러 왔습니다.<br />
간호사 왈, 뭐라고요?<br />
신사분 왈, 발치하러 왔다고요.<br />
<br />
간호사는 다소 멍멍한 표정으로 서 있다가 옆 간호사를 바라봤다. 그러나 옆 간호사도 마찬가지 표정이었다. 안내석 앞에 서서, 서로 눈빛을 교환하던 간호사들을 바라보던 그 신사분은 더 이상 못참겠다는 듯이 한 마디 던졌다.<br />
<br />
이빨 뽑으러 왔다고요.<br />
<br />
간호사 왈, 아니 다른 일 때문에 오셨다면서요? 진작 그렇게 말씀하셨어야 할 거 아녜요?<br />
화내는 간호사에게 신사분 왈, 아니 치과 직원이 발치라는 말도 모르는 게 말이 됩니까?<br />
<br />
그날의 옥신각신이 어찌 결론났나는 잘 기억나지 않지만, 그래도 내 머릿속에는 발치라는 한자어 하나가 확실히 각인되었다. 이후 무협지에서 발도(拔刀)술이라는 기술을 알게 되었을 때도, 그 덕에 쉽게 의미를 이해할 수 있었으니 말이다.<br />
			 ]]> 
		</description>
		<category>신기루</category>

		<comments>http://shingiru.egloos.com/3634350#comments</comments>
		<pubDate>Mon, 25 Feb 2008 05:08:28 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ 에디터 카테고리 추가 ]]> </title>
		<link>http://shingiru.egloos.com/3614566</link>
		<guid>http://shingiru.egloos.com/3614566</guid>
		<description>
			<![CDATA[ 
  에디터 카테고리를 추가하고, 현재 진행하고 있는 에디터 프로젝트에 대한 글을 올리기로 결심.<br />
			 ]]> 
		</description>
		<category>신기루</category>

		<comments>http://shingiru.egloos.com/3614566#comments</comments>
		<pubDate>Mon, 11 Feb 2008 05:41:57 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ An Information-theoretic Measure for Document Similarity ]]> </title>
		<link>http://shingiru.egloos.com/2927990</link>
		<guid>http://shingiru.egloos.com/2927990</guid>
		<description>
			<![CDATA[ 
  An Information-theoretic Measure for Document Similarity<br />
<br />
<a href="http://portal.acm.org/citation.cfm?id=860545">http://portal.acm.org/citation.cfm?id=860545</a><br />
<br />
Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, 2003<br />
<br />
Javed A. Aslam, Meredith Frost - Department of Computer Science, Dartmouth College, {<a href="mailto:{jaa@cs.dartmouth.edu">jaa@cs.dartmouth.edu</a>, <a href="mailto:Meredith.Frost@dartmouth.edu">Meredith.Frost@dartmouth.edu</a>}<br />
<br />
이 논문은 새로운 문서간 유사도식을 제안한다.<br />
새로운 식의 이름은 IT-Sim 으로써, 이는 논문의 제목에서 알 수 있듯, Information-theoretic Similarity 의 약어이며, 우리말로는 정보이론기반 유사도식 정도가 되겠다.<br />
<br />
이 식은 Dekang Lin 의 논문(An Information-Theoretic Definition of Similarity, In Proc. 15th International Conf. on Machine Learning, 1998)에 착안해서 유도되었다.<br />
Dekang Lin 은 그의 논문에서 정보이론 관점에서의 유사도에 대해&nbsp;짚어보고 있으며, 이로부터&nbsp;유사도 식에 대한 일반적 정의를 다음과 같이&nbsp;이끌어내고 있다.<br />
<br />
유사도란 두 객체가 공통으로 지닌 정보와 서로 다르게 지닌 정보의 양에 대한 물음이다.<br />
정보이론은 이러한 직관적 지적에 대해 계량적인&nbsp;측정 방법을 제공하며, 이는 수학적으로 설명될 수 있다.<br />
그러므로 정보이론에 기반한 유사도는 다음과 같은 수식으로&nbsp;표현될 수 있다.<br />
<br />
IT-Sim(A, B) = <em><span style="FONT-FAMILY: Serif">I</span></em>(common(A, B)) / <em><span style="FONT-FAMILY: Serif">I</span></em>(description(A, B))<br />
<em><span style="FONT-FAMILY: Times New Roman">&nbsp;&nbsp;&nbsp;&nbsp; I</span></em>(common(A, B)) - A 와 B 가 공통으로 지니는&nbsp;정보량<br />
&nbsp;&nbsp;&nbsp;&nbsp; <em><span style="FONT-FAMILY: Times New Roman">I</span></em>(description(A, B)) - A 와 B 가 지니는 정보량<br />
<br />
정보이론에 근거, 정보량과&nbsp;발생확률과의 관계는 <span style="FONT-FAMILY: Serif"><em>I</em></span>(<span style="FONT-FAMILY: Serif"><em>E</em></span>) = log(1/<span style="FONT-FAMILY: Serif"><em>P</em></span>(<em><span style="FONT-FAMILY: Serif">E</span></em>))&nbsp;이므로 IT-Sim 은 다음과 같이 유도된다고 Lin 은 이야기한다.<br />
<br />
<div style="text-align:center"><img class="image_mid" border="0" onmouseover="this.style.cursor='pointer'" alt="" src="http://pds4.egloos.com/pds/200701/12/80/b0015580_11012619.gif" width="394" height="53" onclick="Control.Modal.openDialog(this, event, 'http://pds4.egloos.com/pds/200701/12/80/b0015580_11012619.gif');" /></div><br />
이때, π(s) 는&nbsp;<em><span style="FONT-FAMILY: Times New Roman">P</span></em>(<em><span style="FONT-FAMILY: Serif">E</span></em>)&nbsp;를 나타내는 것으로써 발생확률을 뜻하고, 문서간 유사도 식에서는 문서에 포함된 단어들의 발생확률이&nbsp;되므로 다음과 같이 유도할 수 있다.<br />
<br />
<div style="text-align:center"><img class="image_mid" border="0" onmouseover="this.style.cursor='pointer'" alt="" src="http://pds5.egloos.com/pds/200701/12/80/b0015580_11013581.gif" width="414" height="53" onclick="Control.Modal.openDialog(this, event, 'http://pds5.egloos.com/pds/200701/12/80/b0015580_11013581.gif');" /></div><br />
&nbsp;&nbsp;&nbsp; P<span style="FONT-SIZE: 85%">A,t</span>&nbsp;- 단어 t 가 문서 A 에서 나타날 확률<br />
&nbsp;&nbsp;&nbsp; π(t) - 단어 t 가 문서에 포함될 확률<br />
<br />
이 논문에선 이 정도만 설명되어있지만, 좀 더 살펴보면, P<span style="FONT-SIZE: 85%">A,t</span> 는 tf(t) / |A| 로 볼 수 있고, π(t) 는 df(t) / N 으로 볼 수 있다.<br />
<br />
실험은 8 가지의 TREC 을 이용해 이루어졌다.<br />
우선, IT-Sim 이 종전의 유사도식들(Cosim, Cosim-IDF, Dice)에 비해 어느 정도 정확도가 증가했는지를 보인다.<br />
고르게 높은 증가율을 보이는데, 이에 대한 자세한 도표는 논문 안에 잘 나타나 있다.<br />
다음으론, 각 유사도식들 사이의 정확도 비교표를 보이고 있는데, 이 또한 논문 안에 잘 나타나 있다.<br />
<br />
결론부에서는 실험에 대한 평가를 내리고 있는데, 대체적으로 제안하는 유사도식이 뛰어나다는 내용이다.<br />
<br />
PDF 로 2 페이지인 짧은 논문이지만 비교적 내용이 알차게 표현되어 있다는 인상을 받았다.<br />
자세한 것은 직접적인 실험을 통해 검증해봐야겠다. 			 ]]> 
		</description>
		<category>논문읽기</category>

		<comments>http://shingiru.egloos.com/2927990#comments</comments>
		<pubDate>Wed, 10 Jan 2007 02:01:29 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ An overview of audio information retrieval ]]> </title>
		<link>http://shingiru.egloos.com/2890372</link>
		<guid>http://shingiru.egloos.com/2890372</guid>
		<description>
			<![CDATA[ 
  An overview of audio information retrieval<br />
<br />
<a href="http://www.rotorbrain.com/foote/papers/acm98.pdf">http://www.rotorbrain.com/foote/papers/acm98.pdf</a><br />
<br />
In Multimedia Systems, vol. 7 no. 1, pp. 2-11, ACM Press/Springer-Verlag, January 1999 (1997)<br />
<br />
Jonathan Foote - Institute of Systems Science, National University of Singapore, Heng Mui Keng Terrace, Singapore 119597<br />
<br />
이 논문은 그 제목에서 알 수 있듯, AIR(Audio Information Retrieval)에 대해 개괄을 다룬 1997 년의 논문이다.<br />
당시까지&nbsp;AIR 의 대세를 이루던 두 축 중에서,&nbsp;비교적 연구가 활발했던&nbsp;Speech Recognition 을 한 축으로 잡고 있고, 다른 한 축으로는, 오히려&nbsp;이후에 연구가 활발해진 Music Analysis 분야를 다루고 있다.<br />
<br />
ASR(Automatic Speech Recognition) 시스템은 HMM(Hidden Markov Model)에 기반한 것들이&nbsp;실용화되었으나, 많은 어휘를 처리하는 상황에선 현실적으로 불가능하다는 것을 지적한다.<br />
그러면서, 다(多)어휘 ASR 은 HMM 대신 부분어휘(sub-word) 접근법으로 구현된다고 설명한다.<br />
그러나 이러한 다양한 연구&nbsp;작업에도 불구하고 ASR 은 정확도가 너무 떨어진다는 한계를 지닌다고 한다.<br />
더불어, 부분어휘 기반이나 음소(phone) 기반 접근법이, 발생할 수 있는 에러에 대해 견고(robust)하게 대응할 수 있어야 한다고 이야기한다.<br />
<br />
음성 인식과 관련한 세부 항목으론,&nbsp;Keyword spotting, Sub-word indexing, Large-vocabulary ASR, Speaker identification 에 대해 간략히 소개를 하고 있다.<br />
그림과 함께 어렵지 않게 설명하고 있으니, 여기에서 자세히 다루진 않겠다.<br />
<br />
Music Analysis 에 대한 소개는, ASR 이 다루는 음성 말고도, 현실엔 더 많은 종류의 소리가 있다는 이야기로 시작된다.<br />
그러며 제일 먼저 소개하는 것은 Music discrimination 이다.<br />
이는, 여러 소리가 섞인 오디오 데이터에서 말하는 부분, 박수 소리, 휴지 구간 등을 분리해내는 분야이다.<br />
이 연구의 즉자적 이용은 ASR 자체이기도 하다.<br />
즉, 보다 성능이 좋은 ASR 을 위해서 음성 데이터만을 분리해내는 등의 작업에 사용될 수 있는 것이다.<br />
예컨데, 쇼프로를 녹음한 데이터에서 사회자가 말한 부분과 가수가 말한 부분 등만을 골라내는 작업인 것이다.<br />
이와 같은 구간 분리기는 내부적으로 자동 분류의 기법에 의해 구현되고, 학자에 따라 여러 feature 를 이용해서 분류기를 만들었음을 소개하고 있다.<br />
<br />
위의 두 분야에 대한 소개에 이어, 지금까지 연구된 다른 분야들도 소개를 하고 있으나, 지금(2006년말)의 시점에서 보면 다 알만한 내용의 것들이다.<br />
각각을 간단히 소개하면 다음의 다섯가지이다.<br />
<br />
카세트 테입 플레이어처럼&nbsp;음성 데이터만 고배속으로 재생하기&nbsp;- 음악과 달리 말소리는 좀 빨리 감아도 어떤 내용인지 사람이 알 수 있기 때문이다.<br />
많은 음악&nbsp;DB 에서,&nbsp;조각 파일로 음악 찾기.<br />
Midi 파일을 DB 로 만들고&nbsp;멜로디로 해당 파일 찾기.<br />
비디오 메일의 음성 정보를 분석한 뒤, 문자열로 검색해 찾기 -&nbsp;친구가 생일 축하 메시지를 비디오 메일로 보냈을 때, '축하'라고 검색하면, 그 말을 한 구간을 찾아준다.<br />
동영상 데이터를 분석해&nbsp;메타데이터 자동 생성하기 - 음성정보를 text 로 변환하고 TF*IDF 로 가중치를 준 뒤, 이를 색인하는 방식이다.<br />
<br />
전체적으로 볼 때, AIR 에 대한 소개를 목적으로 했었으나, 비교적 음석인식에 대한 이야기들이 대부분이다.<br />
다소 세월이 지난 입문서를 손에 든 느낌과 같다.			 ]]> 
		</description>
		<category>논문읽기</category>

		<comments>http://shingiru.egloos.com/2890372#comments</comments>
		<pubDate>Fri, 22 Dec 2006 03:14:55 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ Audio Information Browsing With The Sonic Browser ]]> </title>
		<link>http://shingiru.egloos.com/2890232</link>
		<guid>http://shingiru.egloos.com/2890232</guid>
		<description>
			<![CDATA[ 
  Audio Information Browsing With The Sonic Browser<br />
<br />
<a href="http://portal.acm.org/citation.cfm?id=937938.937946&amp;coll=&amp;dl=GUIDE&amp;CFID=15151515&amp;CFTOKEN=6184618">http://portal.acm.org/citation.cfm?id=937938.937946&amp;coll=&amp;dl=GUIDE&amp;CFID=15151515&amp;CFTOKEN=6184618</a><br />
<br />
Proceedings of the conference on Coordinated and Multiple Views In Exploratory Visualization, 2003<br />
<br />
Eoin Brazil, Mikael Fernström - Interaction Design Centre, Department of Computer Science and Information Systems, University of Limerick, Ireland, <a href="mailto:{eoin.brazil@ul.ie">{eoin.brazil@ul.ie</a>, <a href="mailto:mikael.fernstrom@ul.ie">mikael.fernstrom@ul.ie</a>}<br />
<br />
이 논문은 이전 논문인 <a href="http://shingiru.egloos.com/2888449">Sonic Browsing: an auditory tool for multimedia asset management</a>&nbsp;&nbsp;의 뒤를 잇는 논문이다.<br />
이전 논문에서는&nbsp;다수의 음악 파일에서 원하는 파일을 빠르게 찾는 방법으로써 "cocktail&nbsp;party effect"&nbsp;에 기반한&nbsp;동시에 여러 음악을 듣고/찾기를 제안하고, 이를 구현한 프로그램인 Sonic Browser 에 대해 소개했었다.<br />
이에 더해, 이 논문에서는 좀 더 다양한 view 를 제공하여,&nbsp;HCI 적인 진척을 이루어낸 업그레이된 버전의 Sonic Browser 를 소개한다.<br />
<br />
우선, 이전&nbsp;버전에서 제공했던&nbsp;cursor/aura-over-icons&nbsp;의&nbsp;업그레이된 측면을 소개하고 있는데, 이에 대해 간단히 살펴보자면 이렇다.<br />
음악 browsing 화면에는 여러 음악 파일이 아이콘으로&nbsp;표현되는데, 이때&nbsp;Windows 탐색기처럼 row by row 형태로 리스팅되는 것이 아니라, 마치 별자리처럼 여기 저기 흩어진&nbsp;모습으로 나온다.<br />
그 화면의 x 축은 (사용자 지정에 따라) bitrate 가 되고, y 축은 filesize 가 된다.<br />
그리고, 각 아이콘은 모양과 색깔을 지니고 있는데, 이 또한 사용자가 지정한 여러 속성을 반영한 것이다.<br />
이렇게 흩뿌려진 아이콘들 중에서 하나를 선택해 마우스를 가져가면, 주변에 회색 원이 그려지는데, 이를 aura 라 한다.<br />
그리고 듣기를 누르면, 그 aura 안에 들어오는 음악파일들은 동시에 들려지는 것이다.<br />
<br />
이 논문에서 소개한 업그레이드 측면은, 이렇게 한 번 확인한 aura 내의 파일들을 다른 view 에서 연속해서 추적하는 것을 뜻한다.<br />
즉, 사용자는 x 축과 y 축의 속성을 (filename 등으로) 변경할 수 있고, 앞의 view 에서 aura 안에 들었던 음악&nbsp;아이콘들은 여전히 highlight 된 상태로 표시되는 것이다.<br />
더불어, 이 논문에서는 지금까지 제공했던 (기본 view 로써의) 별자리 방식&nbsp;이외에도 다양한 view 를 제공하고 있기 때문에 사용자는 더 쉽게 browsing 을 할 수 있는 것이다.<br />
<br />
그렇다면, 어떤 view 들이 추가되었는지 살펴보자.<br />
우선 앞에서 이야기한 x-y plot 방식의 별자리 view 가 있다.<br />
그 다음으론, TreeMap 방식, HyperbolicTree 방식 (fisheye 방식), 그리고 TouchGraph 방식이 있다.<br />
TreeMap 방식은 흔히 아는 tree 방식을 뜻하고, HyperbolicTree 방식와 TrouchGraph 방식은 논문의 그림을 참고하면 쉽게 이해할 수 있다.<br />
<br />
이렇게 추가된 view&nbsp;들과 더불어 browsing 을 위한 새로운 도구로써, 몇 가지 filter&nbsp;를 제공한다.<br />
이는 슬라이드바를 통해&nbsp;원하는 음색의 범위만을 지정해서 출력되는 아이콘을 추리는 식이다.<br />
음색 뿐만 아니라, 더 많은 슬라이드바를 제공하고 있으며, 이 또한 논문 속의 그림에 잘 나타나 있다.<br />
그리고, 기초적인 형태로 text 검색류의 filter 를 제공하기도 하며, color filter 를 제공하기도 한다.<br />
<br />
실험으로써, 몇 명의 Sound Designer 와의 인터뷰를 진행하고, 그 결과를 논문에 싣고 있다.<br />
추가된 view 들이 지니는 장단점이 있는 터라, 현업의 사용자가&nbsp;생각하는 의견이 간략하게 기술되어 있다.<br />
<br />
전체적으로 볼 때, 논문의 내용이 Audio Information 의 Information 자체에 집중하고 있다기 보다는, 다소 GUI 적인 아이디어와 그를 반영한 개선에 집중하고 있다는 느낌을 받을 수 있다.<br />
그러나 이후에도 연구가 계속 진행되었으니, 이후 연구에 대한 소개는 다른 글을 통해 살펴보겠다. 			 ]]> 
		</description>
		<category>논문읽기</category>

		<comments>http://shingiru.egloos.com/2890232#comments</comments>
		<pubDate>Fri, 22 Dec 2006 01:31:07 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ 요즘 모습 ]]> </title>
		<link>http://shingiru.egloos.com/2888758</link>
		<guid>http://shingiru.egloos.com/2888758</guid>
		<description>
			<![CDATA[ 
  <div style="text-align:center"><img class="image_mid" border="0" onmouseover="this.style.cursor='pointer'" alt="" src="http://pds4.egloos.com/pds/200612/21/80/b0015580_04124522.jpg" width="280" height="350" onclick="Control.Modal.openDialog(this, event, 'http://pds4.egloos.com/pds/200612/21/80/b0015580_04124522.jpg');" /></div><br />
<br />
사실은 올 3월 정도의 사진 ^^ 			 ]]> 
		</description>
		<category>신기루</category>

		<comments>http://shingiru.egloos.com/2888758#comments</comments>
		<pubDate>Thu, 21 Dec 2006 07:39:19 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ Audio Information Retrieval (AIR) Tools ]]> </title>
		<link>http://shingiru.egloos.com/2888644</link>
		<guid>http://shingiru.egloos.com/2888644</guid>
		<description>
			<![CDATA[ 
  Audio Information Retrieval (AIR) Tools<br />
<br />
<a href="http://www.ee.columbia.edu/~dpwe/papers/TzanC00-airtools.pdf">http://www.ee.columbia.edu/~dpwe/papers/TzanC00-airtools.pdf</a><br />
<br />
2000<br />
<br />
George Tzanetakis - Department of Computer Science, Princeton University, <a href="mailto:gtzan@cs.princeton.edu">gtzan@cs.princeton.edu</a><br />
Perry Cook - Department of Computer Science and Department of Music, Princeton University, <a href="mailto:prc@cs.princeton.edu">prc@cs.princeton.edu</a><br />
<br />
이 논문은 Feature-based audio analysis 가&nbsp;지니는 기술적 요소를 소개하고,&nbsp;이렇게&nbsp;얻어진 오디오 데이터를&nbsp;Graphic 적으로 확인할&nbsp;수 있는 TimbreGrams 의 개념, 그리고 이를&nbsp;만들고 확인할 수 있기 위해&nbsp;제작한 프로그램인 Marsyas 라는 사운드에디터를 소개하는 논문이다.<br />
<br />
종래의 AIR(혹은 MIR)은 오디오 데이터 자체 보다는, 그것의 상징적&nbsp;특징을 기반으로 했었다.<br />
AIR 이 MIT 의 Search by Humming 으로&nbsp;유명해졌고, 이 연구 이후 주로 사용되었던 방식이 UDR 스트링 탐색이라는 것이었다.<br />
UDR 스트링은 Up, Down, Repeat 를 뜻하는 것으로, MIDI 악보를 통해, 음악 정보를 UDR 로 바꾸고 DB 화해둔 뒤에 사용자로부터 humming 을 받아, 이를 분석해서 다시 UDR 스트링으로 바꾸고, DB 에서 검색하는 방식이었다.<br />
그러나, 현실의 모든 음악을 UDR 로 표현할 수 있는 것도 아닐 뿐더러, 대부분의 음악은 악보를 구할 수조차 없는 한계를 지니고 있었다.<br />
이러한 연구에 대한 한계를 극복하고자 시도한 것이 오디오 데이터 자체의 특성을 분석하고 이용하는 연구였다.<br />
이 논문도 이런 차원의 연구인 것이다.<br />
<br />
오디오 데이터의 특성을 연구한다는 것은, 신호처리 적인 분석을 통해 그 특성을 파악하는 데에서 시작한다.<br />
이 논문에서 거론하는 기본적인 특성 파악(Feature Extraction)&nbsp;기법들은 FFT, MPEG filterbank, LPC, MFCC 등이다.<br />
최근에는 MPEG-7 의 기법과 LPC/MFCC 기법이 대세를 이루고 있으며, 이에 대한 비교 연구도 있다.<br />
<br />
Feature 기반, 혹은 내용 기반 분석이라 불리는 이 연구의 흐름에서 가장 기본적으로 행해진 분야는, Classification 이다.<br />
이는&nbsp;Text Classification 과 비슷한 방식(학습하고, 대표 벡터를 찾고, 분류하는 방식)으로 진행된다.<br />
주로 음악 장르를 분류하는 것이 일반적이며, 재즈, 락, 클래식,&nbsp; 팝 등을 대분류를 구분한다거나, 스포츠 채널의 오디오를 경기 종류(농구, 골프, 야구 등)로 나누는 식의 연구가 있다.<br />
대략 90 % 정도까지 정확도를 높인 것으로 보고되고 있다.<br />
<br />
이를 위해 모수/비모수 기반의&nbsp;다양한 기법들이 활발히 연구되고 있다.<br />
이 논문에서는 제안하는 Marsyas 라는 툴에서 이러한 기법의 일부인 가우시안 기법, 가우시안 혼합 모델&nbsp;기법, KNN 등의 분류기능을 지원한다고 밝히고 있다.<br />
<br />
Marsyas 가 보여주는 기능 중 가장 흥미로운 것은 TimbreGrams 이다.<br />
우선 Feature Extraction 을 하고, 얻어진 feature 를 분석하여, 음악 파일을 (motive 적인)&nbsp;segment 로 나눈 뒤에, 그 각각의 segment 를 color 로 표현하고 있다.<br />
이로써, 하나의 음악 파일은 알록달록한 색깔띠로 표현된다.<br />
일단, 이렇게 음악을 색깔띠로 표현하고 나면, 사람들은 쉽게 다른 곡과 비교할 수 있게 되는 것이다.<br />
<br />
TimbreGrams 와 더불어, Audio Thumbnail 기능도 제공하고 있는데, 이는 이미지에 대한 썸네일처럼, 오디오의 특정 구간만을 뽑아 대표 멜로디로 취하고, 이를 이용해 듣고/찾는 행위를 쉽게 해주는 것이다.<br />
<br />
다른 논문들에서 TimbreGrams 개념에 대해 흥미로워하고 있으니, 이는 한 번 살표볼 만 하다.<br />
&nbsp; 			 ]]> 
		</description>
		<category>논문읽기</category>

		<comments>http://shingiru.egloos.com/2888644#comments</comments>
		<pubDate>Thu, 21 Dec 2006 06:36:33 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ 논문읽기 카테고리 추가 ]]> </title>
		<link>http://shingiru.egloos.com/2888596</link>
		<guid>http://shingiru.egloos.com/2888596</guid>
		<description>
			<![CDATA[ 
  이글루스에 대한 애정이 생겼다.<br />
본격적으로 블로그를 해볼 작정이다.<br />
추천글에 대한 애착도 있고 하니.<br />
<br />
논문읽기라는 카테고리를 만들었다.<br />
계속 논문을 읽고 있으니, 읽는 논문들을 정리해서 올릴 참이다.<br />
여전히 내가 잘 모르는 것들도 많지만 할 수 있을 때까지 해봐야겠다.<br />
<br />
국문학과 불문학을 전공했으니 어찌하랴.<br />
Software Engineer 로 살기 위해선 더 많이 공부할 수밖에.			 ]]> 
		</description>
		<category>신기루</category>

		<comments>http://shingiru.egloos.com/2888596#comments</comments>
		<pubDate>Thu, 21 Dec 2006 05:53:12 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ Randomized Algorithms and NLP: Using Locality Sensitive Hash Function for High Speed Noun Clustering ]]> </title>
		<link>http://shingiru.egloos.com/2888578</link>
		<guid>http://shingiru.egloos.com/2888578</guid>
		<description>
			<![CDATA[ 
  Randomized Algorithms and NLP: Using Locality Sensitive Hash Function for High Speed Noun Clustering<br />
<br />
<a href="http://acl.ldc.upenn.edu/P/P05/P05-1077.pdf">http://acl.ldc.upenn.edu/P/P05/P05-1077.pdf</a><br />
<br />
Proceedings of the 43rd Annual Meeting of the ACL 2005<br />
<br />
Deepak Ravichandran, Patrick Pantel, and Eduard Hovy - Information Sciences Institute, University of Southern California, {ravichan, pantel, <a href="mailto:hovy}@ISU.EDU">hovy}@ISU.EDU</a><br />
<br />
대용량 NLP 의 한계는 흔히 차원의 저주(curse of dimensionality)라 불린다.<br />
이를 해소하기 위한 다양한 연구가 진행되고 있다.<br />
이 논문은 그 방편으로써, LSH(Locality Sensitive Hash) Function 을 통한 차원 축소와 Fast Hamming Distance Search 알고리즘을 제시하고, 이를 적용한 실험 결과를 밝히고 있다.<br />
<br />
LSH 는 1998 년 Indyk, P. 와 Motwani, R.&nbsp;에 의해 NLP 분야에&nbsp;제안된 것이다. (Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality, Proceedings of 30th STOC)<br />
그리고 이 연구에 기대어, Charikar, Moses 는 2002 년에 이를&nbsp;유사도 측정 기법에 적용했다. (Similarity Estimation Techniques from Rounding Algorithms, Proceedings of 34th Annual ACM Symposium on Theory of Computing)<br />
두 논문의 연구를 이어, 추가적인 탐색 기법과 실험 결과를 보인 연구가 이 글에서 보는 논문이다.<br />
<br />
논문의 주제가 명사 클러스터링이기 때문에, 클러스터링을 위한 유사도 식을 필요로 한다.<br />
이 유사도 식은 여러 가지 중에서 코사인 유사도 식을 사용했고, 이에 대한 차원 축소 기법으로 LSH 를 사용했다.<br />
<br />
LSH 는 간단한 Hashing 함수이다.<br />
임의의 벡터 u 와 랜덤 벡터 r 사이의 내적이 양수이면 1 을, 음수이면 0 을 리턴한다고 정의한 함수이다.<br />
이렇게 정의할 경우, 식의 전개에 의해 다음과 같은 벡터 u 와 v 의 유사도 식이 나오게 된다. (식 전개 생략)<br />
cos( θ( u, v ) ) = cos( ( 1 - Prob[Hr( u ) = Hr( v )] ) π )<br />
이때, 랜덤 벡터 r 이 여러 개가 된다면 결국 다음과 같이 되고,<br />
Prob[Hr( u ) = Hr( v )] = 1 - ( hamming distance ) / d<br />
이는 결국, 위 식에 대입되어, 다음과 같은 코사인 유사도 식으로 정리된다.<br />
cos( θ( u, v ) ) = cos( ( hamming distance ) / d ) π )<br />
<br />
이렇게 유사도 식이 정리가 되고 나면, 남은 작업은 각 명사들에 대해 d 개의 (0 이나 1 의 값을 갖는) 비트 스트림을 계산하는 작업이다.<br />
이렇게 (축소된) d 차원의 matrix 를 가지고 클러스터링을 수행하면 되는 것이다.<br />
<br />
클러스터링은 상향식이든 하향식이든 유사 문서(여기에선 명사)를 찾아야 하는 식이기에 결국 모든 명사를 뒤져야 한다는 어쩔 수 없는 면이 있다.<br />
이 작업이 지나치게 많은 연산을 필요로 하기 때문에, 이 논문에서는 모든 것을 뒤지지 않고 근접할 수 있는 몇 개만 추려서 탐색하는 방안을 제시하고 있다.<br />
이것이 바로, Fast Hamming Distance Search 를 위해 사용된 PLEB(Point Location in Equal Balls) 이다.<br />
<br />
PLEB 탐색 알고리즘은 비트열을 뒤섞고, (가나다순으로) 정렬하여, 근접 이웃 B 개만을 (유사도 비교) 대상셋으로 추리는 기법이다.<br />
뒤섞기 위한 Random Permutation 함수는 다음과 같다.<br />
π( x ) = ( ax + b ) mod p&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ( 0 &lt; a &lt; p, 0&nbsp;≤ b &lt; p )<br />
이런 뒤섞기를 여러 번 하고 각각을 기록해두었다가, 각 섞인 셋에서 이웃들을 추출, 합산해서 그 셋하고만 유사도를 측정해보는 것이다.<br />
물론 유사도는 위의 정리된 유사도 식을 이용한다.<br />
<br />
논문에서는 다양한 실험을 통해, LSH 의 성능과, PLEB 의 성능, 그리고 이 둘을 종합한 성능을 밝히고 있다.<br />
이에 대한 자세한 소개는 논문 안의 표들을 어렵지 않게 참조할 수 있을 것이다.<br />
다만, 종합적 성능으로써 논문에서 70 % 정도의 정확도가 있다고 밝힌 것만 알리겠다.<br />
<br />
이 연구가 주는 시사점은, 랜덤 기법 두 가지를 통해 차원 축소와 비교셋 축소를 행하고 있다는 것이다.<br />
문서 IR 이 멀티미디어 IR 에서와 달리 (그러니까, 신호처리에 기반해 분류율 높은 factor 를 찾는 PCA 등과 달리) 임의의 feature 에 대해서 쉽게 reduction 하지 못한다는 것을 염두할 때, 재미있는 연구라고 생각한다. 			 ]]> 
		</description>
		<category>논문읽기</category>

		<comments>http://shingiru.egloos.com/2888578#comments</comments>
		<pubDate>Thu, 21 Dec 2006 05:41:45 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
	<item>
		<title><![CDATA[ Sonic Browsing: an auditory tool for multimedia asset management ]]> </title>
		<link>http://shingiru.egloos.com/2888449</link>
		<guid>http://shingiru.egloos.com/2888449</guid>
		<description>
			<![CDATA[ 
  Sonic Browsing: an auditory tool for multimedia asset management<br />
<br />
<a href="http://www.idc.ul.ie/data/publications/9_fernstro.pdf">http://www.idc.ul.ie/data/publications/9_fernstro.pdf</a><br />
<br />
Proceedings of the 2001 International Conference on Auditory Display, Espoo, Finland, July 29-August 1, 2001<br />
<br />
Mikael Fernström - Interaction Design Centre, Department of Computer Science and Information Systems, University of Limerick, Ireland, <a href="mailto:Mikael.fernstrom@ul.ie">Mikael.fernstrom@ul.ie</a><br />
Eoin Brazil - Interaction Design Centre, Department of Computer Science and Information Systems, University of Limerick, Ireland, <a href="mailto:eoin.brazil@ul.ie">eoin.brazil@ul.ie</a><br />
<br />
Sonic Browser 는 많은 음악 파일들을 브라우징하는 프로그램이다.<br />
이 논문에서는 Microsoft Windows 의 탐색기와 Sonic Browser 를 비교하며, 실험 집단을 통해 어떤 프로그램이 음악 파일의 탐색에 효율적인지를 밝히고 있다.<br />
<br />
Sonic Browser 의 가장 큰 특징은 동시에 여러 개의 음악 파일을 청취할 수 있다는 것이다.<br />
이는 cocktail party effect 로 불리는 인간의 음원 분리 능력에 기반하는 것이다.<br />
<br />
Sonic Browser 에서는 aura 라는 개념을 도입하는데, 이는 특정 domain 에 대한 인식적 범주, 즉 분별력을 뜻한다.<br />
여러 음악 파일은 aura 라는 domain 으로 묶여 그룹되고 리스팅된다.<br />
리스팅은 Windows 탐색기의 row by row 형태와 달리, 2차원 좌표에 흩어져 있는 형태이다.<br />
그리고, 같은 aura 의 음악들은 가깝게 뭉쳐있는 것이다.<br />
<br />
실험 집단은 이렇게 클러스터링된 음악 파일들을 동시에 듣고, 그 중에서 하나를 고르게 된다.<br />
테스트 방식이 "어떠어떠한 소리 파일을 고르시오" 식의 문항이기 때문이다.<br />
<br />
실험 결과에선 Sonic Browser 가 더 월등한 성능을 보인다고 결론 내린다.<br />
다만, (친절하게 설명된) 긴 파일명이 주어질 때만, Windows 탐색기가 더 좋다는 결과도 포함된다.<br />
<br />
Sonic Browser 는 이 논문을 작성한 팀이 지속적으로 업그레이드하고 있는 학문적 툴이다.<br />
다소 다른 분야이긴 하지만, 비견되는 툴로는 Marsyas 가 있다.<br />
Marsyas 도 학문적 툴로 제작되고 있는 중이니, 이에 대해선 다른 논문을 소개할 때 다루겠다. 			 ]]> 
		</description>
		<category>논문읽기</category>

		<comments>http://shingiru.egloos.com/2888449#comments</comments>
		<pubDate>Thu, 21 Dec 2006 04:28:21 GMT</pubDate>
		<dc:creator>신기루</dc:creator>
	</item>
</channel>
</rss>
