On Friday, January 31, 2014, Robert Ransom <<a href="mailto:rransom.8774@gmail.com">rransom.8774@gmail.com</a>> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
On 1/31/14, Daniel Kahn Gillmor <<a href="javascript:;" onclick="_e(event, 'cvml', 'dkg@fifthhorseman.net')">dkg@fifthhorseman.net</a>> wrote:<br>
If (a) the users will tolerate enough latency for the MITM box to<br>
buffer about a word of speech, and (b) the attacker can get some<br>
advance information about the users' dialect, it sounds like a fun<br>
problem for a grad student.</blockquote><div><br></div><div>I'll believe it when the "uncanny valley" is no longer a thing.</div><div><br></div><div>While I don't disbelieve that in the future we'll have systems that can edit video and audio in realtime and swap out a SAS, in the meantime I think our brains do a remarkable job of 1) identifying the voices of people we know well even if they say just one word 2) discriminating between 3D animations and the real thing, to the point it's disturbing to see a near-perfect (but slightly off) recreation of a person</div>
<div><br></div><div>Now compound the innate human ability to detect this with a security context where people are hopefully inherently skeptical a d you have a problem that's much harder than it appears at first glance.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
My understanding is that the major part of speaker recognition is the<br>
‘glottal pulse’ (which can easily be extracted from any voiced<br>
phoneme)</blockquote><div><br></div><div>Reminds me of Cryptonomicon where you need an impersonator who understands the precise timing (errors) in your particular rendition of Morse Code ;)<span></span> </div><br><br>-- <br>
Tony Arcieri<br><br>