2011-02-13 15 views

Respuesta

9

Aquí es lo que estoy usando (que maneja las etiquetas UTF-8, así, no sólo ASCII):

private static final Pattern TAG_PATTERN = 
    Pattern.compile("(?:^|\\s|[\\p{Punct}&&[^/]])(#[\\p{L}0-9-_]+)"); 

Por cierto, usted debería ser capaz de obtener el hashtags de las entidades de tweet (include_entities=true)

+0

Gracias, estoy usando la API de búsqueda de Twitter (JSON). ¿Las include_entities funcionan aquí? – Sri

+0

@Srirangan No lo sé, consulte la documentación. – Bozho

+0

Me pregunto si Twitter usa la propiedad Carta (que es una Categoría General Unicode) como la que tiene aquí, o si usa la propiedad Alfabética, que es una propiedad derivada que incluye varios signos diacríticos y cosas como números romanos. – tchrist