He visto this question, pero en realidad no satisface lo que estoy buscando. Las respuestas de esa pregunta fueron: levantar de la etiqueta de metadescripción, y la segunda generar un extracto de un artículo del que ya tienes el cuerpo.PHP Scrape Artículo Extracto como Legibilidad
Lo que quiero hacer es realmente obtener las primeras oraciones de un artículo, como lo hace la legibilidad. ¿Cuál es el mejor método para esto? Análisis de HTML? Esto es lo que estoy usando actualmente, pero esto no es muy confiable.
function guessExcerpt($url) {
$html = file_get_contents_curl($url);
$doc = new DOMDocument();
@$doc->loadHTML($html);
$metas = $doc->getElementsByTagName('meta');
for ($i = 0; $i < $metas->length; $i++)
{
$meta = $metas->item($i);
if($meta->getAttribute('name') == 'description')
$description = $meta->getAttribute('content');
}
return $description;
}
function file_get_contents_curl($url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_TIMEOUT, 5);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
$data = curl_exec($ch);
curl_close($ch);
return $data;
}
También puede consultar [php-legibilidad] (http://code.fivefilters.org/php-readability/) – j0k